PythonのNumpyとPandasの違いについて

2025年7月23日

Pythonでデータ分析や機械学習、統計処理を行う上で、必須とも言えるのが「NumPy」と「Pandas」という2つのライブラリです。

どちらもデータを効率よく扱うために設計されていますが、目的や得意分野が異なるため、使い分けを理解することが極めて重要です。

この記事では、両者の機能・構造・性能・使いどころの違いを詳しく解説し、どんな場面でどちらを使うべきかを明確にします。

NumPyとPandasの基本的な違い

ライブラリ	主な用途	得意な処理	扱うデータ
NumPy	数値計算	多次元配列操作、線形代数	数値データ（行列、ベクトルなど）
Pandas	データ処理・分析	表形式データの整形、集計、可視化前処理	CSVやExcelなどの表形式データ

NumPyは高速な配列演算・ベクトル演算に強みがあり、科学技術計算の基盤として広く使われます。

一方、Pandasはラベル付きデータを効率よく扱う高水準のデータ分析ライブラリであり、実データの整形や前処理に特化しています。

ライブラリ	主なデータ型	特徴
NumPy	`ndarray`	N次元配列。インデックスは整数。高速で軽量。
Pandas	`Series`, `DataFrame`	1次元または2次元のラベル付きデータ構造。可読性と操作性に優れる。

import numpy as np
arr = np.array([[1, 2], [3, 4]])
print(arr[0, 1])  # → 2

import pandas as pd
df = pd.DataFrame({
    'A': [1, 2],
    'B': [3, 4]
})
print(df.loc[0, 'B'])  # → 3

Pandasは行名・列名（インデックス・カラム）を付与できるため、可読性が非常に高く、実務での扱いやすさが際立ちます。

※ NumPyでもnp.isnan()やnp.nanmean()などを用いた欠損値処理は可能ですが、明示的に対処が必要で煩雑です。Pandasはこうした処理を自動で処理できる点が大きな利点です。

使用シーン	推奨ライブラリ	理由
高速な数値演算や行列処理	NumPy	配列演算に最適化されているため
表形式データの読み書きと前処理	Pandas	CSV/Excel/SQL対応が簡便で、構造化データに強い
欠損値の補完やフィルタ処理	Pandas	NaN処理が簡単で安全性が高い
データの集計やグループ分析	Pandas	`groupby()`での柔軟な集計が可能
機械学習の前処理	両方	数値変換はNumPy、特徴量エンジニアリングはPandasが便利

Pandasの内部構造はNumPyのndarrayをベースにしています。

たとえば、以下のようにDataFrameの中身はNumPy配列として取り出すことも可能です。

df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
print(type(df.values))  # <class 'numpy.ndarray'>

Pandasは1次元（Series）および2次元（DataFrame）には非常に強いですが、3次元以上のデータ構造には弱いです。

かつてはPanelという3D構造が存在しましたが、現在は非推奨です。

→ 高次元データには xarray などのライブラリを使うのが主流となっています。