NumPy / pandas

NumPyは行列などの数値計算を高速に行うためのPythonのライブラリ。

ndarrayというNumPyの多次元配列は、ベクトル計算やブロードキャストを高速に処理できるようC言語で実装された多次元配列で、 Pythonの組み込みの配列とは実装が異なる。行列計算や統計処理など豊富な関数が用意されており、Pythonのループよりも配列を高速に処理できるようになっている。 ndarrayがNumPyの目玉の1つ。

Pythonの組み込みの配列では2次元配列を表現しようと思うと配列の配列になるが、 ndarrayは多次元配列であり、次元ごとに要素数は統一されている必要がある。また、ndarrayは要素数が固定で原則として変更することができない固定長配列である。

pandasというライブラリは、NumPyがベースになっており、データ分析を簡単に行うためのツールが揃っている。

pandasではSeriesDataFrameという2つのデータ構造が提供されている。

Seriesは1次元配列に似ている。インデックスは0から始まる整数だけでなく、任意の文字列にもできるのでPythonのディクショナリ (他の言語でいうと連想配列とかハッシュマップとか)にも似ているが、 SeriesはPythoのリストと同様に順序を保存する点がディクショナリとは異なる。

目次

このサイトは筆者(hydrocul)の個人メモの集合です。すべてのページは永遠に未完成です。