概要
Pandas(パンダス)ライブラリを利用すれば、データをExcelやデータベースのように扱うことができます。
PandasにはSeriesとDataFrameという2種類のデータ構造が存在します。Seriesは1次元配列、DataFrameは2次元配列です。
データフレームは、ライブラリをインポートする際に「df」という変数に格納することが非常に多いです。スクリプト内に「df」が見えたらPandasが利用されていると考えてよいでしょう。
from pandas import DataFrame as df
データフレームとは
データフレームは、実務上ではテーブルと考えて差し支えありません。Excelのワークシートのようなものです。2つのデータフレームを用意してvlookup的なことができます。
データフレームでは、横方向のデータを行、縦方向のデータを列と呼びます。各行・各列にはラベルが付けられており、行ラベルは「インデックス」、列ラベルは「カラム」と呼びます。
データベースのテーブルでは行ラベルを付ける機会はないと思いますので、そこだけが異なる点です。
シリーズ(Series)とは
Seriesは1次元配列の入れ物です。DataFrameの行や列として考えます。Seriesにも各要素にラベルが付いています。
pd.Series(データ配列, index=インデックス配列)
Seriesはデータ配列とインデックス配列を指定して生成します。インデックスを省略することも可能です。