Pandas 基礎

概要

Pandas(パンダス)ライブラリを利用すれば、データをExcelやデータベースのように扱うことができます。

PandasにはSeriesとDataFrameという2種類のデータ構造が存在します。Seriesは1次元配列、DataFrameは2次元配列です。

データフレームは、ライブラリをインポートする際に「df」という変数に格納することが非常に多いです。スクリプト内に「df」が見えたらPandasが利用されていると考えてよいでしょう。

from pandas import DataFrame as df

データフレームとは

データフレームは、実務上ではテーブルと考えて差し支えありません。Excelのワークシートのようなものです。2つのデータフレームを用意してvlookup的なことができます。

データフレームでは、横方向のデータを行、縦方向のデータを列と呼びます。各行・各列にはラベルが付けられており、行ラベルは「インデックス」、列ラベルは「カラム」と呼びます。

データベースのテーブルでは行ラベルを付ける機会はないと思いますので、そこだけが異なる点です。

シリーズ(Series)とは

Seriesは1次元配列の入れ物です。DataFrameの行や列として考えます。Seriesにも各要素にラベルが付いています。

pd.Series(データ配列, index=インデックス配列)

Seriesはデータ配列とインデックス配列を指定して生成します。インデックスを省略することも可能です。

タイトルとURLをコピーしました