【機械学習】Pandasとは(Python)
PandasはPythonのライブラリである。
PandasをPythonにimportすることでexcelのように2次元のテーブル(行列)でデータ加工したり、解析することができる。
Pandasのメリットとして、CSVファイルのインポートとデータ解析の関数が豊富であることが挙げられる。時系列データを扱えることもメリットのようだ。
Pandasメソッド
- バージョン確認、モジュールimport
# pythonのバージョン確認 !python -v
# Pandasのimport import pandas as pd
- データ数のカウント・確認
# データ確認 pandas.DataFrame ・行列数の表示: df.info() ・全容素数を取得: df.size
- データ編集
#データ削除 ・行の削除:df.drop('行名, 行名') ・カラムの削除:df.drop('カラム名, カラム名' ,axis =1) #データ結合 ・データ結合:pd.concat([df1, df2] ,axis =1) #データ変換 ・arrayに変換:df.values ・dframeに再変換:pd.DataFrame(df. values, index=['行名', '行名'], columns=['カラム名', 'カラム名'])
- 集計
#列の集計 df['列名'].value_counts()
- 可視化
#折れ線グラフ df['列名'].plot()