import pandas as pd
import numpy as np
df = pd.DataFrame({"Name":["Sato", np.nan, "Tanaka", "Takahashi", "Ito"],
"Age": [np.nan, 24, np.nan, 35, 28],
"Smoke": [False, True, True, np.nan, False]})
df
Pythonでデータフレームの欠損値を確認する方法です。
使用するのは、pandas.DataFrameのisnullメソッドです。
このようなデータフレームを作成します。
df.isnull()
欠損値の場合は、Trueが表示されます。
実行します。
データフレーム全体がbool型で返ってきました。
df.isnull().sum()
isnullメソッドにsum関数を追加すると、欠損値の数をカラムごとに表示することができます。
実行します。
データ全体で、どのくらいの欠損値があるのかを把握するにに便利です。
df['Age'].mask(df['Age'].isnull(), df['Age'].mean())
また、maskメソッドと組み合わせると、欠損値を平均値で埋めることができます。
df['Age'].fillna(df['Age'].mean())
ちなみにこれと同じようなことはfillnaメソッドでも可能です。