Dalam kasus nyata, data tidak serta merta dapat dianalisis. Perlu proses cleaning data. salah satu problem yang biasanya di hadapi adalah missing value. Kesempatan kali ini saya mencoba menangani data yang ada missing value-nya menggunakan library pandas di Python.
Contoh 1 :
import pandas as pd
import numpy as np
df = pd.read_csv('http://bit.ly/uforeports')
df.head()
Output:
df.isnull().head() # Identifikasi missing value
Output :
df.isnull().sum() #menhgitung jumlah data missing
Output :
df.dropna(inplace=True) #menhaspus data yang missing
Output setelah menghapus data yang missing:
Contoh 2 Mengisi data yang missing dengan data yang lain:
data = pd.DataFrame([[23, np.nan, 43],
[np.nan, 21, 29],
[53, 50, 76],
[25, 89, np.nan]], columns=['a', 'b', 'c'])
Output :
data.fillna(method='ffill', axis=0, inplace=True) #interpolasi baris
data.fillna(method='ffill', axis=1, inplace=True) #interpolasi kolom
Output :
Related Posts: