Python Pandas | Data Manipulasi dengan .groupby()

pandas dataframe.groupby() digunakan untuk memanipulasi data atau mengelompokan data berdasarkan beberapa kriteria.

contoh : Mengelompokan data berdasarkan City

#import library pandas
import pandas as pd 
#load data
df = pd.read_csv('http://bit.ly/uforeports') 
#print data
df.head()
Output:


#mengelompokan data berdasarkan city
data = df.groupby('City').count()
Output :

#mengelompokan data berdasarkan city
data = df.groupby(['City', 'State']).count()
Output:

Related Posts:

Python Pandas | Cara Mengatasi Missing Value

Dalam kasus nyata, data tidak serta merta dapat dianalisis. Perlu proses cleaning data. salah satu problem yang biasanya di hadapi adalah missing value. Kesempatan kali ini saya mencoba menangani data yang ada missing value-nya menggunakan library pandas di Python. 

Contoh 1 : 

import pandas as pd
import numpy as np
df = pd.read_csv('http://bit.ly/uforeports')
df.head()

Output:


df.isnull().head() # Identifikasi missing value
Output :


df.isnull().sum() #menhgitung jumlah data missing

Output :
df.dropna(inplace=True) #menhaspus data yang missing

Output setelah menghapus data yang missing:
Contoh 2 Mengisi data yang missing dengan data yang lain:
data = pd.DataFrame([[23, np.nan, 43],
                    [np.nan, 21,  29],
                    [53,    50,   76],
                    [25, 89, np.nan]], columns=['a', 'b', 'c'])
Output :

data.fillna(method='ffill', axis=0, inplace=True) #interpolasi baris
data.fillna(method='ffill', axis=1, inplace=True) #interpolasi kolom
Output :

Related Posts: