Bagaimana Menggunakan groupby() untuk Analisis Data dengan Pandas

Bagaimana Menggunakan groupby() untuk Analisis Data dengan Pandas

2025-01-22

Pandas adalah salah satu library Python yang paling banyak digunakan untuk analisis data. Salah satu fitur paling kuat dari Pandas adalah metode groupby(), yang memungkinkan untuk mengelompokkan data berdasarkan satu atau lebih kolom. Dengan groupby(), analisis data menjadi lebih mudah dan efisien, terutama saat ingin mendapatkan ringkasan atau statistik dari data yang lebih besar.


Apa Itu groupby()?

Metode groupby() digunakan untuk membagi data menjadi beberapa kelompok berdasarkan nilai dari satu atau lebih kolom. Setelah data dikelompokkan, bisa menerapkan fungsi agregasi seperti sum(), mean(), count(), dan lain-lain untuk mendapatkan informasi yang lebih mendalam tentang setiap kelompok. Ini sangat berguna ketika ingin menganalisis data berdasarkan kategori tertentu.


Cara Kerja groupby()

Cara kerja groupby() cukup sederhana. Pertama, tentukan kolom mana yang ingin digunakan untuk mengelompokkan data. Setelah itu, terapkan fungsi agregasi untuk mendapatkan hasil yang diinginkan. Mari lihat contoh konkret untuk memahami cara kerjanya.

Contoh DataFrame

Misalkan ada DataFrame yang berisi data penjualan produk:

import pandas as pd  
  
data = {  
    'Produk': ['A', 'B', 'A', 'B', 'A', 'B'],  
    'Penjualan': [100, 150, 200, 250, 300, 350],  
    'Tahun': [2021, 2021, 2022, 2022, 2023, 2023]  
}  
  
df = pd.DataFrame(data)

DataFrame di atas memiliki tiga kolom: Produk, Penjualan, dan Tahun. Sekarang, jika ingin mengetahui total penjualan untuk setiap produk, bisa menggunakan groupby().

Mengelompokkan Data

Untuk mengelompokkan data berdasarkan kolom Produk dan menghitung total penjualan, gunakan kode berikut:

total_penjualan = df.groupby('Produk')['Penjualan'].sum()  
print(total_penjualan)

Output dari kode ini akan memberikan total penjualan untuk setiap produk:

Produk  
A    600  
B    750  
Name: Penjualan, dtype: int64

Dari hasil tersebut, terlihat bahwa total penjualan produk A adalah 600, sedangkan produk B adalah 750.

Menggunakan Beberapa Kolom

groupby() juga bisa digunakan untuk mengelompokkan data berdasarkan lebih dari satu kolom. Misalnya, jika ingin mengetahui total penjualan berdasarkan produk dan tahun, bisa dilakukan seperti ini:

total_penjualan_tahun = df.groupby(['Produk', 'Tahun'])['Penjualan'].sum()  
print(total_penjualan_tahun)

Outputnya akan menunjukkan total penjualan untuk setiap kombinasi produk dan tahun:

Produk  Tahun  
A       2021     100  
        2022     200  
        2023     300  
B       2021     150  
        2022     250  
        2023     350  
Name: Penjualan, dtype: int64

Fungsi Agregasi Lainnya

Selain sum(), ada banyak fungsi agregasi lain yang bisa digunakan dengan groupby(). Misalnya, untuk menghitung rata-rata penjualan per produk, bisa menggunakan mean():

rata_penjualan = df.groupby('Produk')['Penjualan'].mean()  
print(rata_penjualan)

Outputnya akan memberikan rata-rata penjualan untuk setiap produk:

Produk  
A    200.0  
B    250.0  
Name: Penjualan, dtype: float64

Metode groupby() di Pandas adalah alat yang sangat berguna untuk analisis data. Dengan groupby(), bisa mengelompokkan data berdasarkan satu atau lebih kolom dan menerapkan berbagai fungsi agregasi untuk mendapatkan informasi yang lebih mendalam. Ini sangat membantu dalam menganalisis data yang besar dan kompleks. Cobalah untuk bereksperimen dengan groupby() di dataset sendiri dan lihat bagaimana cara ini bisa mempermudah analisis data!


Belajar Data Analyst di Bootcamp Data Analyst Nusacodes. Cek info kelasnya sekarang: Bootcamp Data Analyst