Pandas adalah salah satu library Python yang paling banyak digunakan untuk analisis data. Salah satu fitur paling kuat dari Pandas adalah metode groupby()
, yang memungkinkan untuk mengelompokkan data berdasarkan satu atau lebih kolom. Dengan groupby()
, analisis data menjadi lebih mudah dan efisien, terutama saat ingin mendapatkan ringkasan atau statistik dari data yang lebih besar.
Metode groupby()
digunakan untuk membagi data menjadi beberapa kelompok berdasarkan nilai dari satu atau lebih kolom. Setelah data dikelompokkan, bisa menerapkan fungsi agregasi seperti sum()
, mean()
, count()
, dan lain-lain untuk mendapatkan informasi yang lebih mendalam tentang setiap kelompok. Ini sangat berguna ketika ingin menganalisis data berdasarkan kategori tertentu.
Cara kerja groupby()
cukup sederhana. Pertama, tentukan kolom mana yang ingin digunakan untuk mengelompokkan data. Setelah itu, terapkan fungsi agregasi untuk mendapatkan hasil yang diinginkan. Mari lihat contoh konkret untuk memahami cara kerjanya.
Contoh DataFrame
Misalkan ada DataFrame yang berisi data penjualan produk:
import pandas as pd
data = {
'Produk': ['A', 'B', 'A', 'B', 'A', 'B'],
'Penjualan': [100, 150, 200, 250, 300, 350],
'Tahun': [2021, 2021, 2022, 2022, 2023, 2023]
}
df = pd.DataFrame(data)
DataFrame di atas memiliki tiga kolom: Produk
, Penjualan
, dan Tahun
. Sekarang, jika ingin mengetahui total penjualan untuk setiap produk, bisa menggunakan groupby()
.
Mengelompokkan Data
Untuk mengelompokkan data berdasarkan kolom Produk
dan menghitung total penjualan, gunakan kode berikut:
total_penjualan = df.groupby('Produk')['Penjualan'].sum()
print(total_penjualan)
Output dari kode ini akan memberikan total penjualan untuk setiap produk:
Produk
A 600
B 750
Name: Penjualan, dtype: int64
Dari hasil tersebut, terlihat bahwa total penjualan produk A adalah 600, sedangkan produk B adalah 750.
Menggunakan Beberapa Kolom
groupby()
juga bisa digunakan untuk mengelompokkan data berdasarkan lebih dari satu kolom. Misalnya, jika ingin mengetahui total penjualan berdasarkan produk dan tahun, bisa dilakukan seperti ini:
total_penjualan_tahun = df.groupby(['Produk', 'Tahun'])['Penjualan'].sum()
print(total_penjualan_tahun)
Outputnya akan menunjukkan total penjualan untuk setiap kombinasi produk dan tahun:
Produk Tahun
A 2021 100
2022 200
2023 300
B 2021 150
2022 250
2023 350
Name: Penjualan, dtype: int64
Fungsi Agregasi Lainnya
Selain sum()
, ada banyak fungsi agregasi lain yang bisa digunakan dengan groupby()
. Misalnya, untuk menghitung rata-rata penjualan per produk, bisa menggunakan mean()
:
rata_penjualan = df.groupby('Produk')['Penjualan'].mean()
print(rata_penjualan)
Outputnya akan memberikan rata-rata penjualan untuk setiap produk:
Produk
A 200.0
B 250.0
Name: Penjualan, dtype: float64
Metode groupby()
di Pandas adalah alat yang sangat berguna untuk analisis data. Dengan groupby()
, bisa mengelompokkan data berdasarkan satu atau lebih kolom dan menerapkan berbagai fungsi agregasi untuk mendapatkan informasi yang lebih mendalam. Ini sangat membantu dalam menganalisis data yang besar dan kompleks. Cobalah untuk bereksperimen dengan groupby()
di dataset sendiri dan lihat bagaimana cara ini bisa mempermudah analisis data!
Belajar Data Analyst di Bootcamp Data Analyst Nusacodes. Cek info kelasnya sekarang: Bootcamp Data Analyst