Bagaimana Menggunakan groupby() untuk Analisis Data dengan Pandas

Bagaimana Menggunakan groupby() untuk Analisis Data dengan Pandas

Daftar Isi
    2025-01-22

    Pandas adalah salah satu library Python yang paling banyak digunakan untuk analisis data. Salah satu fitur paling kuat dari Pandas adalah metode groupby(), yang memungkinkan untuk mengelompokkan data berdasarkan satu atau lebih kolom. Dengan groupby(), analisis data menjadi lebih mudah dan efisien, terutama saat ingin mendapatkan ringkasan atau statistik dari data yang lebih besar.


    Apa Itu groupby()?

    Metode groupby() digunakan untuk membagi data menjadi beberapa kelompok berdasarkan nilai dari satu atau lebih kolom. Setelah data dikelompokkan, bisa menerapkan fungsi agregasi seperti sum(), mean(), count(), dan lain-lain untuk mendapatkan informasi yang lebih mendalam tentang setiap kelompok. Ini sangat berguna ketika ingin menganalisis data berdasarkan kategori tertentu.


    Cara Kerja groupby()

    Cara kerja groupby() cukup sederhana. Pertama, tentukan kolom mana yang ingin digunakan untuk mengelompokkan data. Setelah itu, terapkan fungsi agregasi untuk mendapatkan hasil yang diinginkan. Mari lihat contoh konkret untuk memahami cara kerjanya.

    Contoh DataFrame

    Misalkan ada DataFrame yang berisi data penjualan produk:

    import pandas as pd  
      
    data = {  
        'Produk': ['A', 'B', 'A', 'B', 'A', 'B'],  
        'Penjualan': [100, 150, 200, 250, 300, 350],  
        'Tahun': [2021, 2021, 2022, 2022, 2023, 2023]  
    }  
      
    df = pd.DataFrame(data)
    

    DataFrame di atas memiliki tiga kolom: Produk, Penjualan, dan Tahun. Sekarang, jika ingin mengetahui total penjualan untuk setiap produk, bisa menggunakan groupby().

    Mengelompokkan Data

    Untuk mengelompokkan data berdasarkan kolom Produk dan menghitung total penjualan, gunakan kode berikut:

    total_penjualan = df.groupby('Produk')['Penjualan'].sum()  
    print(total_penjualan)
    

    Output dari kode ini akan memberikan total penjualan untuk setiap produk:

    Produk  
    A    600  
    B    750  
    Name: Penjualan, dtype: int64
    

    Dari hasil tersebut, terlihat bahwa total penjualan produk A adalah 600, sedangkan produk B adalah 750.

    Menggunakan Beberapa Kolom

    groupby() juga bisa digunakan untuk mengelompokkan data berdasarkan lebih dari satu kolom. Misalnya, jika ingin mengetahui total penjualan berdasarkan produk dan tahun, bisa dilakukan seperti ini:

    total_penjualan_tahun = df.groupby(['Produk', 'Tahun'])['Penjualan'].sum()  
    print(total_penjualan_tahun)
    

    Outputnya akan menunjukkan total penjualan untuk setiap kombinasi produk dan tahun:

    Produk  Tahun  
    A       2021     100  
            2022     200  
            2023     300  
    B       2021     150  
            2022     250  
            2023     350  
    Name: Penjualan, dtype: int64
    

    Fungsi Agregasi Lainnya

    Selain sum(), ada banyak fungsi agregasi lain yang bisa digunakan dengan groupby(). Misalnya, untuk menghitung rata-rata penjualan per produk, bisa menggunakan mean():

    rata_penjualan = df.groupby('Produk')['Penjualan'].mean()  
    print(rata_penjualan)
    

    Outputnya akan memberikan rata-rata penjualan untuk setiap produk:

    Produk  
    A    200.0  
    B    250.0  
    Name: Penjualan, dtype: float64
    

    Metode groupby() di Pandas adalah alat yang sangat berguna untuk analisis data. Dengan groupby(), bisa mengelompokkan data berdasarkan satu atau lebih kolom dan menerapkan berbagai fungsi agregasi untuk mendapatkan informasi yang lebih mendalam. Ini sangat membantu dalam menganalisis data yang besar dan kompleks. Cobalah untuk bereksperimen dengan groupby() di dataset sendiri dan lihat bagaimana cara ini bisa mempermudah analisis data!


    Belajar Data Analyst di Bootcamp Data Analyst Nusacodes. Cek info kelasnya sekarang: Bootcamp Data Analyst