Load & Explore Dataset dengan Pandas

Pandas merupakan salah satu library paling penting dalam ekosistem Python, khususnya untuk data analysis dan Machine Learning. Hampir semua proses Machine Learning diawali dengan kegiatan load dataset dan eksplorasi data. Tahapan ini bertujuan untuk memahami struktur, kualitas, dan karakteristik data sebelum masuk ke tahap preprocessing dan pembuatan model. Pemahaman eksplorasi data dengan Pandas menjadi fondasi utama dalam pembelajaran data berbasis Python.

Artikel ini membahas cara memuat dataset menggunakan Pandas serta teknik eksplorasi data yang umum digunakan dalam proyek Machine Learning dan data analysis.

Kenapa Load dan Explore Dataset Itu Penting

Dataset yang digunakan dalam Machine Learning jarang berada dalam kondisi sempurna. Sering ditemukan data kosong, format tidak konsisten, atau nilai yang tidak masuk akal. Tanpa eksplorasi data, model Machine Learning berisiko menghasilkan prediksi yang tidak akurat.

Eksplorasi dataset membantu untuk:

Memahami jumlah data dan fitur
Mengetahui tipe data setiap kolom
Mengidentifikasi data kosong atau anomali
Melihat distribusi data dan pola awal

Dengan Pandas, seluruh proses ini bisa dilakukan secara cepat dan terstruktur.

Mengenal Struktur Data Pandas

Pandas memiliki dua struktur data utama:

Series untuk data satu dimensi
DataFrame untuk data berbentuk tabel

Dalam praktiknya, DataFrame adalah struktur yang paling sering digunakan karena menyerupai tabel database atau spreadsheet.

Contoh sederhana membuat DataFrame:

import pandasas pd

data = {
"nama": ["Ani","Budi","Citra"],
"nilai": [85,90,78]
}

df = pd.DataFrame(data)
print(df)

Load Dataset Menggunakan Pandas

Load Data dari CSV

Format CSV adalah format dataset paling umum dalam Machine Learning. Pandas menyediakan fungsi read_csv() untuk memuat file CSV.

import pandasas pd

df = pd.read_csv("dataset_siswa.csv")
print(df.head())

Fungsi head() menampilkan lima baris pertama untuk melihat gambaran awal data.

Load Data dari Excel

Pandas juga mendukung file Excel dengan fungsi read_excel().

df = pd.read_excel("dataset_penjualan.xlsx")

Load Data dari Database atau URL

Dataset juga bisa dimuat dari URL atau database SQL. Contoh memuat CSV dari URL:

url ="<https://nusacodes.com/dataset/data_penjualan.csv>"
df = pd.read_csv(url)

Eksplorasi Awal Dataset

Melihat Informasi Dasar Dataset di Pandas

Beberapa fungsi penting untuk eksplorasi awal:

df.shape
df.columns
df.info()

Penjelasan:

shape menampilkan jumlah baris dan kolom
columns menampilkan nama kolom
info() menampilkan tipe data dan jumlah data non-null

Melihat Statistik Deskriptif di Pandas

Untuk kolom numerik, Pandas menyediakan fungsi describe().

df.describe()

Output ini menampilkan nilai rata-rata, median, nilai minimum, maksimum, dan standar deviasi.

Mengecek Data Kosong di Pandas

Data kosong sering menjadi sumber masalah dalam Machine Learning.

df.isnull().sum()

Hasilnya menunjukkan jumlah nilai kosong di setiap kolom.

Mengakses dan Memfilter Data di Pandas

Mengambil Kolom Tertentu di Pandas

df["nilai"]

Mengambil Beberapa Kolom di Pandas

df[["nama","nilai"]]

Filter Data dengan Kondisi di Pandas

df[df["nilai"] >=80]

Filter ini sering digunakan untuk eksplorasi data berdasarkan kriteria tertentu.

Eksplorasi Distribusi Data di Pandas

Untuk memahami sebaran data, eksplorasi bisa dikombinasikan dengan visualisasi sederhana.

import matplotlib.pyplotas plt

df["nilai"].hist()
plt.title("Distribusi Nilai")
plt.show()

Visualisasi membantu melihat apakah data condong ke nilai tertentu atau menyebar secara merata.

Menangani Data Duplikat di Pandas

Data duplikat dapat memengaruhi hasil analisis dan model.

df.duplicated().sum()

Untuk menghapus data duplikat:

df = df.drop_duplicates()

Saran Saat Eksplorasi Dataset di Pandas

Beberapa praktik yang umum dilakukan saat eksplorasi dataset:

Selalu cek ukuran dan struktur dataset
Identifikasi kolom numerik dan kategorikal
Periksa data kosong dan duplikat sejak awal
Gunakan statistik dan visualisasi untuk memahami pola
Jangan langsung membangun model sebelum data dipahami

Langkah eksplorasi yang baik akan menghemat waktu di tahap berikutnya dan meningkatkan kualitas model Machine Learning.

Peran Pandas dalam Workflow Machine Learning

Dalam alur Machine Learning, Pandas berperan sebagai:

Alat utama untuk memuat dan membersihkan data
Media eksplorasi sebelum preprocessing lanjutan
Jembatan antara data mentah dan algoritma Machine Learning

Setelah eksplorasi selesai, data biasanya dikonversi ke format NumPy untuk diproses oleh algoritma Machine Learning seperti Scikit-learn.

Load dan eksplorasi dataset adalah langkah awal yang sangat penting dalam data analysis dan Machine Learning. Dengan Pandas, proses ini dapat dilakukan secara efisien, terstruktur, dan mudah dipahami.

Penguasaan fungsi dasar seperti read_csv(), info(), describe(), dan teknik filtering membantu memahami karakter data secara menyeluruh. Pemahaman eksplorasi dataset dengan Pandas menjadi fondasi penting sebelum melangkah ke tahap preprocessing dan pemodelan Machine Learning yang lebih lanjut.