Sebagai bagian dari kurikulum Data Analyst Bootcamp, peserta diberikan tugas untuk menerapkan seluruh proses analisis data secara terstruktur, mulai dari membaca data mentah hingga merancang dashboard interaktif. Salah satu karya yang kami tampilkan adalah analisis menggunakan Adult Income Dataset, sebuah dataset publik yang berisi karakteristik sosial ekonomi individu. Proyek ini menunjukkan bagaimana peserta mampu menerapkan konsep analitik secara menyeluruh dan logis.
Tantangan yang diberikan kepada peserta adalah menjawab pertanyaan utama:
Faktor apa yang memengaruhi tingkat pendapatan individu dalam Adult Income Dataset.
Dengan tujuan tersebut, peserta diarahkan untuk melalui rangkaian proses analisis, yaitu identifikasi dataset, pembersihan data, eksplorasi statistik dasar, dan perancangan dashboard sebagai alat interpretasi.
Pada tahap awal, peserta diminta memahami struktur dataset: jenis kolom, tipe data, dan potensi masalah yang perlu dibersihkan. Dataset diunggah ke Google Drive dan dikonversi ke Google Sheets agar proses analisis dapat dilakukan secara interaktif.
Peserta meninjau setiap kolom menggunakan filter untuk mengidentifikasi inkonsistensi. Misalnya, beberapa kolom seperti workclass berisi simbol tanda tanya, yang menandakan nilai hilang dan dapat mengganggu akurasi analisis.
Proses pembersihan data mengikuti standar yang diajarkan dalam bootcamp:
Peserta menggunakan fitur Data Cleanup di Google Sheets untuk memastikan dataset bebas dari duplikasi dan spasi tidak perlu.
Simbol tanda tanya pada workclass, occupation, dan native-country diubah menjadi sel kosong agar konsisten dengan standar penanganan nilai hilang.
Peserta meninjau kembali format setiap kolom dan melakukan penyesuaian. Salah satu proses utama adalah standarisasi kolom income. Kategori asli berupa <=50K dan >50K diubah menjadi Low Income dan High Income untuk meningkatkan kejelasan interpretasi.
Hal ini dilakukan dengan menambahkan kolom baru dan menerapkan rumus IF untuk mengubah kategori secara otomatis.
Tahapan pembersihan ini memastikan dataset siap digunakan untuk analisis deskriptif maupun visualisasi.
Pada tahap eksplorasi, peserta melakukan analisis statistik dasar menggunakan fungsi seperti AVERAGE, MIN, MAX, MEDIAN, dan STDEV. Hasil analisis disajikan pada lembar terpisah guna mempermudah pencatatan dan pemahaman pola data.
Selain itu, peserta menggunakan Pivot Table untuk meninjau distribusi awal berdasarkan umur, pendidikan, jenis pekerjaan, dan variabel lainnya. Tahap ini memberikan gambaran awal mengenai variabel yang memiliki potensi hubungan dengan tingkat pendapatan.
Setelah memperoleh gambaran awal dari Google Sheets, peserta diarahkan untuk membuat dashboard interaktif menggunakan Looker Studio. Dashboard membantu menyajikan analisis secara visual agar lebih mudah dipahami oleh pengguna non-teknis.
Beberapa visual yang dibuat oleh peserta antara lain:
Dengan memanfaatkan kolom fnlwgt yang dijumlahkan.
Masing-masing untuk kategori Low Income dan High Income.
Menggunakan dimension education dan breakdown income value.
Menampilkan perbedaan jumlah pendapatan dalam berbagai jenis pekerjaan.
Menunjukkan pola hubungan antara marital status dan tingkat pendapatan.
Dashboard final berhasil merangkum hubungan antara variabel demografis dan pendapatan dengan visual yang jelas dan informatif.
Tautan karya peserta:
https://lookerstudio.google.com/reporting/a3e32a58-4ad0-4e56-bd5b-90f8c9d77246
Dari proyek ini, peserta menyimpulkan bahwa pendapatan dipengaruhi oleh berbagai faktor sosial ekonomi. Beberapa pola utama antara lain:
Pendidikan merupakan faktor paling signifikan, di mana semakin tinggi pendidikan, semakin besar peluang masuk kategori High Income
Jenis pekerjaan memiliki kontribusi besar terhadap tingkat pendapatan
Terdapat perbedaan pendapatan berdasarkan gender
Status pernikahan menunjukkan kecenderungan tertentu, dengan individu yang sudah menikah lebih sering berada pada kelompok pendapatan lebih tinggi
Analisis ini menunjukkan kemampuan peserta dalam menerapkan teknik analisis data dari awal hingga akhir, termasuk pembersihan data, eksplorasi statistik, dan pembuatan dashboard profesional.
Bootcamp ini bertujuan menyiapkan peserta agar mampu membuat keputusan berbasis data, dan proyek ini menjadi salah satu contoh nyata hasil pembelajaran yang berhasil diterapkan secara efektif.