Latar Belakang
Dataset yang digunakan dalam studi ini berisi informasi dari sensus California tahun 1990. Meskipun knowledge ini mungkin tidak membantu dalam memprediksi harga perumahan saat ini, dataset ini memberikan pengantar yang sangat baik untuk mengajarkan dasar-dasar pembelajaran mesin (machine studying).
Knowledge mencakup berbagai fitur seperti koordinat geografis (longitude dan latitude), karakteristik rumah (usia median perumahan, jumlah kamar), informasi demografis (populasi, rumah tangga, pendapatan median), dan nilai rumah median.
Pasar perumahan di California selalu dinamis dengan variasi signifikan di berbagai wilayah, mulai dari daerah pantai hingga komunitas pedalaman. Hal ini menyebabkan pembeli rumah, penjual, agen actual property, dan investor mengalami kesulitan dalam menentukan nilai pasar yang wajar tanpa alat analisis canggih.
Mirip dengan tantangan yang dihadapi oleh tuan rumah Airbnb dalam menentukan harga sewa optimum, pemangku kepentingan actual property di California membutuhkan alat yang dapat diandalkan untuk memahami valuasi perumahan.
Pernyataan Masalah
Salah satu tantangan terbesar dalam industri actual property adalah memprediksi harga rumah secara akurat berdasarkan berbagai fitur untuk menciptakan mannequin yang menguntungkan secara finansial bagi semua pemangku kepentingan seperti penjual, pembeli, dan agen actual property.
Tantangan ini sangat akut di pasar beragam seperti California, di mana harga perumahan dapat bervariasi secara dramatis berdasarkan lokasi, karakteristik properti, dan faktor demografis.
Mengingat dataset menyediakan berbagai fitur tentang properti (seperti koordinat lokasi, usia perumahan, jumlah kamar, statistik populasi, dan kedekatan dengan laut), mengembangkan mannequin prediksi yang akurat sangat penting namun kompleks.
Profesional actual property dan calon pembeli rumah memiliki panduan terbatas tentang bagaimana berbagai faktor ini berkombinasi untuk mempengaruhi nilai properti.
Dengan bertambahnya jumlah variabel yang mempengaruhi harga perumahan, menentukan valuasi yang akurat di pasar actual property California yang kompetitif sangatlah penting. Tanpa alat prediksi yang handal, penjual mungkin menetapkan harga terlalu tinggi sehingga properti sulit terjual, atau terlalu rendah sehingga kehilangan potensi keuntungan.
Sementara itu, pembeli mungkin mengalami kesulitan dalam menilai apakah harga yang diminta sudah wajar berdasarkan karakteristik properti dan lokasi.
Pendekatan Analitik
Pendekatan analitik yang akan digunakan adalah menganalisis knowledge untuk dapat menemukan pola dari fitur-fitur yang ada, yang membedakan satu properti dengan yang lainnya.
Dalam tahap awal, eksplorasi knowledge akan dilakukan untuk memahami distribusi setiap fitur, mengidentifikasi outlier, dan memeriksa korelasi antar variabel. Selanjutnya preprocessing knowledge akan dilakukan dengan membersihkan nilai yang hilang, menangani outlier, dan melakukan transformasi fitur jika diperlukan, termasuk normalisasi fitur numerik dan encoding fitur kategorikal seperti ‘ocean_proximity’.
Tahap characteristic engineering akan fokus pada penciptaan fitur baru yang memiliki kekuatan prediktif lebih baik, seperti rasio kamar per rumah tangga, rasio populasi per rumah tangga, dan indikator daerah berdasarkan koordinat geografis.
Kemudian seleksi fitur akan dilakukan untuk mengidentifikasi faktor-faktor yang memiliki pengaruh paling signifikan terhadap harga rumah.
Pada tahap pemodelan, beberapa mannequin regresi akan dibangun dan dibandingkan performanya. Mannequin-model ini akan dievaluasi berdasarkan metrik seperti RMSE, MAE, dan MAPE, serta nilai R-squared atau Adjusted R-squared untuk mannequin linear.
Metrik-metrik ini memberikan perspektif berbeda tentang akurasi mannequin, dengan RMSE memberikan bobot lebih pada error besar, MAE lebih mudah diinterpretasi karena berada dalam skala yang sama dengan variabel goal, dan MAPE membantu memahami error relatif terhadap nilai aktual.
Berdasarkan knowledge California Housing yang tersedia, terdapat kesempatan untuk menganalisis faktor-faktor yang mempengaruhi harga perumahan di California dan mengembangkan mannequin prediktif yang dapat memberikan wawasan berharga bagi berbagai pemangku kepentingan di pasar perumahan.
Dalam proses analisis knowledge, persiapan knowledge (knowledge preparation) sering kali perlu didahulukan dibandingkan dengan exploratory knowledge evaluation (EDA) karena pemahaman yang mendalam terhadap knowledge membutuhkan fitur-fitur turunan yang tidak tersedia pada dataset awal.
Seperti yang terlihat pada contoh dataset perumahan California, pembuatan kolom-kolom baru seperti room_per_household, population_per_household, dan bedrooms_ratio memberikan perspektif baru yang tidak langsung terlihat dari knowledge mentah.
Dengan mengolah knowledge mentah menjadi metrik yang lebih bermakna, analis dapat mengungkap pola dan hubungan yang tersembunyi, sehingga menghasilkan wawasan yang lebih komprehensif dan mannequin prediksi yang lebih akurat.
Karakteristik Knowledge
Dataset California Housing merupakan kumpulan knowledge perumahan di California dengan karakteristik sebagai berikut:
- Jumlah Knowledge: Dataset terdiri dari 14.448 entri (baris) dengan indeks dari 0 hingga 14.447
- Jumlah Kolom: Dataset memiliki 10 kolom
- Tipe Knowledge:
- 9 kolom bertipe numerik (float64): longitude, latitude, housing_median_age, total_rooms, total_bedrooms, inhabitants, households, median_income, dan median_house_value
- 1 kolom bertipe kategorikal (object): ocean_proximity
4. Kelengkapan Knowledge:
- Hampir semua kolom memiliki knowledge lengkap (14.448 non-null values)
- Hanya kolom total_bedrooms yang memiliki lacking values (14.311 non-null, berarti terdapat 137 lacking values)
Characteristic Engineering
Fitur Rasio (Derived Options):
- room_per_household: Rasio jumlah kamar dengan rumah tangga
- population_per_household: Rasio populasi dengan rumah tangga
- bedrooms_ratio: Proporsi kamar tidur terhadap complete kamar
- income_household: Pendapatan per rumah tangga
- income_to_rooms_ratio: Rasio pendapatan terhadap jumlah kamar
- income_to_population_ratio: Rasio pendapatan terhadap populasi
Fitur Kategorikal:
- county: Penambahan variabel lokasi berdasarkan koordinat
- proximity_ordinal: Konversi kedekatan laut ke bentuk ordinal
Fitur Binning (Diskretisasi):
- income_level: Kategori pendapatan (1–5) dari sangat rendah hingga sangat tinggi
- housing_age_category: Kategori usia properti (1–5) dari sangat baru hingga sangat tua
- room_size_category: Kategori ukuran rumah berdasarkan kamar (1–5) dari sangat kecil hingga sangat besar
- pop_density_category: Kategori kepadatan populasi (1–5) dari sangat rendah hingga sangat tinggi
Characteristic engineering ini bertujuan meningkatkan kekuatan prediktif mannequin dengan menciptakan fitur baru yang lebih informatif dan relevan terhadap harga rumah.
Nilai Rumah berdasarkan Jarak ke Laut: Field plot ini membandingkan nilai rumah median berdasarkan kategori ocean_proximity. Properti dengan kategori “ISLAND” dan “NEAR BAY” menunjukkan nilai tertinggi, diikuti oleh “<1H OCEAN”. Properti “INLAND” memiliki nilai terendah. Visualisasi ini menegaskan bahwa properti dekat laut cenderung lebih mahal.
10 County dengan Nilai Rumah Tertinggi: Bar chart horizontal menunjukkan 10 county di California dengan nilai rumah median tertinggi. San Mateo memiliki nilai tertinggi, diikuti oleh Santa Barbara dan Santa Clara. Visualisasi ini menegaskan area-area premium di California.
Nilai Rumah berdasarkan Degree Pendapatan: Violin plot menunjukkan distribusi nilai rumah untuk setiap degree pendapatan (1–5). Terlihat jelas bahwa semakin tinggi degree pendapatan, semakin tinggi pula nilai rumah median, dengan degree 5 (pendapatan tertinggi) memiliki konsentrasi nilai rumah di sekitar $400,000-$500,000.
Nilai Rumah & Jumlah Knowledge berdasarkan Kategori Ukuran Ruangan: Grafik kombinasi bar chart dan line chart. Bar chart biru menunjukkan nilai rumah median untuk setiap kategori ukuran ruangan, sementara garis merah menunjukkan jumlah knowledge di setiap kategori. Kategori 3 memiliki nilai rumah tertinggi dan juga memiliki frekuensi knowledge tertinggi (~7000 properti).
Apa itu LightGBM??
LightGBM adalah algoritma pembelajaran mesin yang sangat populer dan highly effective, dikembangkan oleh Microsoft Analysis.
Algoritma ini menerapkan konsep gradient boosting dengan mengoptimalkan pembangunan pohon keputusan (resolution bushes) untuk menghasilkan prediksi yang lebih akurat dan efisien.
Setiap pohon dalam LightGBM dilatih secara sekuensial dengan fokus pada teknik Gradient-based One-Aspect Sampling (GOSS) dari knowledge asli. Ini berarti knowledge dengan gradien besar (error besar) dipertahankan, sementara sebagian kecil dari knowledge dengan gradien kecil dipilih secara acak untuk proses pembelajaran.
Selain itu, saat membangun setiap pohon, LightGBM menggunakan teknik khusus bernama “Unique Characteristic Bundling (EFB)” yang menggabungkan fitur-fitur yang jarang mengambil nilai non-zero secara bersamaan.
Teknik ini sangat membantu mengurangi dimensi knowledge dan mempercepat proses pelatihan, yang meningkatkan efisiensi komputasi mannequin secara keseluruhan tanpa mengorbankan akurasi.
Bagaimana LightGBM Bekerja??
1. Inisialisasi Mannequin Dasar (Base Prediction)
- LightGBM memulai dengan prediksi paling sederhana, rata-rata dari semua nilai goal
- Misalnya, jika rata-rata nilai goal adalah 500, semua prediksi awal akan bernilai 500
- Ini menjadi titik awal sebelum mannequin melakukan perbaikan
2. Hitung Residual (Error) dari Mannequin Saat Ini
- Untuk setiap knowledge, mannequin menghitung selisih antara nilai sebenarnya dengan prediksi
- Rumus: r_i = y_i — ŷ_i (Residual = Nilai aktual — Nilai prediksi)
- Misalnya, jika nilai aktual 530 dan prediksi 500, residualnya +30
3. GOSS Sampling — Fokus Pada Error Besar
- Knowledge diurutkan berdasarkan besar kecilnya residual (tanpa memperhatikan tanda + atau -)
- LightGBM mempertahankan knowledge dengan error terbesar (misal high 20%)
- Dari sisa knowledge, diambil sampel acak (misal 10% dari sisa knowledge)
4. Bangun Pohon untuk Prediksi Residual
- LightGBM membangun pohon keputusan untuk memprediksi residual
- Pohon memisahkan knowledge berdasarkan fitur dengan metode leaf-wise
- Setiap daun pohon berisi nilai prediksi untuk memperbaiki error
5. Replace Prediksi dan Iterasi Hingga Konvergen
- Prediksi diperbarui dengan method: ŷᵢ = ŷᵢ₋₁ + η × f_m(xᵢ)
- η (eta) adalah studying fee, biasanya nilai kecil seperti 0.1 atau 0.01
- f_m(xᵢ) adalah output dari pohon yang baru dibuat
- Proses langkah 2–5 diulang untuk membangun beberapa pohon (ensemble)
Keunggulan LightGBM
1. Efisiensi Komputasi Tinggi
LightGBM menggunakan strategi Leaf-wise development dan teknik GOSS yang mempercepat coaching secara signifikan dibandingkan algoritma boosting lainnya seperti XGBoost.
2. Penggunaan Memori yang Lebih Rendah
Dengan teknik EFB (Unique Characteristic Bundling), LightGBM dapat mengurangi dimensi knowledge secara efektif tanpa kehilangan informasi penting.
3. Penanganan Skala Knowledge Besar
Random Forest lebih stabil terhadap noise dan outlier karena efek rata-rata dari banyak pohon keputusan yang independen. Fluktuasi pada sebagian knowledge hanya mempengaruhi sebagian pohon, sehingga prediksi keseluruhan tetap konsisten.
4. Dukungan untuk Knowledge Kategorikal
LightGBM memiliki kemampuan built-in untuk menangani fitur kategorikal tanpa perlu one-hot encoding, meningkatkan efisiensi dan performa.
5. Regularisasi yang Kuat
LightGBM menawarkan berbagai opsi regularisasi (L1, L2, max_depth, min_data_in_leaf) yang membantu mencegah overfitting dan meningkatkan generalisasi mannequin.
The Finest Eksperiment
Modelling pada eksperimen pertama menerapkan 8 mannequin machine studying pada knowledge authentic atau knowledge yang masih dalam keadaan saat mendapatkan knowledge tersebut. Perlakuan yang diberikan untuk eksperimen ini hanya pada dealing with lacking values-nya saja. Proses-proses yang saya gunakan:
- Membagi (cut up) knowledge menjadi proporsi 80% untuk knowledge prepare dan 20% untuk knowledge testing.
- Melakukan seleksi fitur numerik dan kategorik untuk dimasukkan ke dalam masing-masing satu variabel, untuk dilakukan transformasi
- Transformasi yang dilakukan: fitur bertipe numerik akan dilakukan scaling menggunakan metode Strong, sedangkan untuk fitur bertipe kategorik akan dilakukan one-hot encoder.
- 8 mannequin machine studying yang saya gunakan adalah Linear Regression, Resolution Tree, KNN, Random Forest, Gradient Bossting, XGBoost, Help Vector Regressor, dan LightGBM
- Setelah itu dilakukan Cross Validation untuk menghindari overfitting dan kebocoran pada saat coaching knowledge.
Conclusions
Kesimpulan ini diperoleh dari hasil mannequin yang dijalankan pada eksperimen pertama, di mana dataset telah melalui proses preprocessing standar. Selain itu, berbagai eksperimen tambahan juga dilakukan untuk memastikan bahwa algoritma LightGBM memberikan performa optimum dalam kasus ini.
Pengujian tersebut mencakup evaluasi terhadap kemungkinan terjadinya knowledge leakage, kemampuan mannequin dalam menangani hubungan non-linear antar variabel, serta validitas nilai performa mannequin yang diperoleh. Berdasarkan hasil evaluasi, algoritma machine studying LightGBM menunjukkan kinerja yang stabil dan dapat diandalkan pada eksperimen pertama.
Mannequin LightGBM menunjukkan efektivitas yang baik dalam prediksi harga perumahan California, dengan performa yang konsisten dibandingkan model-model lain yang diuji. Mannequin ini mencapai metrik evaluasi yang menunjukkan keseimbangan antara akurasi dan generalisasi dengan MAE sebesar ($32,646), RMSE ($48,850), dan R² sebesar (82.3%) pada knowledge prepare.
Pada knowledge take a look at, mannequin ini juga menunjukkan konsistensi dengan RMSE ($47,866), MAE ($32,514), dan R² (82%). Performa yang relatif setara antara knowledge prepare dan take a look at mengindikasikan mannequin memiliki kemampuan generalisasi yang baik, tanpa tanda-tanda overfitting yang signifikan.
Keunggulan LightGBM dalam kasus ini berasal dari beberapa karakteristik fundamentalnya. Teknik gradient boosting yang ditingkatkan dengan Gradient-based One-Aspect Sampling (GOSS) memungkinkan mannequin fokus pada knowledge dengan error besar, meningkatkan efisiensi pembelajaran.
Unique Characteristic Bundling (EFB) secara efektif mengurangi dimensi knowledge tanpa kehilangan informasi penting, mempercepat pelatihan mannequin.
Sementara itu, pertumbuhan pohon dengan metode leaf-wise yang unik memungkinkan mannequin mencapai performa yang lebih baik dengan jumlah cut up yang sama, memungkinkan penangkapan pola kompleks dalam knowledge perumahan dengan lebih efisien dibandingkan algoritma boosting tradisional.
Technical Suggestions
1. Ekspansi Knowledge dan Fitur
- Integrasi Knowledge Temporal: Menganalisis tren harga perumahan dari waktu ke waktu untuk memahami dinamika pasar
- Peningkatan Granularitas Geografis:
- Knowledge infrastruktur (jarak ke sarana publik, kualitas sekolah)
- Knowledge demografi lanjutan (contoh: kualitas udara)
2. Penyempurnaan Mannequin
- Ensemble Hybrid: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
- Segmentasi Mannequin: Mengembangkan mannequin terpisah untuk segmen pasar berbeda (properti mewah, kelas menengah, terjangkau)
- Deep Studying: Mengeksplorasi penggunaan neural networks untuk ekstraksi fitur otomatis
3. Implementasi Praktis
- Validasi Dunia Nyata: Pengujian dengan knowledge itemizing perumahan terkini
- Pengembangan API: Membuat API prediksi yang dapat diintegrasikan dengan sistem actual property
- Dashboard Interaktif: Membangun visualisasi interaktif untuk pemangku kepentingan
- Alat Penilaian Cellular: Mengembangkan aplikasi untuk penilaian properti di lapangan
Enterprise Suggestions
1. Strategi Penetapan Harga
- Optimalisai Harga Dinamis: Mengimplementasikan sistem penentuan harga dinamis berdasarkan permintaan pasar saat ini, musiman, dan prediksi mannequin dengan margin error hanya ±2000 greenback, meningkatkan kompetitivitas tanpa mengorbankan revenue.
- Startegi Harga Diferensial: Menetapkan harga berbeda untuk properti dengan karakteristik serupa di lokasi berbeda.
2. Pengembangan Produk dan Layanan
- Layanan Konsultasi: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
- Jaminan Valuasi: Menawarkan jaminan akurasi valuasi dengan margin error maksimal ±2000 greenback — jika perbedaan lebih besar, perusahaan memberikan insentif atau kompensasi kepada klien.
3. Efisiensi Operasional
- Optimalisasi Inventori: Menggunakan prediksi harga untuk menentukan strategi akuisisi properti yang paling menguntungkan dan mengurangi holding value.
- Efisiensi Sumber Daya: Mengurangi ketergantungan pada penilai properti guide, memungkinkan staf fokus pada kegiatan bernilai tambah seperti negosiasi dan layanan pelanggan.