Estimasi Harga Rumah dengan Regresi dan Teknik Machine Learning | by Anas Putra Agazy

Latar Belakang

Dataset yang digunakan dalam studi ini berisi informasi dari sensus California tahun 1990. Meskipun knowledge ini mungkin tidak membantu dalam memprediksi harga perumahan saat ini, dataset ini memberikan pengantar yang sangat baik untuk mengajarkan dasar-dasar pembelajaran mesin (machine studying).

Knowledge mencakup berbagai fitur seperti koordinat geografis (longitude dan latitude), karakteristik rumah (usia median perumahan, jumlah kamar), informasi demografis (populasi, rumah tangga, pendapatan median), dan nilai rumah median.

Pasar perumahan di California selalu dinamis dengan variasi signifikan di berbagai wilayah, mulai dari daerah pantai hingga komunitas pedalaman. Hal ini menyebabkan pembeli rumah, penjual, agen actual property, dan investor mengalami kesulitan dalam menentukan nilai pasar yang wajar tanpa alat analisis canggih.

Mirip dengan tantangan yang dihadapi oleh tuan rumah Airbnb dalam menentukan harga sewa optimum, pemangku kepentingan actual property di California membutuhkan alat yang dapat diandalkan untuk memahami valuasi perumahan.

Pernyataan Masalah

Salah satu tantangan terbesar dalam industri actual property adalah memprediksi harga rumah secara akurat berdasarkan berbagai fitur untuk menciptakan mannequin yang menguntungkan secara finansial bagi semua pemangku kepentingan seperti penjual, pembeli, dan agen actual property.

Tantangan ini sangat akut di pasar beragam seperti California, di mana harga perumahan dapat bervariasi secara dramatis berdasarkan lokasi, karakteristik properti, dan faktor demografis.

Mengingat dataset menyediakan berbagai fitur tentang properti (seperti koordinat lokasi, usia perumahan, jumlah kamar, statistik populasi, dan kedekatan dengan laut), mengembangkan mannequin prediksi yang akurat sangat penting namun kompleks.

Profesional actual property dan calon pembeli rumah memiliki panduan terbatas tentang bagaimana berbagai faktor ini berkombinasi untuk mempengaruhi nilai properti.

Dengan bertambahnya jumlah variabel yang mempengaruhi harga perumahan, menentukan valuasi yang akurat di pasar actual property California yang kompetitif sangatlah penting. Tanpa alat prediksi yang handal, penjual mungkin menetapkan harga terlalu tinggi sehingga properti sulit terjual, atau terlalu rendah sehingga kehilangan potensi keuntungan.

Sementara itu, pembeli mungkin mengalami kesulitan dalam menilai apakah harga yang diminta sudah wajar berdasarkan karakteristik properti dan lokasi.

Pendekatan Analitik

Pendekatan analitik yang akan digunakan adalah menganalisis knowledge untuk dapat menemukan pola dari fitur-fitur yang ada, yang membedakan satu properti dengan yang lainnya.

Dalam tahap awal, eksplorasi knowledge akan dilakukan untuk memahami distribusi setiap fitur, mengidentifikasi outlier, dan memeriksa korelasi antar variabel. Selanjutnya preprocessing knowledge akan dilakukan dengan membersihkan nilai yang hilang, menangani outlier, dan melakukan transformasi fitur jika diperlukan, termasuk normalisasi fitur numerik dan encoding fitur kategorikal seperti ‘ocean_proximity’.

Tahap characteristic engineering akan fokus pada penciptaan fitur baru yang memiliki kekuatan prediktif lebih baik, seperti rasio kamar per rumah tangga, rasio populasi per rumah tangga, dan indikator daerah berdasarkan koordinat geografis.

Kemudian seleksi fitur akan dilakukan untuk mengidentifikasi faktor-faktor yang memiliki pengaruh paling signifikan terhadap harga rumah.

Pada tahap pemodelan, beberapa mannequin regresi akan dibangun dan dibandingkan performanya. Mannequin-model ini akan dievaluasi berdasarkan metrik seperti RMSE, MAE, dan MAPE, serta nilai R-squared atau Adjusted R-squared untuk mannequin linear.

Metrik-metrik ini memberikan perspektif berbeda tentang akurasi mannequin, dengan RMSE memberikan bobot lebih pada error besar, MAE lebih mudah diinterpretasi karena berada dalam skala yang sama dengan variabel goal, dan MAPE membantu memahami error relatif terhadap nilai aktual.

Berdasarkan knowledge California Housing yang tersedia, terdapat kesempatan untuk menganalisis faktor-faktor yang mempengaruhi harga perumahan di California dan mengembangkan mannequin prediktif yang dapat memberikan wawasan berharga bagi berbagai pemangku kepentingan di pasar perumahan.

Dalam proses analisis knowledge, persiapan knowledge (knowledge preparation) sering kali perlu didahulukan dibandingkan dengan exploratory knowledge evaluation (EDA) karena pemahaman yang mendalam terhadap knowledge membutuhkan fitur-fitur turunan yang tidak tersedia pada dataset awal.

Seperti yang terlihat pada contoh dataset perumahan California, pembuatan kolom-kolom baru seperti room_per_household, population_per_household, dan bedrooms_ratio memberikan perspektif baru yang tidak langsung terlihat dari knowledge mentah.

Dengan mengolah knowledge mentah menjadi metrik yang lebih bermakna, analis dapat mengungkap pola dan hubungan yang tersembunyi, sehingga menghasilkan wawasan yang lebih komprehensif dan mannequin prediksi yang lebih akurat.

Karakteristik Knowledge

Dataset California Housing merupakan kumpulan knowledge perumahan di California dengan karakteristik sebagai berikut:

Jumlah Knowledge: Dataset terdiri dari 14.448 entri (baris) dengan indeks dari 0 hingga 14.447
Jumlah Kolom: Dataset memiliki 10 kolom
Tipe Knowledge:

9 kolom bertipe numerik (float64): longitude, latitude, housing_median_age, total_rooms, total_bedrooms, inhabitants, households, median_income, dan median_house_value
1 kolom bertipe kategorikal (object): ocean_proximity

4. Kelengkapan Knowledge:

Hampir semua kolom memiliki knowledge lengkap (14.448 non-null values)
Hanya kolom total_bedrooms yang memiliki lacking values (14.311 non-null, berarti terdapat 137 lacking values)

Characteristic Engineering

Fitur Rasio (Derived Options):

room_per_household: Rasio jumlah kamar dengan rumah tangga
population_per_household: Rasio populasi dengan rumah tangga
bedrooms_ratio: Proporsi kamar tidur terhadap complete kamar
income_household: Pendapatan per rumah tangga
income_to_rooms_ratio: Rasio pendapatan terhadap jumlah kamar
income_to_population_ratio: Rasio pendapatan terhadap populasi

Fitur Kategorikal:

county: Penambahan variabel lokasi berdasarkan koordinat
proximity_ordinal: Konversi kedekatan laut ke bentuk ordinal

Fitur Binning (Diskretisasi):

income_level: Kategori pendapatan (1–5) dari sangat rendah hingga sangat tinggi
housing_age_category: Kategori usia properti (1–5) dari sangat baru hingga sangat tua
room_size_category: Kategori ukuran rumah berdasarkan kamar (1–5) dari sangat kecil hingga sangat besar
pop_density_category: Kategori kepadatan populasi (1–5) dari sangat rendah hingga sangat tinggi

Characteristic engineering ini bertujuan meningkatkan kekuatan prediktif mannequin dengan menciptakan fitur baru yang lebih informatif dan relevan terhadap harga rumah.

Nilai Rumah berdasarkan Jarak ke Laut: Field plot ini membandingkan nilai rumah median berdasarkan kategori ocean_proximity. Properti dengan kategori “ISLAND” dan “NEAR BAY” menunjukkan nilai tertinggi, diikuti oleh “<1H OCEAN”. Properti “INLAND” memiliki nilai terendah. Visualisasi ini menegaskan bahwa properti dekat laut cenderung lebih mahal.

10 County dengan Nilai Rumah Tertinggi: Bar chart horizontal menunjukkan 10 county di California dengan nilai rumah median tertinggi. San Mateo memiliki nilai tertinggi, diikuti oleh Santa Barbara dan Santa Clara. Visualisasi ini menegaskan area-area premium di California.

Nilai Rumah berdasarkan Degree Pendapatan: Violin plot menunjukkan distribusi nilai rumah untuk setiap degree pendapatan (1–5). Terlihat jelas bahwa semakin tinggi degree pendapatan, semakin tinggi pula nilai rumah median, dengan degree 5 (pendapatan tertinggi) memiliki konsentrasi nilai rumah di sekitar $400,000-$500,000.

Nilai Rumah & Jumlah Knowledge berdasarkan Kategori Ukuran Ruangan: Grafik kombinasi bar chart dan line chart. Bar chart biru menunjukkan nilai rumah median untuk setiap kategori ukuran ruangan, sementara garis merah menunjukkan jumlah knowledge di setiap kategori. Kategori 3 memiliki nilai rumah tertinggi dan juga memiliki frekuensi knowledge tertinggi (~7000 properti).

Apa itu LightGBM??

LightGBM adalah algoritma pembelajaran mesin yang sangat populer dan highly effective, dikembangkan oleh Microsoft Analysis.

Algoritma ini menerapkan konsep gradient boosting dengan mengoptimalkan pembangunan pohon keputusan (resolution bushes) untuk menghasilkan prediksi yang lebih akurat dan efisien.

Setiap pohon dalam LightGBM dilatih secara sekuensial dengan fokus pada teknik Gradient-based One-Aspect Sampling (GOSS) dari knowledge asli. Ini berarti knowledge dengan gradien besar (error besar) dipertahankan, sementara sebagian kecil dari knowledge dengan gradien kecil dipilih secara acak untuk proses pembelajaran.

Selain itu, saat membangun setiap pohon, LightGBM menggunakan teknik khusus bernama “Unique Characteristic Bundling (EFB)” yang menggabungkan fitur-fitur yang jarang mengambil nilai non-zero secara bersamaan.

Teknik ini sangat membantu mengurangi dimensi knowledge dan mempercepat proses pelatihan, yang meningkatkan efisiensi komputasi mannequin secara keseluruhan tanpa mengorbankan akurasi.

Bagaimana LightGBM Bekerja??

1. Inisialisasi Mannequin Dasar (Base Prediction)

LightGBM memulai dengan prediksi paling sederhana, rata-rata dari semua nilai goal
Misalnya, jika rata-rata nilai goal adalah 500, semua prediksi awal akan bernilai 500
Ini menjadi titik awal sebelum mannequin melakukan perbaikan

2. Hitung Residual (Error) dari Mannequin Saat Ini

Untuk setiap knowledge, mannequin menghitung selisih antara nilai sebenarnya dengan prediksi
Rumus: r_i = y_i — ŷ_i (Residual = Nilai aktual — Nilai prediksi)
Misalnya, jika nilai aktual 530 dan prediksi 500, residualnya +30

3. GOSS Sampling — Fokus Pada Error Besar

Knowledge diurutkan berdasarkan besar kecilnya residual (tanpa memperhatikan tanda + atau -)
LightGBM mempertahankan knowledge dengan error terbesar (misal high 20%)
Dari sisa knowledge, diambil sampel acak (misal 10% dari sisa knowledge)

4. Bangun Pohon untuk Prediksi Residual

LightGBM membangun pohon keputusan untuk memprediksi residual
Pohon memisahkan knowledge berdasarkan fitur dengan metode leaf-wise
Setiap daun pohon berisi nilai prediksi untuk memperbaiki error

5. Replace Prediksi dan Iterasi Hingga Konvergen

Prediksi diperbarui dengan method: ŷᵢ = ŷᵢ₋₁ + η × f_m(xᵢ)
η (eta) adalah studying fee, biasanya nilai kecil seperti 0.1 atau 0.01
f_m(xᵢ) adalah output dari pohon yang baru dibuat
Proses langkah 2–5 diulang untuk membangun beberapa pohon (ensemble)

Keunggulan LightGBM

1. Efisiensi Komputasi Tinggi

LightGBM menggunakan strategi Leaf-wise development dan teknik GOSS yang mempercepat coaching secara signifikan dibandingkan algoritma boosting lainnya seperti XGBoost.

2. Penggunaan Memori yang Lebih Rendah

Dengan teknik EFB (Unique Characteristic Bundling), LightGBM dapat mengurangi dimensi knowledge secara efektif tanpa kehilangan informasi penting.

3. Penanganan Skala Knowledge Besar

Random Forest lebih stabil terhadap noise dan outlier karena efek rata-rata dari banyak pohon keputusan yang independen. Fluktuasi pada sebagian knowledge hanya mempengaruhi sebagian pohon, sehingga prediksi keseluruhan tetap konsisten.

4. Dukungan untuk Knowledge Kategorikal

LightGBM memiliki kemampuan built-in untuk menangani fitur kategorikal tanpa perlu one-hot encoding, meningkatkan efisiensi dan performa.

5. Regularisasi yang Kuat

LightGBM menawarkan berbagai opsi regularisasi (L1, L2, max_depth, min_data_in_leaf) yang membantu mencegah overfitting dan meningkatkan generalisasi mannequin.

The Finest Eksperiment

Modelling pada eksperimen pertama menerapkan 8 mannequin machine studying pada knowledge authentic atau knowledge yang masih dalam keadaan saat mendapatkan knowledge tersebut. Perlakuan yang diberikan untuk eksperimen ini hanya pada dealing with lacking values-nya saja. Proses-proses yang saya gunakan:

Membagi (cut up) knowledge menjadi proporsi 80% untuk knowledge prepare dan 20% untuk knowledge testing.
Melakukan seleksi fitur numerik dan kategorik untuk dimasukkan ke dalam masing-masing satu variabel, untuk dilakukan transformasi
Transformasi yang dilakukan: fitur bertipe numerik akan dilakukan scaling menggunakan metode Strong, sedangkan untuk fitur bertipe kategorik akan dilakukan one-hot encoder.
8 mannequin machine studying yang saya gunakan adalah Linear Regression, Resolution Tree, KNN, Random Forest, Gradient Bossting, XGBoost, Help Vector Regressor, dan LightGBM
Setelah itu dilakukan Cross Validation untuk menghindari overfitting dan kebocoran pada saat coaching knowledge.

**Validasi Menggunakan Knowledge Check**

**Characteristic Significance yang Diperoleh**

Conclusions

Kesimpulan ini diperoleh dari hasil mannequin yang dijalankan pada eksperimen pertama, di mana dataset telah melalui proses preprocessing standar. Selain itu, berbagai eksperimen tambahan juga dilakukan untuk memastikan bahwa algoritma LightGBM memberikan performa optimum dalam kasus ini.

Pengujian tersebut mencakup evaluasi terhadap kemungkinan terjadinya knowledge leakage, kemampuan mannequin dalam menangani hubungan non-linear antar variabel, serta validitas nilai performa mannequin yang diperoleh. Berdasarkan hasil evaluasi, algoritma machine studying LightGBM menunjukkan kinerja yang stabil dan dapat diandalkan pada eksperimen pertama.

Mannequin LightGBM menunjukkan efektivitas yang baik dalam prediksi harga perumahan California, dengan performa yang konsisten dibandingkan model-model lain yang diuji. Mannequin ini mencapai metrik evaluasi yang menunjukkan keseimbangan antara akurasi dan generalisasi dengan MAE sebesar ($32,646), RMSE ($48,850), dan R² sebesar (82.3%) pada knowledge prepare.

Pada knowledge take a look at, mannequin ini juga menunjukkan konsistensi dengan RMSE ($47,866), MAE ($32,514), dan R² (82%). Performa yang relatif setara antara knowledge prepare dan take a look at mengindikasikan mannequin memiliki kemampuan generalisasi yang baik, tanpa tanda-tanda overfitting yang signifikan.

Keunggulan LightGBM dalam kasus ini berasal dari beberapa karakteristik fundamentalnya. Teknik gradient boosting yang ditingkatkan dengan Gradient-based One-Aspect Sampling (GOSS) memungkinkan mannequin fokus pada knowledge dengan error besar, meningkatkan efisiensi pembelajaran.

Unique Characteristic Bundling (EFB) secara efektif mengurangi dimensi knowledge tanpa kehilangan informasi penting, mempercepat pelatihan mannequin.

Sementara itu, pertumbuhan pohon dengan metode leaf-wise yang unik memungkinkan mannequin mencapai performa yang lebih baik dengan jumlah cut up yang sama, memungkinkan penangkapan pola kompleks dalam knowledge perumahan dengan lebih efisien dibandingkan algoritma boosting tradisional.

Technical Suggestions

1. Ekspansi Knowledge dan Fitur

Integrasi Knowledge Temporal: Menganalisis tren harga perumahan dari waktu ke waktu untuk memahami dinamika pasar
Peningkatan Granularitas Geografis:
Knowledge infrastruktur (jarak ke sarana publik, kualitas sekolah)
Knowledge demografi lanjutan (contoh: kualitas udara)

2. Penyempurnaan Mannequin

Ensemble Hybrid: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
Segmentasi Mannequin: Mengembangkan mannequin terpisah untuk segmen pasar berbeda (properti mewah, kelas menengah, terjangkau)
Deep Studying: Mengeksplorasi penggunaan neural networks untuk ekstraksi fitur otomatis

3. Implementasi Praktis

Validasi Dunia Nyata: Pengujian dengan knowledge itemizing perumahan terkini
Pengembangan API: Membuat API prediksi yang dapat diintegrasikan dengan sistem actual property
Dashboard Interaktif: Membangun visualisasi interaktif untuk pemangku kepentingan
Alat Penilaian Cellular: Mengembangkan aplikasi untuk penilaian properti di lapangan

Enterprise Suggestions

1. Strategi Penetapan Harga

Optimalisai Harga Dinamis: Mengimplementasikan sistem penentuan harga dinamis berdasarkan permintaan pasar saat ini, musiman, dan prediksi mannequin dengan margin error hanya ±2000 greenback, meningkatkan kompetitivitas tanpa mengorbankan revenue.
Startegi Harga Diferensial: Menetapkan harga berbeda untuk properti dengan karakteristik serupa di lokasi berbeda.

2. Pengembangan Produk dan Layanan

Layanan Konsultasi: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
Jaminan Valuasi: Menawarkan jaminan akurasi valuasi dengan margin error maksimal ±2000 greenback — jika perbedaan lebih besar, perusahaan memberikan insentif atau kompensasi kepada klien.

3. Efisiensi Operasional

Optimalisasi Inventori: Menggunakan prediksi harga untuk menentukan strategi akuisisi properti yang paling menguntungkan dan mengurangi holding value.
Efisiensi Sumber Daya: Mengurangi ketergantungan pada penilai properti guide, memungkinkan staf fokus pada kegiatan bernilai tambah seperti negosiasi dan layanan pelanggan.

Source link

Credit Risk Scoring for BNPL Customers at Bati Bank | by Sumeya sirmula | Jul, 2025

Why PDF Extraction Still Feels LikeHack

🚗 Predicting Car Purchase Amounts with Neural Networks in Keras (with Code & Dataset) | by Smruti Ranjan Nayak | Jul, 2025

Cuba’s Energy Crisis: A Systemic Breakdown

I Tried Buying a Car Through Amazon: Here Are the Pros, Cons

Amazon and eBay to pay ‘fair share’ for e-waste recycling

Artificial Intelligence Concerns & Predictions For 2025

Barbara Corcoran: Entrepreneurs Must ‘Embrace Change’

Most Popular

Trump Is Said to Consider Executive Order to Circumvent TikTok Ban

OpenAI’s Jony Ive Deal Removed From Website, Social Media

What the New IRS Rules Mean for Your Business — And How to Come Out Ahead

Our Picks