Close Menu
    Trending
    • Cuba’s Energy Crisis: A Systemic Breakdown
    • AI Startup TML From Ex-OpenAI Exec Mira Murati Pays $500,000
    • STOP Building Useless ML Projects – What Actually Works
    • Credit Risk Scoring for BNPL Customers at Bati Bank | by Sumeya sirmula | Jul, 2025
    • The New Career Crisis: AI Is Breaking the Entry-Level Path for Gen Z
    • Musk’s X appoints ‘king of virality’ in bid to boost growth
    • Why Entrepreneurs Should Stop Obsessing Over Growth
    • Implementing IBCS rules in Power BI
    AIBS News
    • Home
    • Artificial Intelligence
    • Machine Learning
    • AI Technology
    • Data Science
    • More
      • Technology
      • Business
    AIBS News
    Home»Machine Learning»Estimasi Harga Rumah dengan Regresi dan Teknik Machine Learning | by Anas Putra Agazy | May, 2025
    Machine Learning

    Estimasi Harga Rumah dengan Regresi dan Teknik Machine Learning | by Anas Putra Agazy | May, 2025

    Team_AIBS NewsBy Team_AIBS NewsMay 12, 2025No Comments10 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Latar Belakang

    Dataset yang digunakan dalam studi ini berisi informasi dari sensus California tahun 1990. Meskipun knowledge ini mungkin tidak membantu dalam memprediksi harga perumahan saat ini, dataset ini memberikan pengantar yang sangat baik untuk mengajarkan dasar-dasar pembelajaran mesin (machine studying).

    Knowledge mencakup berbagai fitur seperti koordinat geografis (longitude dan latitude), karakteristik rumah (usia median perumahan, jumlah kamar), informasi demografis (populasi, rumah tangga, pendapatan median), dan nilai rumah median.

    Pasar perumahan di California selalu dinamis dengan variasi signifikan di berbagai wilayah, mulai dari daerah pantai hingga komunitas pedalaman. Hal ini menyebabkan pembeli rumah, penjual, agen actual property, dan investor mengalami kesulitan dalam menentukan nilai pasar yang wajar tanpa alat analisis canggih.

    Mirip dengan tantangan yang dihadapi oleh tuan rumah Airbnb dalam menentukan harga sewa optimum, pemangku kepentingan actual property di California membutuhkan alat yang dapat diandalkan untuk memahami valuasi perumahan.

    Pernyataan Masalah

    Salah satu tantangan terbesar dalam industri actual property adalah memprediksi harga rumah secara akurat berdasarkan berbagai fitur untuk menciptakan mannequin yang menguntungkan secara finansial bagi semua pemangku kepentingan seperti penjual, pembeli, dan agen actual property.

    Tantangan ini sangat akut di pasar beragam seperti California, di mana harga perumahan dapat bervariasi secara dramatis berdasarkan lokasi, karakteristik properti, dan faktor demografis.

    Mengingat dataset menyediakan berbagai fitur tentang properti (seperti koordinat lokasi, usia perumahan, jumlah kamar, statistik populasi, dan kedekatan dengan laut), mengembangkan mannequin prediksi yang akurat sangat penting namun kompleks.

    Profesional actual property dan calon pembeli rumah memiliki panduan terbatas tentang bagaimana berbagai faktor ini berkombinasi untuk mempengaruhi nilai properti.

    Dengan bertambahnya jumlah variabel yang mempengaruhi harga perumahan, menentukan valuasi yang akurat di pasar actual property California yang kompetitif sangatlah penting. Tanpa alat prediksi yang handal, penjual mungkin menetapkan harga terlalu tinggi sehingga properti sulit terjual, atau terlalu rendah sehingga kehilangan potensi keuntungan.

    Sementara itu, pembeli mungkin mengalami kesulitan dalam menilai apakah harga yang diminta sudah wajar berdasarkan karakteristik properti dan lokasi.

    Pendekatan Analitik

    Pendekatan analitik yang akan digunakan adalah menganalisis knowledge untuk dapat menemukan pola dari fitur-fitur yang ada, yang membedakan satu properti dengan yang lainnya.

    Dalam tahap awal, eksplorasi knowledge akan dilakukan untuk memahami distribusi setiap fitur, mengidentifikasi outlier, dan memeriksa korelasi antar variabel. Selanjutnya preprocessing knowledge akan dilakukan dengan membersihkan nilai yang hilang, menangani outlier, dan melakukan transformasi fitur jika diperlukan, termasuk normalisasi fitur numerik dan encoding fitur kategorikal seperti ‘ocean_proximity’.

    Tahap characteristic engineering akan fokus pada penciptaan fitur baru yang memiliki kekuatan prediktif lebih baik, seperti rasio kamar per rumah tangga, rasio populasi per rumah tangga, dan indikator daerah berdasarkan koordinat geografis.

    Kemudian seleksi fitur akan dilakukan untuk mengidentifikasi faktor-faktor yang memiliki pengaruh paling signifikan terhadap harga rumah.

    Pada tahap pemodelan, beberapa mannequin regresi akan dibangun dan dibandingkan performanya. Mannequin-model ini akan dievaluasi berdasarkan metrik seperti RMSE, MAE, dan MAPE, serta nilai R-squared atau Adjusted R-squared untuk mannequin linear.

    Metrik-metrik ini memberikan perspektif berbeda tentang akurasi mannequin, dengan RMSE memberikan bobot lebih pada error besar, MAE lebih mudah diinterpretasi karena berada dalam skala yang sama dengan variabel goal, dan MAPE membantu memahami error relatif terhadap nilai aktual.

    Berdasarkan knowledge California Housing yang tersedia, terdapat kesempatan untuk menganalisis faktor-faktor yang mempengaruhi harga perumahan di California dan mengembangkan mannequin prediktif yang dapat memberikan wawasan berharga bagi berbagai pemangku kepentingan di pasar perumahan.

    Dalam proses analisis knowledge, persiapan knowledge (knowledge preparation) sering kali perlu didahulukan dibandingkan dengan exploratory knowledge evaluation (EDA) karena pemahaman yang mendalam terhadap knowledge membutuhkan fitur-fitur turunan yang tidak tersedia pada dataset awal.

    Seperti yang terlihat pada contoh dataset perumahan California, pembuatan kolom-kolom baru seperti room_per_household, population_per_household, dan bedrooms_ratio memberikan perspektif baru yang tidak langsung terlihat dari knowledge mentah.

    Dengan mengolah knowledge mentah menjadi metrik yang lebih bermakna, analis dapat mengungkap pola dan hubungan yang tersembunyi, sehingga menghasilkan wawasan yang lebih komprehensif dan mannequin prediksi yang lebih akurat.

    Karakteristik Knowledge

    Dataset California Housing merupakan kumpulan knowledge perumahan di California dengan karakteristik sebagai berikut:

    1. Jumlah Knowledge: Dataset terdiri dari 14.448 entri (baris) dengan indeks dari 0 hingga 14.447
    2. Jumlah Kolom: Dataset memiliki 10 kolom
    3. Tipe Knowledge:
    • 9 kolom bertipe numerik (float64): longitude, latitude, housing_median_age, total_rooms, total_bedrooms, inhabitants, households, median_income, dan median_house_value
    • 1 kolom bertipe kategorikal (object): ocean_proximity

    4. Kelengkapan Knowledge:

    • Hampir semua kolom memiliki knowledge lengkap (14.448 non-null values)
    • Hanya kolom total_bedrooms yang memiliki lacking values (14.311 non-null, berarti terdapat 137 lacking values)

    Characteristic Engineering

    Fitur Rasio (Derived Options):

    • room_per_household: Rasio jumlah kamar dengan rumah tangga
    • population_per_household: Rasio populasi dengan rumah tangga
    • bedrooms_ratio: Proporsi kamar tidur terhadap complete kamar
    • income_household: Pendapatan per rumah tangga
    • income_to_rooms_ratio: Rasio pendapatan terhadap jumlah kamar
    • income_to_population_ratio: Rasio pendapatan terhadap populasi

    Fitur Kategorikal:

    • county: Penambahan variabel lokasi berdasarkan koordinat
    • proximity_ordinal: Konversi kedekatan laut ke bentuk ordinal

    Fitur Binning (Diskretisasi):

    • income_level: Kategori pendapatan (1–5) dari sangat rendah hingga sangat tinggi
    • housing_age_category: Kategori usia properti (1–5) dari sangat baru hingga sangat tua
    • room_size_category: Kategori ukuran rumah berdasarkan kamar (1–5) dari sangat kecil hingga sangat besar
    • pop_density_category: Kategori kepadatan populasi (1–5) dari sangat rendah hingga sangat tinggi

    Characteristic engineering ini bertujuan meningkatkan kekuatan prediktif mannequin dengan menciptakan fitur baru yang lebih informatif dan relevan terhadap harga rumah.

    Nilai Rumah berdasarkan Jarak ke Laut: Field plot ini membandingkan nilai rumah median berdasarkan kategori ocean_proximity. Properti dengan kategori “ISLAND” dan “NEAR BAY” menunjukkan nilai tertinggi, diikuti oleh “<1H OCEAN”. Properti “INLAND” memiliki nilai terendah. Visualisasi ini menegaskan bahwa properti dekat laut cenderung lebih mahal.

    10 County dengan Nilai Rumah Tertinggi: Bar chart horizontal menunjukkan 10 county di California dengan nilai rumah median tertinggi. San Mateo memiliki nilai tertinggi, diikuti oleh Santa Barbara dan Santa Clara. Visualisasi ini menegaskan area-area premium di California.

    Nilai Rumah berdasarkan Degree Pendapatan: Violin plot menunjukkan distribusi nilai rumah untuk setiap degree pendapatan (1–5). Terlihat jelas bahwa semakin tinggi degree pendapatan, semakin tinggi pula nilai rumah median, dengan degree 5 (pendapatan tertinggi) memiliki konsentrasi nilai rumah di sekitar $400,000-$500,000.

    Nilai Rumah & Jumlah Knowledge berdasarkan Kategori Ukuran Ruangan: Grafik kombinasi bar chart dan line chart. Bar chart biru menunjukkan nilai rumah median untuk setiap kategori ukuran ruangan, sementara garis merah menunjukkan jumlah knowledge di setiap kategori. Kategori 3 memiliki nilai rumah tertinggi dan juga memiliki frekuensi knowledge tertinggi (~7000 properti).

    Apa itu LightGBM??

    LightGBM adalah algoritma pembelajaran mesin yang sangat populer dan highly effective, dikembangkan oleh Microsoft Analysis.

    Algoritma ini menerapkan konsep gradient boosting dengan mengoptimalkan pembangunan pohon keputusan (resolution bushes) untuk menghasilkan prediksi yang lebih akurat dan efisien.

    Setiap pohon dalam LightGBM dilatih secara sekuensial dengan fokus pada teknik Gradient-based One-Aspect Sampling (GOSS) dari knowledge asli. Ini berarti knowledge dengan gradien besar (error besar) dipertahankan, sementara sebagian kecil dari knowledge dengan gradien kecil dipilih secara acak untuk proses pembelajaran.

    Selain itu, saat membangun setiap pohon, LightGBM menggunakan teknik khusus bernama “Unique Characteristic Bundling (EFB)” yang menggabungkan fitur-fitur yang jarang mengambil nilai non-zero secara bersamaan.

    Teknik ini sangat membantu mengurangi dimensi knowledge dan mempercepat proses pelatihan, yang meningkatkan efisiensi komputasi mannequin secara keseluruhan tanpa mengorbankan akurasi.

    Bagaimana LightGBM Bekerja??

    1. Inisialisasi Mannequin Dasar (Base Prediction)

    • LightGBM memulai dengan prediksi paling sederhana, rata-rata dari semua nilai goal
    • Misalnya, jika rata-rata nilai goal adalah 500, semua prediksi awal akan bernilai 500
    • Ini menjadi titik awal sebelum mannequin melakukan perbaikan

    2. Hitung Residual (Error) dari Mannequin Saat Ini

    • Untuk setiap knowledge, mannequin menghitung selisih antara nilai sebenarnya dengan prediksi
    • Rumus: r_i = y_i — ŷ_i (Residual = Nilai aktual — Nilai prediksi)
    • Misalnya, jika nilai aktual 530 dan prediksi 500, residualnya +30

    3. GOSS Sampling — Fokus Pada Error Besar

    • Knowledge diurutkan berdasarkan besar kecilnya residual (tanpa memperhatikan tanda + atau -)
    • LightGBM mempertahankan knowledge dengan error terbesar (misal high 20%)
    • Dari sisa knowledge, diambil sampel acak (misal 10% dari sisa knowledge)

    4. Bangun Pohon untuk Prediksi Residual

    • LightGBM membangun pohon keputusan untuk memprediksi residual
    • Pohon memisahkan knowledge berdasarkan fitur dengan metode leaf-wise
    • Setiap daun pohon berisi nilai prediksi untuk memperbaiki error

    5. Replace Prediksi dan Iterasi Hingga Konvergen

    • Prediksi diperbarui dengan method: ŷᵢ = ŷᵢ₋₁ + η × f_m(xᵢ)
    • η (eta) adalah studying fee, biasanya nilai kecil seperti 0.1 atau 0.01
    • f_m(xᵢ) adalah output dari pohon yang baru dibuat
    • Proses langkah 2–5 diulang untuk membangun beberapa pohon (ensemble)

    Keunggulan LightGBM

    1. Efisiensi Komputasi Tinggi

    LightGBM menggunakan strategi Leaf-wise development dan teknik GOSS yang mempercepat coaching secara signifikan dibandingkan algoritma boosting lainnya seperti XGBoost.

    2. Penggunaan Memori yang Lebih Rendah

    Dengan teknik EFB (Unique Characteristic Bundling), LightGBM dapat mengurangi dimensi knowledge secara efektif tanpa kehilangan informasi penting.

    3. Penanganan Skala Knowledge Besar

    Random Forest lebih stabil terhadap noise dan outlier karena efek rata-rata dari banyak pohon keputusan yang independen. Fluktuasi pada sebagian knowledge hanya mempengaruhi sebagian pohon, sehingga prediksi keseluruhan tetap konsisten.

    4. Dukungan untuk Knowledge Kategorikal

    LightGBM memiliki kemampuan built-in untuk menangani fitur kategorikal tanpa perlu one-hot encoding, meningkatkan efisiensi dan performa.

    5. Regularisasi yang Kuat

    LightGBM menawarkan berbagai opsi regularisasi (L1, L2, max_depth, min_data_in_leaf) yang membantu mencegah overfitting dan meningkatkan generalisasi mannequin.

    The Finest Eksperiment

    Modelling pada eksperimen pertama menerapkan 8 mannequin machine studying pada knowledge authentic atau knowledge yang masih dalam keadaan saat mendapatkan knowledge tersebut. Perlakuan yang diberikan untuk eksperimen ini hanya pada dealing with lacking values-nya saja. Proses-proses yang saya gunakan:

    • Membagi (cut up) knowledge menjadi proporsi 80% untuk knowledge prepare dan 20% untuk knowledge testing.
    • Melakukan seleksi fitur numerik dan kategorik untuk dimasukkan ke dalam masing-masing satu variabel, untuk dilakukan transformasi
    • Transformasi yang dilakukan: fitur bertipe numerik akan dilakukan scaling menggunakan metode Strong, sedangkan untuk fitur bertipe kategorik akan dilakukan one-hot encoder.
    • 8 mannequin machine studying yang saya gunakan adalah Linear Regression, Resolution Tree, KNN, Random Forest, Gradient Bossting, XGBoost, Help Vector Regressor, dan LightGBM
    • Setelah itu dilakukan Cross Validation untuk menghindari overfitting dan kebocoran pada saat coaching knowledge.
    Hasil Match pada Knowledge Practice
    Validasi Menggunakan Knowledge Check
    Characteristic Significance yang Diperoleh

    Conclusions

    Kesimpulan ini diperoleh dari hasil mannequin yang dijalankan pada eksperimen pertama, di mana dataset telah melalui proses preprocessing standar. Selain itu, berbagai eksperimen tambahan juga dilakukan untuk memastikan bahwa algoritma LightGBM memberikan performa optimum dalam kasus ini.

    Pengujian tersebut mencakup evaluasi terhadap kemungkinan terjadinya knowledge leakage, kemampuan mannequin dalam menangani hubungan non-linear antar variabel, serta validitas nilai performa mannequin yang diperoleh. Berdasarkan hasil evaluasi, algoritma machine studying LightGBM menunjukkan kinerja yang stabil dan dapat diandalkan pada eksperimen pertama.

    Mannequin LightGBM menunjukkan efektivitas yang baik dalam prediksi harga perumahan California, dengan performa yang konsisten dibandingkan model-model lain yang diuji. Mannequin ini mencapai metrik evaluasi yang menunjukkan keseimbangan antara akurasi dan generalisasi dengan MAE sebesar ($32,646), RMSE ($48,850), dan R² sebesar (82.3%) pada knowledge prepare.

    Pada knowledge take a look at, mannequin ini juga menunjukkan konsistensi dengan RMSE ($47,866), MAE ($32,514), dan R² (82%). Performa yang relatif setara antara knowledge prepare dan take a look at mengindikasikan mannequin memiliki kemampuan generalisasi yang baik, tanpa tanda-tanda overfitting yang signifikan.

    Keunggulan LightGBM dalam kasus ini berasal dari beberapa karakteristik fundamentalnya. Teknik gradient boosting yang ditingkatkan dengan Gradient-based One-Aspect Sampling (GOSS) memungkinkan mannequin fokus pada knowledge dengan error besar, meningkatkan efisiensi pembelajaran.

    Unique Characteristic Bundling (EFB) secara efektif mengurangi dimensi knowledge tanpa kehilangan informasi penting, mempercepat pelatihan mannequin.

    Sementara itu, pertumbuhan pohon dengan metode leaf-wise yang unik memungkinkan mannequin mencapai performa yang lebih baik dengan jumlah cut up yang sama, memungkinkan penangkapan pola kompleks dalam knowledge perumahan dengan lebih efisien dibandingkan algoritma boosting tradisional.

    Technical Suggestions

    1. Ekspansi Knowledge dan Fitur

    • Integrasi Knowledge Temporal: Menganalisis tren harga perumahan dari waktu ke waktu untuk memahami dinamika pasar
    • Peningkatan Granularitas Geografis:
    • Knowledge infrastruktur (jarak ke sarana publik, kualitas sekolah)
    • Knowledge demografi lanjutan (contoh: kualitas udara)

    2. Penyempurnaan Mannequin

    • Ensemble Hybrid: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
    • Segmentasi Mannequin: Mengembangkan mannequin terpisah untuk segmen pasar berbeda (properti mewah, kelas menengah, terjangkau)
    • Deep Studying: Mengeksplorasi penggunaan neural networks untuk ekstraksi fitur otomatis

    3. Implementasi Praktis

    • Validasi Dunia Nyata: Pengujian dengan knowledge itemizing perumahan terkini
    • Pengembangan API: Membuat API prediksi yang dapat diintegrasikan dengan sistem actual property
    • Dashboard Interaktif: Membangun visualisasi interaktif untuk pemangku kepentingan
    • Alat Penilaian Cellular: Mengembangkan aplikasi untuk penilaian properti di lapangan

    Enterprise Suggestions

    1. Strategi Penetapan Harga

    • Optimalisai Harga Dinamis: Mengimplementasikan sistem penentuan harga dinamis berdasarkan permintaan pasar saat ini, musiman, dan prediksi mannequin dengan margin error hanya ±2000 greenback, meningkatkan kompetitivitas tanpa mengorbankan revenue.
    • Startegi Harga Diferensial: Menetapkan harga berbeda untuk properti dengan karakteristik serupa di lokasi berbeda.

    2. Pengembangan Produk dan Layanan

    • Layanan Konsultasi: Menggabungkan Random Forest dengan mannequin lain seperti LightGBM untuk meningkatkan performa
    • Jaminan Valuasi: Menawarkan jaminan akurasi valuasi dengan margin error maksimal ±2000 greenback — jika perbedaan lebih besar, perusahaan memberikan insentif atau kompensasi kepada klien.

    3. Efisiensi Operasional

    • Optimalisasi Inventori: Menggunakan prediksi harga untuk menentukan strategi akuisisi properti yang paling menguntungkan dan mengurangi holding value.
    • Efisiensi Sumber Daya: Mengurangi ketergantungan pada penilai properti guide, memungkinkan staf fokus pada kegiatan bernilai tambah seperti negosiasi dan layanan pelanggan.



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleTrump abruptly stopped paying farmers to feed in-need Californians—so they fought back
    Next Article These 5 free AI-powered Chrome extensions make Gmail so much better
    Team_AIBS News
    • Website

    Related Posts

    Machine Learning

    Credit Risk Scoring for BNPL Customers at Bati Bank | by Sumeya sirmula | Jul, 2025

    July 1, 2025
    Machine Learning

    Why PDF Extraction Still Feels LikeHack

    July 1, 2025
    Machine Learning

    🚗 Predicting Car Purchase Amounts with Neural Networks in Keras (with Code & Dataset) | by Smruti Ranjan Nayak | Jul, 2025

    July 1, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Cuba’s Energy Crisis: A Systemic Breakdown

    July 1, 2025

    I Tried Buying a Car Through Amazon: Here Are the Pros, Cons

    December 10, 2024

    Amazon and eBay to pay ‘fair share’ for e-waste recycling

    December 10, 2024

    Artificial Intelligence Concerns & Predictions For 2025

    December 10, 2024

    Barbara Corcoran: Entrepreneurs Must ‘Embrace Change’

    December 10, 2024
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    Most Popular

    Trump Is Said to Consider Executive Order to Circumvent TikTok Ban

    January 16, 2025

    OpenAI’s Jony Ive Deal Removed From Website, Social Media

    June 24, 2025

    What the New IRS Rules Mean for Your Business — And How to Come Out Ahead

    April 22, 2025
    Our Picks

    Cuba’s Energy Crisis: A Systemic Breakdown

    July 1, 2025

    AI Startup TML From Ex-OpenAI Exec Mira Murati Pays $500,000

    July 1, 2025

    STOP Building Useless ML Projects – What Actually Works

    July 1, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2024 Aibsnews.comAll Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.