Başarı mı, Hile mi? Modelinizi Yanıltan Veri Sızıntısının (Data Leakage) Perde Arkası — Part 2 | by Karadenizelif

Önceki yazımda, veri sızıntısının ne olduğu, türleri, nasıl oluştuğu ve özellikle ölçeklendirme gibi kritik adımlarda nasıl fark edilmeden oluşabileceğini detaylıca ele almıştım. Şimdi ise gerçek dünyadan örneklerle veri sızıntısı vakalarını inceleyerek, bu hataları nasıl fark edebileceğimizi ve etkili yöntemlerle nasıl önleyebileceğimizi adım adım anlatacağım.

1. Aşırı Yüksek Performans: Modelin doğruluk ya da F1 skoru beklenmedik şekilde yüksekse, mannequin take a look at verisinden veya hedef değişkenden dolaylı bilgi alıyor olabilir. Örneğin, bir hastanın taburcu olup olmadığını tahmin ederken, taburcu tarihinin kullanılması veri sızıntısıdır.

2. Eğitim ve Check Arasındaki Performans Farkı: Eğitim verisinde çok başarılı ama take a look at verisinde başarısız modeller, eğitim sırasında görmemesi gereken verileri öğrenmiş olabilir. Örneğin, kredi skorlamada müşterinin son ödeme tarihinin eğitim verisinde bulunması sızıntı yaratır.

3. Çapraz Doğrulamada Tutarsızlıklar: Bazı çapraz doğrulama katmanlarında performans çok yüksekken bazılarında düşükse, mannequin gizli bilgi almış olabilir.

4. Bazı Özelliklerin Aşırı Önemli Olması: Özelliklerin aşırı yüksek öneme sahip olması, bu girdilerin hedefle doğrudan veya dolaylı bağlantılı olduğuna işaret eder.

5. Beklenmedik Mannequin Davranışları: Mannequin eğitim verisinde çok iyi performans gösterirken gerçek dünya verilerinde başarısızsa, bu veri sızıntısından kaynaklanabilir.

6. Veri Ön İşleme Hataları: Eğitim ve take a look at verilerinin ön işleme sırasında karıştırılması, take a look at verisinden bilgi sızmasına neden olur.

7. Akran Değerlendirmeleri ve İş Birliği: Projeyi başka bir gözle inceleyecek ekip arkadaşları, fark etmediğiniz veri sızıntılarını ortaya çıkarabilir.

8. Otomatik Veri Sızıntısı Kontrollerinin Eksikliği: Büyük veri setlerinde otomatik sızıntı tespit araçları kullanmak önemlidir. Örneğin, sklearn kütüphanesindeki permutation_importance fonksiyonu şüpheli bağımlılıkları keşfetmekte faydalıdır.

9. Zaman İçinde Performans Düşüşü: Mannequin eski verilere göre iyi performans verirken yeni verilerde kötü sonuç veriyorsa, önceki başarılar sızıntıdan kaynaklanıyor olabilir.

10. Özellik Duyarlılığı Analizi: Bir özelliği çıkardığınızda performans çok düşüyorsa, o özellik veri sızıntısına yol açıyor olabilir.

1. Pipeline ile Veri Sızıntısını Önlemek

Pipeline (Boru hatları), çapraz doğrulama sırasında take a look at verilerinizden eğitilen modele istatistik sızdırılmasını önlemeye yardımcı olur ve dönüştürücüleri ve öngörücüleri eğitmek için aynı örneklerin kullanılmasını sağlar.

❌ Örnek Hatalı Uygulama:

Min-Max Normalizasyon gibi dönüşümler tüm veri seti üzerinde yapıldığında (örneğin, pandas ile doğrudan df['feature'] üzerinde tüm veri için min-max scaling yapmak), take a look at verisinden eğitim sürecine bilgi sızar. Çünkü bu işlem, take a look at verisinin dağılım bilgilerini de eğitim verisine karıştırır ve modelin gerçek performansını yanıltır.