Close Menu
    Trending
    • Musk’s X appoints ‘king of virality’ in bid to boost growth
    • Why Entrepreneurs Should Stop Obsessing Over Growth
    • Implementing IBCS rules in Power BI
    • What comes next for AI copyright lawsuits?
    • Why PDF Extraction Still Feels LikeHack
    • GenAI Will Fuel People’s Jobs, Not Replace Them. Here’s Why
    • Millions of websites to get ‘game-changing’ AI bot blocker
    • I Worked Through Labor, My Wedding and Burnout — For What?
    AIBS News
    • Home
    • Artificial Intelligence
    • Machine Learning
    • AI Technology
    • Data Science
    • More
      • Technology
      • Business
    AIBS News
    Home»Machine Learning»Aykırı Değer Tespiti ve Başa Çıkma Yöntemleri | by hasanaliozkan-dev | Jun, 2025
    Machine Learning

    Aykırı Değer Tespiti ve Başa Çıkma Yöntemleri | by hasanaliozkan-dev | Jun, 2025

    Team_AIBS NewsBy Team_AIBS NewsJune 22, 2025No Comments4 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Bu görsel ChatGPT tarafından oluşturulmuştur.

    Aykırı değer bir veri setinde diğer gözlemlerden çok farklı veya çok uzak gözlemlere denir. Aykırı değer bir çok farklı nedenden ötürü ortaya çıkabilir. Örneğin bir kişi bir formda yaşını yazarken bir sıfır fazladan yazdığını düşünelim. Veri setinde ki yaş sütununda bu değer aykırı değer olarak adlandırılır. Aykırı değer barındıran gözlemler veri setindeki değişkenlerin bazı istatistiklerini doğrudan etkiler. Örneğin yaş sütunu bir aykırı değer barındırıyor ise aykırı değer yaş değişkeninin aralığını, ortalamasını ve varyansını doğrudan etkiler. Bu nedenle aykırı değerler herhangi bir veri bilimi projelerinde, makine öğrenmesi modellerinde yanlılığa ya da düşük başarım sonuçlarına neden olur. Keşifsel veri analizi (exploratory information evaluation) sırasında aykırı değerler tespit edilmeli ve aykırı değer problemi ileriki aşamalara geçmeden çözülmelidir.

    Yukarıda da bahsettiğim gibi aykırı değerlerin tespiti veri bilimi projeleri için önemlidir. Aykırı değer tespiti için bir çok farklı yöntem vardır. Bu yöntemleri aşağıda görebilirsiniz.

    Görsel Yöntemler

    Keşifsel veri analizi sırasında veri setleri bir çok farklı grafikle görselleştirilir. Her bir değişken için ayrı bir şekilde oluşturulan grafikler veri seti hakkında bir çok bilgi verir. Bu yöntemlerden ilki kutu grafikleridir(field plot). Kutu grafikleri değişkenin en yüksek(max), en düşük(min), ortanca(median) ve çeyreklikleri(quartiles) doğrudan gösterir. Kutu grafiği en düşük ve en yüksek değer hakkında bilgi verdiği için aykırı değerleri doğrudan görebiliriz. Bir diğer görselleştirme yöntemi ise saçılım grafiğidir(scatter plot). Saçılım grafiğinde her bir gözlem bir nokta olarak gösterilir. Veri setinde aykırı bir değer var ise diğer gözlemlerden ayrı bir şekilde grafik üzerinde görüneceği için aykırı değer tespitinde önemli bir yöntemdir. Histogram grafikleri sayısal değişkenleri görselleştirirken belli aralıklarda sütunlara ayırıp sütunların frekanslarını görselleştirdiği için tekrar çok aykırı bir değer varsa diğer verilerden daha ayrı bir noktada görüneceği için aykırı değerler çok hızlı bir şekilde tespit edilebilir. Yazının en altına eklediğim Github repository linkine tıklayarak Python dilinde yaptığım örnek görselleştirmeleri görebilirsiniz.

    İstatistiksel Yöntemler

    İstatiksel yöntemler kullanılarak aykırı değerler tespit edilebilir. Aykırı değer tespiti için bir çok farklı istatistiksel yöntemler kullanılabilir.

    Bunların en başında z-score gelir. Z-score, bir değerin ortalamaya ne kadar(kaç standart sapma) uzakta olduğunu ölçer. Eğer değer çok uzaktaysa aykırı değer olarak kabul edilir. Z-score ile aykırı değer tespiti oldukça kolay ve hızlıdır. Z-score regular dağılım varsayımı gerektirir ve çok değişkenli verilerde kullanılamaz.

    Bir diğer yöntem ise Çeyrekler Arası Açıklığa (Interquartile Vary) bakmaktır. 1. çeyrek (1st quartile) ve 2. çeyrek(2nd quartile) arasında veri setinin yarısı bulunmaktadır. Bu aralığın 1.5 katı dışında kalan veriler aykırı değer olarak kabul edilir. Dayanıklı ve dağılıma bağımlı değildir. Küçük veri setlerinde de zayıftır.

    Bir diğer yöntem ise Mahalanobis mesafesidir. Mahalanobis mesafesi çok değişkenli verilerde her bir gözlemin merkeze olan uzaklığı kovaryans yapısını dikkate alarak ölçer. Bu mesafe büyük ise aykırı değer kabul edilir.

    Makine Öğrenmesi Tabanlı Yöntemler

    Makine öğrenmesi yöntemleri kullanarak da aykırı değerler tespit edilebilir. Aykırı değer tespit edebilmek için bir çok farklı yöntem vardır.

    Örneğin İzole Orman(Isolation Forest), aykırı değerler veri kümesinden daha kolay ve az ayrım ile izole edilebilir. Rasgele ormanlar(random forest) üzerinde çalışır. Sayısal veriler üzerinde çalışır. Hızlıdır, ve yüksek boyutlarda etkilidir.

    Bir diğer yöntem ise Tek-Sınıf SVM(One-Class SVM)’dir, veri uzayında tüm regular gözlemleri kapsayan bir sınır belirlenir. Sınır dışında kalan her gözlem aykırıdır. Bu yöntemin teorik temeli güçlüdür fakat büyük veri setlerinde yavaş olabilir. Sayısal veriler üzerinde çalışır.

    Bir diğeri ise DBSCAN(Density-Based mostly Spatial Clustering of Purposes with Noise) yöntemidir. Yeterli yoğunluktaki veri noktaları kümelenir. Yoğunluk dışında kalan noktalar aykırı değer olarak kabul edilir.

    Son yöntem ise Autoencoder’dır. Autoencoder veriyi sıkıştırıp yeniden üretir. Aykırı değerler yüksek yeniden yapılandırma hatası verir çünkü mannequin onları öğrenemez. Karmaşık ilişkileri öğrenebilir fakat büyük verilerde daha verimli çalışır.

    Yazının bu kısmında aykırı değerler ile başa çıkma yöntemlerinden bahsedeceğim. Aykırı değerler ile başa çıkarken amacımız aykırı değerlerin etkisini tamamı ile kaldırmak veya mümkün olduğunca azaltmaktır. Burada tüm yöntemleri anlatmayacağım fakat anlattığım her yöntemin uygulamasının yazının en altında paylaştığım Github Repository linkinde bulabilirsiniz.

    Silme (Elimination)

    İlk akla gelen yöntem aykırı değerin veri setinden çıkarılmasıdır. Aykırı değer veri setinden çıkarıldığında makine öğrenmesi yöntemleri daha iyi sonuçlar verir fakat bu yöntem küçük veri setlerinde örneklem sayısını yüksek oranda azaltacağı için çok fazla kullanılmaz. Büyük bir veri setiniz var ise aykırı değerleri veri setinden silebilirsiniz.

    Dönüştürme (Transformation)

    Bir diğer yöntem veri setinin dönüştürülmesidir. Veri setinin dönüştürülmesi veri setini simetrik hale getireceği için aykırı değerlerin etkisi büyük ölçüde azalır. Dönüşümlere örnekleri aşağıda listeledim:

    • Log Dönüşümü: Logaritmik dönüşüm, büyük değerleri sıkıştırarak veri dağılımını simetrik hale getirir. Özellikle sağa çarpık (right-skewed) veriler için kullanılır. Sıfırdan büyük pozitif sayılar üzerinde uygulanabilir.
    • Karekök Dönüşümü: Karekök dönüşümü, pozitif değerleri yumuşatarak uç değerlerin etkisini azaltır. Verinin varyansını azaltmak ve daha regular dağılıma yaklaştırmak için kullanılır. Negatif veya sıfır değerlerde uygulanamaz.
    • Field-Cox Dönüşümü: Field-Cox dönüşümü, farklı λ (lambda) parametreleri ile log ve karekök dönüşümünün genelleştirilmiş halidir. Amaç veriyi regular dağılıma mümkün olduğunca yaklaştırmaktır. Sadece pozitif değerlerde çalışır ve parametre λ optimize edilerek belirlenir.

    Yerine Koyma (Imputation)

    Son yöntem ise yerine koymadır. Bu yöntemde aykırı değerler kayıp verilermiş gibi davranılır ve çeşitli istatistikler ile aykırı değerler doldurularak etkileri azaltılır. Kayıp veri doldurma yöntemlerini anlattığım medium makaleme buradan ulaşabilirsiniz.

    Yazıda bahsettiğim Gihub Repository’sine buradan ulaşabilirsiniz.



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleSuccessful Entrepreneurs Outsource These 5 Tasks — Do You?
    Next Article Perplexity’s new AI features are a game changer. Here’s how to make the most of them
    Team_AIBS News
    • Website

    Related Posts

    Machine Learning

    Why PDF Extraction Still Feels LikeHack

    July 1, 2025
    Machine Learning

    🚗 Predicting Car Purchase Amounts with Neural Networks in Keras (with Code & Dataset) | by Smruti Ranjan Nayak | Jul, 2025

    July 1, 2025
    Machine Learning

    Reinforcement Learning in the Age of Modern AI | by @pramodchandrayan | Jul, 2025

    July 1, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Musk’s X appoints ‘king of virality’ in bid to boost growth

    July 1, 2025

    I Tried Buying a Car Through Amazon: Here Are the Pros, Cons

    December 10, 2024

    Amazon and eBay to pay ‘fair share’ for e-waste recycling

    December 10, 2024

    Artificial Intelligence Concerns & Predictions For 2025

    December 10, 2024

    Barbara Corcoran: Entrepreneurs Must ‘Embrace Change’

    December 10, 2024
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    Most Popular

    Why iPhones Still Aren’t Made in America A Brief Recap of Steve Jobs’ Warning | by Victorhorlly | May, 2025

    May 13, 2025

    8 out of 10 ML interviews Asked This | by Tong Xie | Feb, 2025

    February 20, 2025

    Democrats Fired from F.T.C. Sue President Trump Over Dismissals

    March 27, 2025
    Our Picks

    Musk’s X appoints ‘king of virality’ in bid to boost growth

    July 1, 2025

    Why Entrepreneurs Should Stop Obsessing Over Growth

    July 1, 2025

    Implementing IBCS rules in Power BI

    July 1, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2024 Aibsnews.comAll Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.