Close Menu
    Trending
    • Is Your AI Whispering Secrets? How Scientists Are Teaching Chatbots to Forget Dangerous Tricks | by Andreas Maier | Jul, 2025
    • Qantas data breach to impact 6 million airline customers
    • He Went From $471K in Debt to Teaching Others How to Succeed
    • An Introduction to Remote Model Context Protocol Servers
    • Blazing-Fast ML Model Serving with FastAPI + Redis (Boost 10x Speed!) | by Sarayavalasaravikiran | AI Simplified in Plain English | Jul, 2025
    • AI Knowledge Bases vs. Traditional Support: Who Wins in 2025?
    • Why Your Finance Team Needs an AI Strategy, Now
    • How to Access NASA’s Climate Data — And How It’s Powering the Fight Against Climate Change Pt. 1
    AIBS News
    • Home
    • Artificial Intelligence
    • Machine Learning
    • AI Technology
    • Data Science
    • More
      • Technology
      • Business
    AIBS News
    Home»Machine Learning»Makine Öğrenmesi : Veri Ön İşleme | by Yunus Emre Öztürk | Global AI Hub | Apr, 2025
    Machine Learning

    Makine Öğrenmesi : Veri Ön İşleme | by Yunus Emre Öztürk | Global AI Hub | Apr, 2025

    Team_AIBS NewsBy Team_AIBS NewsApril 20, 2025No Comments5 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Global AI Hub

    Merhabalar, Makine Öğrenmesi projelerinde ML modellerini eğitebilmek için ham veriyi uygun bir biçimde hazırlayıp dönüştürmemiz gerekir bu sayede eğitilen mannequin daha yüksek bir performans sağlar ve modelimizin tahmini gerçeğe yakın olabilir. Modelimizin başarısı bu adıma bağlıdır. Veri Önişleme adımları; Veri Keşfi ve Analizi, Eksik Değerleri İşlemek İçin Veri Temizleme, Aykırı Değerleri Kaldırma, Veri Dönüştürme, Özellikleri Ölçekleme, Veri Dengesi Sağlama gibi çeşitli teknikler içerir. Bu teknikler sayesinde verilerin ML algoritmaları için tutarlı ve kullanılabilir biçimde olması sağlanır.

    Bu yazımızda Makine Öğrenmesi için Veri Ön İşleme adımının tekniklerini detaylıca ele alıp örneklerle açıklayacağız.

    Veri Ön İşleme Nedir? :

    Veri Ön İşleme herhangi bir işlem yapılmamış ham veriyi ML algoritmaları için uygun ve anlamlı bir hale getiren bir adımdır. Bu adım içerisinde bazı teknikler bulunur bu teknikleri sırayla uyguladıktan sonra oluşturduğumuz mannequin istenilen başarı düzeyini gösterebilir.

    1. Veri Keşfi ve Analizi :

    Veriyi analiz etmek, temel özelliklerini anlamak, özetlemek ve görselleştirebilmek için Veri Keşfi ve Analizi yöntemini kullanırız. Bu teknik veriyi diğer adımlar için hazırlar, ML modelleri için de önemlidir. Verideki problemi anlayıp tanımladıktan sonra Veri Keşfi ve Analizine başlarız.

    Veri Keşfi ve Analizinin tanımını ve önemini belirttik tam olarak ne işe yaradığını görebilmek için İris verisetini kullanacağız:

    Verisetindeki problemi anlayıp tanımlayabilmemiz için verisetinin ilk 5 satırını inceledik ve check_df fonksiyonuyla bazı bilgilerine eriştik. Daha detaylı incelemek isterseniz Kaggle’da bulunan Keşifçi Veri Analizi örneğini inceleyebilirsiniz.

    2. Eksik Değerleri İşlemek İçin Veri Temizleme :

    Eksik değerler genelde verilerde NA şeklinde karşımıza çıkan gerçek veri kümelerinde çalışırken karşılaşılan yaygın sorunlardan biridir. ML modellerini olumsuz etkileyebilir ve yanıltabilir bundan dolayı eksik değerler ile başa çıkmamız gerekir. Eksik değerler sayısal ise ortalama, medyan ve mod ataması gibi teknikler kullanılabilir, kategorik özellikler için ise kategoriye atama yapılabilir.

    Eksik değerler analiz edilirken mannequin üzerindeki etkisi belirlenip her sütundaki eksik değerlerin yüzdesi ve genel veri kümesine etkileri göz önünde bulundurulur. Bu aşamadan sonra eksik değerlerin yüzdesi düşükse ve veri için kritik değilse pandas’taki dropna() gibi yöntemlerle kaldırılabilir.

    3. Aykırı Değerleri Kaldırma :

    Aykırı değerler veri kümesinin geri kalanından önemli ölçüde farklı olan veri noktalarıdır. Bu değerler kaldırılmazsa veriyi ve eğitilen modeli etkiler etkilenen mannequin beklenenden farklı sonuçlar verebilir.

    Aykırı değerler kaldırılmadan önce verisetinin anlaşılması gerekebilir örneğin ev fiyatları veri kümesine sahip olduğumuzu düşünelim ortalamadan yüksek olan ev fiyatları burdaki aykırı değerlerdir ama önemli sayıda ki evler bu fiyatlardaysa ev fiyatlarında bir artış olabilir. Bundan dolayı verisetini anlayabilmek, veriseti hakkında bilgili olmak da beklenir.

    Aykırı değerler tespit edilirken görselleştirme de önemlidir boxplot, scatterplot ve histogram grafikleri kullanılarak bu değerler tespit edilir. Aykırı değerler grafikler ile tespit edildikten sonra iki yöntem ile kaldırılabilir bunlardan biri Z-skor diğeri ise Interquartile Vary (IQR) yani çeyreklik aralığıdır. Z-skor kullanılırken verisetinin veya incelenen değerin regular bir dağılımda olması önemlidir.

    4. Veri Dönüştürme :

    ML modellerinin verisetinde bulunan değerleri daha iyi anlayabilmesi ve beklenilen sonuçlar çıkarabilmesi için Veri Dönüştürme işlemleri yapılır. Bu aşamada doğrusal olmayan ilişkiler doğrusal hale getirilebilir, farklı ölçeklerdeki özellikler benzer ölçeklere getirilebilir, kategorik veriler sayısal formata dönüştürülebilir, çarpık dağılımlar normalleştirilebilir ve gürültülü veriler düzeltilebilir bu sayede mannequin her bir değere eşit seviyede yaklaşıp tahminini üretir.

    5. Özellikleri Ölçekleme :

    Makine öğrenmesi algoritmaları verideki değişkenlerin birbirinden çok farklı ölçeklerde olmasından olumsuz etkilenebilir. Özellikle mesafeye dayalı algoritmalar (Ok-NN, Ok-Means) veya gradyan inişi (Gradient Descent) kullanan algoritmalarda, büyük ölçekli değişkenler modelin eğilimini bozabilir. Bu yüzden değişkenlerin aynı ölçek düzeyine getirilmesi yani özellik ölçekleme (characteristic scaling) işlemi uygulanmalıdır.

    En yaygın iki ölçekleme yöntemi şunlardır:

    • Min-Max Normalizasyonu: Veriyi 0 ile 1 arasında bir aralığa çeker. Özellikle dağılımın bilindiği ve sabit olduğu durumlarda uygundur.
    • Standartlaştırma (Z-score standardization): Veriyi ortalaması 0, standart sapması 1 olacak şekilde dönüştürür. Regular dağılım varsayımı olan algoritmalar için uygundur.

    Hangi yöntemin kullanılacağı, veri setinin yapısına ve kullanılacak modele bağlıdır. Örneğin, karar ağaçları gibi algoritmalar ölçeklemeden etkilenmezken, lojistik regresyon, destek vektör makineleri (SVM) gibi modeller için ölçekleme oldukça önemlidir.

    6. Veri Dengesi Sağlama :

    Gerçek dünya verilerinde sınıflar arasında dengesizlik olabilir. Örneğin dolandırıcılık tespiti gibi bir problemde “dolandırıcılık” sınıfı çok az sayıda gözlem içerirken, “regular” sınıf çok fazladır. Bu tür durumlarda mannequin büyük sınıfa daha fazla önem verebilir ve küçük sınıfı görmezden gelebilir. Bu da dengesiz sınıf sorunu (class imbalance) olarak bilinir.

    Bu sorunu çözmek için birkaç yöntem kullanılabilir:

    Oversampling (Aşırı örnekleme): Azınlık sınıfındaki örnek sayısı artırılır. En popüler yöntemlerden biri SMOTE (Artificial Minority Over-sampling Method)’dur. Bu teknik, mevcut azınlık örneklerinden sentetik veri üretir.

    Undersampling (Eksik örnekleme): Çoğunluk sınıfındaki örnekler azaltılır. Veri kaybı yaşanabileceği için dikkatli kullanılmalıdır.

    Sınıf ağırlıklarını ayarlama: Modelin eğitiminde azınlık sınıfına daha fazla ağırlık verilebilir. Scikit-learn gibi kütüphanelerde class_weight parametresi ile bu ayar yapılabilir.

    Veri dengesi sağlandığında mannequin her sınıfa eşit duyarlılıkla yaklaşır ve gerçek performansı daha doğru bir şekilde ortaya çıkar.

    Makine öğrenmesi modellerinin başarısı, sadece iyi bir algoritma seçmekle değil, verinin ne kadar iyi işlendiğiyle de yakından ilgilidir. Veri ön işleme, bu sürecin en temel ve kritik adımlarından biridir. Veri keşfiyle başlayıp eksik ve aykırı değerlerin temizlenmesi, dönüştürülmesi, ölçeklenmesi ve dengelenmesi gibi işlemler sayesinde veriyi mannequin için en anlamlı hale getiririz.

    Veri Ön İşleme ile ilgili daha detaylı incelemelerde bulunmak isterseniz Kaggle da oluşturduğum Analysis and Lightgbm Model ve Mental Health & Technology Usage Analysis projelerinden yararlanabilirsiniz.



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous Article3 Game-Changing Business Insights from My 25-Year Journey
    Next Article AI in Cryptocurrency Trading: Boon or Bane?
    Team_AIBS News
    • Website

    Related Posts

    Machine Learning

    Is Your AI Whispering Secrets? How Scientists Are Teaching Chatbots to Forget Dangerous Tricks | by Andreas Maier | Jul, 2025

    July 2, 2025
    Machine Learning

    Blazing-Fast ML Model Serving with FastAPI + Redis (Boost 10x Speed!) | by Sarayavalasaravikiran | AI Simplified in Plain English | Jul, 2025

    July 2, 2025
    Machine Learning

    From Training to Drift Monitoring: End-to-End Fraud Detection in Python | by Aakash Chavan Ravindranath, Ph.D | Jul, 2025

    July 1, 2025
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    Is Your AI Whispering Secrets? How Scientists Are Teaching Chatbots to Forget Dangerous Tricks | by Andreas Maier | Jul, 2025

    July 2, 2025

    I Tried Buying a Car Through Amazon: Here Are the Pros, Cons

    December 10, 2024

    Amazon and eBay to pay ‘fair share’ for e-waste recycling

    December 10, 2024

    Artificial Intelligence Concerns & Predictions For 2025

    December 10, 2024

    Barbara Corcoran: Entrepreneurs Must ‘Embrace Change’

    December 10, 2024
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    Most Popular

    Small Language Models (SLMs): A Practical Guide to Architecture and Deployment | by Iflal Ismalebbe | May, 2025

    May 28, 2025

    At Crypto Summit, Trump Says U.S. Will Be ‘the Bitcoin Superpower’

    March 8, 2025

    3 Books That Made Me 6 Figures — Part 2

    March 14, 2025
    Our Picks

    Is Your AI Whispering Secrets? How Scientists Are Teaching Chatbots to Forget Dangerous Tricks | by Andreas Maier | Jul, 2025

    July 2, 2025

    Qantas data breach to impact 6 million airline customers

    July 2, 2025

    He Went From $471K in Debt to Teaching Others How to Succeed

    July 2, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Business
    • Data Science
    • Machine Learning
    • Technology
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2024 Aibsnews.comAll Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.