Keşifsel veri analizi özelliklerini ve modellerini anlamak için bir veri kümesini analiz etme ve özetleme sürecidir. Verilerdeki eğilimleri, anormallikleri tanımlamaya yardımcı olduğundan ve daha fazla analiz ve modellemeye rehberlik edebilecek içgörüler sağlar. Bu yüzden veri analizi sürecinde önemli bir adımdır. Keşifsel veri analizine açınsayıcı veri çözümlemesi (exploratory data analysis) ismi de verilmektedir.

Keşifsel Veri Analizi Nedir?

Keşifsel veri analizi verinin özelliklerini anlamak için bir kullanılan özetleme süreci olarak düşünülebilir. Verilerdeki eğilimleri, desenleri ve anormallikleri tanımlamaya yardımcı olur. Sonraki analiz ve modelleme yöntemlerinin seçimlerinde önemlidir. Veriye dair içgörüler sağlar. Temel olarak verilerin görselleştirilmesi, istatistiksel ölçümler kullanılarak verilerin özetlenmesi ve verilerdeki ilişkilerin ve desenlerin tanımlanması gibi bir dizi farklı teknik içerir. Bu yinelemeli bir süreçtir ve veriler keşfedilip analiz edilirken genellikle çok sayıda analiz ve görselleştirme aşaması içerir.Keşifsel veri analizi genelde veri temizleme ve hazırlama sürecinde ve sonrasında yapılır. Veri kümesinin yapısını anlamak ve içindeki desenleri ortaya çıkarmak için kullanılan bir dizi yöntemi içerir. İlk adım veri görselleştirmektir. Veriyi grafikler, histogramlar veya dağılım gösterimleri gibi görsel araçlarla inceleyerek anlamaya çalışır. Ayrıca istatistiksel özetlemeler yaparak merkezi eğilim, dağılım ve olası aykırı değerleri anlamaya çalışır. Korelasyon analizi, değişkenler arasındaki ilişkileri ortaya çıkarabilir. Kümeleme analizi, benzer özelliklere sahip veri noktalarını gruplandırarak veri setindeki yapıları belirlemeye yardımcı olabilir. Temel bileşen analizi (PCA) gibi boyut azaltma yöntemleri, veriyi daha az boyutta temsil ederek önemli özellikleri vurgular.Korelasyon analizi, iki değişken arasındaki ilişkiyi ölçen istatistiksel bir yöntemdir. Verilerdeki kalıpları ve eğilimleri belirlemeye ve değişkenler arasındaki ilişkileri belirlemeye yardımcı olabilir.Kümeleme, veri noktalarının benzerliklerine göre kümeler halinde gruplandırılmasını içeren bir makine öğrenimi tekniğidir. Verilerdeki kalıpları ve eğilimleri belirlemek ve benzer veri noktalarından oluşan grupları belirlemek için kullanılabilir.Regresyon analizi, değişkenler arasındaki ilişkileri belirlemek için kullanılan istatistiksel bir yöntemdir. Verilerdeki kalıpları ve eğilimleri belirlemek ve bir değişkenin değerini başka bir değişkenin değerine göre tahmin etmek için kullanılabilir.Genel olarak, bu teknikler verilerdeki kalıpları ve eğilimleri belirlemek için yararlı araçlardır ve genellikle verileri anlama ve yorumlamaya yardımcı olmak için Keşifsel veri analizinin bir parçası olarak kullanılırlar.

Keşifsel Veri Analizi İçin İstatistiksel Ölçümler Nelerdir?

Keşfedici veri analizi için kullanılabilecek birçok farklı istatistiksel ölçü vardır ve kullanılan özel ölçüler, analizin ihtiyaçlarına ve hedeflerine bağlıdır. EDA için kullanılan bazı yaygın istatistiksel ölçümler şunları içerir:

  • Ortalama: Ortalama, bir veri kümesinin ortalama değeridir. Veri setindeki tüm değerlerin toplanıp değer sayısına bölünmesiyle hesaplanır.
  • Medyan: Medyan, bir veri kümesindeki ortadaki değerdir. Değerlerin yarısı küçük yarısı büyük olmak üzere verileri ikiye bölen değerdir.
  • Mod: Mod, bir veri kümesinde en sık meydana gelen değerdir. Veri setinde en sık görülen değerdir.
  • Aralık: Aralık, bir veri kümesindeki en yüksek ve en düşük değerler arasındaki farktır. Verilerin dağılımının bir ölçüsüdür.
  • Standart sapma: Standart sapma, verilerin ortalama etrafındaki dağılımının bir ölçüsüdür. Veri setindeki ortalama ile her bir değer arasındaki farkların karelerinin toplamı olan varyansın karekökü alınarak hesaplanır.

Bunlar, kullanılabilecek birçok istatistiksel ölçümden sadece birkaç örnektir. Veri bilimcileri, bir veri kümesinin özelliklerini özetlemek ve anlamak için çeşitli istatistiksel ölçüler kullanır ve kullanılan özel ölçüler, analizin ihtiyaçlarına ve hedeflerine bağlıdır.

Örneklerle Keşifsel Veri Analizi

Şirketin satışları ve veri analizi

Bir şirketin yapay zeka araçlarını kullanarak satışlarını arttırmak istediğini düşünelim. Ancak ilk olarak verilerini anlaması ve tanıması gerekir. Yani öncelikle mevcut verilerini incelemek ve buna göre yol çizilmesi gerekir. Peki keşifsel veri analizi için adın adım ne yapmalı?

  1. Veri Toplama ve Temizleme: Öncelikle, şirketin satış verilerini toplar. Bu verilerde ürünler, satış miktarları, müşteri bilgileri ve tarih gibi bilgiler bulunur. Veri setinde eksik veya yanlış veriler olabileceğinden, bu verileri temizlemek gerekir.
  2. Görselleştirme: Veriyi görselleştirmek için çeşitli grafikler kullanabilirsiniz. Örneğin, aylara göre satışların dağılımını gösteren bir çubuk grafik çizebilirsiniz. Bu grafik, hangi aylarda daha yüksek veya daha düşük satışlar olduğunu anlamanıza yardımcı olabilir.
  3. İstatistiksel Özetlemeler: Veri setindeki merkezi eğilimi (ortalama, medyan), dağılımı (standart sapma, varyans) ve olası aykırı değerleri hesaplayarak veri hakkında genel bir anlayış elde edebilirsiniz. Örneğin, ortalama satış miktarı ve en yüksek satış miktarı gibi istatistikleri hesaplayabilirsiniz.
  4. Korelasyon Analizi: Ürünler arasındaki satış ilişkilerini anlamak için korelasyon analizi yapabilirsiniz. Bu, hangi ürünlerin birlikte daha sık satıldığını veya birbirini nasıl etkilediğini anlamak için önemli olabilir.
  5. Kümeleme Analizi: Müşteri segmentasyonu için kümeleme analizi kullanabilirsiniz. Bu sayede benzer satın alma davranışları sergileyen müşteri gruplarını tanımlayabilirsiniz. Örneğin, belli bir ürün kategorisine ilgi gösteren müşteri gruplarını belirlemek mümkün olabilir.
  6. Boyut Azaltma: Eğer çok sayıda özellik varsa, boyut azaltma yöntemlerini kullanarak veriyi daha anlaşılır hale getirebilirsiniz. Temel Bileşen Analizi (PCA), veriyi daha az boyutta temsil ederek önemli desenleri belirlemenize yardımcı olabilir.

Keşifsel veri analizi, yukarıdaki adımların kombinasyonuyla veri kümesini anlamak ve içindeki değerli bilgileri keşfetmek için kullanılır. Bu örnek, bir şirketin satış verilerini incelemesi için kullanılabilecek genel bir yaklaşımı yansıtmaktadır. Verilerin doğasına göre bu adımları şekillendirmek mümkündür.

Bir hastane veri analiziyle hastalarını nasıl değerlendirir?

Diyelimki bir hastane tüm hastalarının durumunu bir yapay zeka sistemi içinde değerlendirmek istiyor. Tabii ki bu verilerin öncül değerlendirmesi ve keşfedilmesi önem kazanıyor. Bunun için basitçe bu kurum neler yapabilir adım adım örnek:

  1. Veri Toplama ve Temizleme: Sağlık kuruluşu, hastaların tıbbi kayıtlarını içeren verileri toplar. Bu verilerde hastaların yaş, cinsiyet, hastalık tanıları, tıbbi test sonuçları gibi bilgiler yer alır. Veri setindeki eksik veya tutarsız veriler temizlenir.
  2. Görselleştirme: Hastalıkların yaş gruplarına göre dağılımını gösteren pasta grafikleri veya hastaların yaşlarına göre hastalık sıklığını gösteren bir histogram gibi grafikler çizilir. Bu grafikler, hangi yaş gruplarının hangi hastalıklara daha yatkın olduğunu göstermeye yardımcı olabilir.
  3. İstatistiksel Özetlemeler: Veri setindeki hastalık sıklığı, yaş ortalaması, belirli bir hastalığa sahip hastaların sayısı gibi istatistikleri hesaplayarak genel bir görünüm elde edebilirsiniz.
  4. Korelasyon Analizi: Farklı hastalıklar arasındaki ilişkileri anlamak için hastalık tanıları arasındaki korelasyonları analiz edebilirsiniz. Örneğin, belirli bir hastalığa sahip olan kişilerin diğer hangi hastalıklara daha yatkın olduğunu inceleyebilirsiniz.
  5. Kümeleme Analizi: Hastaları benzer özelliklere sahip gruplara ayırmak için kümeleme analizi kullanabilirsiniz. Bu sayede farklı hastalık profillerine sahip hastaların gruplarını belirleyebilirsiniz.
  6. Boyut Azaltma: Tıbbi test sonuçları gibi çok sayıda özellik varsa, boyut azaltma yöntemleriyle önemli bilgileri öne çıkarabilirsiniz. Bu, hastaların tıbbi durumlarını daha iyi anlamak için kullanılabilir.

Bu örnek, sağlık verilerinin keşifsel veri analizi ile incelenmesi için kullanılabilecek adımları yansıtmaktadır. Bu yaklaşım, sağlık kuruluşlarının hastalık yayılımını ve hastaların profilini anlamalarına yardımcı olabilir.KaynakGelman, A. (2004). Exploratory data analysis for complex models. Journal of Computational and Graphical Statistics, 13(4), 755-779. https://www.cs.princeton.edu/courses/archive/fall09/cos597A/papers/Gelman2004.pdf