Veri analizinin temel yöntemleri
1. Sorunu netleştirin
Veri analizi için en önemli şey veri analizinin kendisi değil, problemdir.
Yani ne bilmek istiyorsun?
Soru sorma yeteneği, çözme yeteneğinden daha önemlidir.
Bu ifadeye derinden katılıyorum.
Bu ifade özellikle veri analizi söz konusu olduğunda doğrudur.
Farklı insanlar aynı şey hakkında farklı yönlerden ve açılardan farklı sorular soracaktır. Açık, net ve spesifik sorular, veri analizinin kendisini basit ve etkili hale getirecektir.
Birçok veri analizinin zor olmasının büyük bir nedeni, soruların belirsiz ve spesifik olmamasıdır.
2. Sorunu analiz edin
Soruların yanıtları hangi veri boyutlarından geliyor?
Tüm bu veriler için orijinal veriler mevcut mu?
Orijinal verilerin tamamı elde edilebilirse nokta gömme aşamasına geçilebilir.
Bazı veriler için orijinal veri elde edilemiyorsa basit hesaplamalarla sonuçların elde edilip edilemeyeceğine karar verebilirsiniz. Eğer mümkünse veri elde etmek için noktaların gömülmesi aşamasına girebilirsiniz. Basit hesaplamalar sonuç vermiyorsa problemin daha küçük, daha basit problemlere bölünmesi gerekir.
Kısaca problemin analizinde iki önemli nokta var; biri sorunun cevabını o boyutlardaki verilerin belirlemesi, diğeri ise mümkün olduğu kadar orijinal veri elde etmektir.
Mümkün olduğu kadar çok orijinal veri elde etmenin gerekli olmasının nedeni, daha önceki büyük miktarda veri analizi deneyimimde, çok fazla ve çok karmaşık hesaplamalarda, nihai sonucun gerçek durumdan kolayca sapacak olmasıdır, yani, bozulma olasılığı nispeten yüksek olacaktır. Bozulma da nispeten büyük olacaktır.
Elbette bu mutlak değildir. Algoritma yeterince titizse, karmaşık hesaplamalar yoluyla sonuç elde etme yöntemlerini de düşünebilirsiniz.
3. Verileri edinin
1. Gömme noktası
Noktaları gömmek oldukça teknik bir olaydır ve aynı zamanda kolaylıkla kafa karışıklığına yol açabilecek bir şeydir. Gömme noktalarının birleşik bir planlamasına ve yönetimine sahip olmak en iyisidir.
2. Verileri taramak
Daha fazla konuşma.
3. Kullanıcı anketi
Daha fazla konuşma.
4. Veri görselleştirme ve karşılaştırma
Veri analizi sonuçlarının görselleştirilmesi gerekir ancak bu şekilde sorunlar görülebilir ve yanıtlar alınabilir.
Verileri görselleştirirken sıklıkla karşılaştığımız şeylerden biri ne tür bir grafik kullanmamız gerektiğidir.
Bir veri tablosunda çubuk grafik, çizgi grafik ve hatta pasta grafik vb. kullanılabilir. Bu durumda nasıl seçim yapılır?
Karşılaştırıldı.
Grafikleri seçmenin kriteri budur.
Veri görselleştirme öncelikle karşılaştırma amaçlıdır. Yalnızca karşılaştırma yoluyla sorunlar keşfedilebilir ve yanıtlar bulunabilir.
İki tür karşılaştırma vardır. Biri, aynı grafikteki verilerin karşılaştırılması. Örneğin, bir histogramda, belirli bir boyuttaki verinin miktarını/boyutunu net bir şekilde görebilirsiniz.
Diğeri ise birçok şeyi ortaya çıkarabilecek birden fazla grafiğin karşılaştırılması.
Dolayısıyla görselleştirme için hangi grafiğin kullanılacağı, hangi verileri nasıl karşılaştırmak istediğinize bağlıdır.