Yöneticilerin Büyük Veri Analizinde Yaptıkları Yanlışlar

big data mistakes
47

Veriler sonuçta insani bir icattır. İnsanlar, veri toplamak için ölçmek istedikleri olguyu tanımlar; sistemleri analizden önce yapılandırır ve ön işleme koyar; nihayetinde sonuçların nasıl yorumlanacağını seçerler.

Aynı veri kümesiyle bile, iki kişi çok farklı sonuçlar çıkarabilir. Bunun nedeni, verinin tek başına “gerçekliği” yansıtan gözlemlenebilir, ispatlanabilir olmaması. Diğer bir deyişle veri tek başına ‘gerçek’ değil.

Araştırmacılar, diğer bilgilerden veri çıkarırsa, nesnel yargıya dayanarak titiz ve dikkatli bir şekilde veri toplamaz ya da şüpheli kaynakları kullanırlarsa, üretilen veriler gerçek olmaz.

Bir olguyu nasıl kavramsal hale getireceğinizi, neleri ölçeceğinizi, ölçümlere nasıl karar vereceğinizi, topladığınız verileri nasıl etkileyeceğini nasıl seçersiniz? Yapay zeka ile ilgili bir sorunu çözme yeteneğiniz, probleminizi nasıl çerçevelediğinize ve belirsizlik olmadan gerçeklik kuracağınıza bağlıdır. Biz algoritmaların performansını değerlendirmek için bir kriter olarak temel gerçeği kullanıyoruz. Mesela altın fiyatlarında standartınız yanlışsa, sonuçlarınız sadece yanlış değil, aynı zamanda işletmeniz için de zararlıdır.

Özgün veri toplama hedeflerinizi, araçları ve stratejinizi tanımlama ve izleme ile doğrudan ilişkili olmadığınız sürece, bu verilerin yanlış işlenmesine, yorumlanmasına ve kullanımına neden olabilecek kritik bilgileri kaybedersiniz.

İnsanlar “veri” olarak adlandırdıkları şey aslında yalnızca bir gündemi desteklemek üzere seçilen dikkatle seçilmiş ölçümler olabilir; rastgele bilgilerin gelişigüzel koleksiyonlarını gerçekle hiçbir şekilde ilişkilendirmemek; veya mantıklı görünen, ancak önyargılı toplama çabalarından kaynaklanan bilgiler veri ölçümünde temel hatalardır.

 

İşte her yöneticinin aşina olması gereken dokuz yaygın istatistiksel hatayla ilgili mini bilgiler:

  1. Tanımsız hedefler

Verilerin toplanmasının sebebini net olarak belirleyememek, başarısız varsayımları ifade etmek ne toplayacağını belirleme fırsatı kaçıracağınız anlamına gelir. Sonuç büyük olasılıkla yanlış veri veya eksik veri toplamak olacaktır. Büyük veri analizlerinin ortak bir eğilimi, işletmelerin neden ihtiyaç duyduklarını ve ne şekilde kullanmak istediklerini anlamayan yığınlar halinde bilgi toplamaktır. Büyük ama dağınık veri hacimleri toplamak, gelecekteki analizlerinizi engelleyebilir, çünkü gerçekte ne istediğinizi bulmak için çok daha fazla çöple uğraşmak zorunda kalırsınız.

  1. Tanım hatası

Diyelim ki müşterilerinizin geçen çeyrekte ne kadar harcadığını bilmek istiyorsunuz. Kolay bir iş gibi görünüyor, değil mi? Ne yazık ki, bu gibi basit bir hedef bile istediğiniz bilgileri elde etmeden önce bir dizi tanımlama gerektiriyor.

İlk olarak, “müşteri” nizi nasıl tanımlıyorsunuz? Hedeflerinize bağlı olarak, herkesi tek bir bölmeye koymak istemeyebilirsiniz. Pazarlama çabalarınızı veya ürün özelliklerini buna göre ayarlamak için müşterileri satın alma davranışlarına göre bölümlere ayırmak isteyebilirsiniz. Böyle bir durumda, demografik bilgiler veya harcama geçmişi gibi müşteri hakkında yararlı bilgiler bulunduğundan emin olmanız gerekir.

Çeyrekleri nasıl tanımladığınız gibi taktiksel dezavantajlar da vardır. Mali çeyrekleri veya takvim çeyreklerini kullanır mısınız? Birçok organizasyonun mali yılı takvim yılıyla uyuşmamaktadır. Ayrıca, getirilerin veya borsaların açıklanması için bir strateji geliştirmeniz gerekecek. Bir müşteri ürünü bir çeyrekte satın alıp başka bir zamanda geri gönderirse ne olur? Size karşı kaliteli bir şikayet edip geri ödeme aldıysa ne olur?

Gördüğünüz gibi, tanımlar o kadar basit değil. Gerçekten istediğiniz bilgileri toplamak için beklentilerinizi tartışmanız ve uygun parametreleri ayarlamanız gerekecektir.

  1. Yakalama hatası

Biriktirmek istediğiniz veri türünü belirledikten sonra, onu yakalamak için bir mekanizma tasarlamanız gerekir. Buradaki hatalar, yanlış veya yanlışlıkla önyargılı verilerin alınmasına neden olabilir. Örneğin, A ürününün B ürününe kıyasla daha çekici olup olmadığını test etmek istiyorsanız her zaman web sitenizde bir ürünü ilk görüntülediğinizde, kullanıcılar ürün B’yi sık sık göremeyebilir veya satın almayabilir, bu da yanlış sonuca ulaşmanıza yol açabilir.

  1. Ölçüm hatası

Ölçüm hataları, verileri yakalamak için kullandığınız yazılım veya donanım yanlış seçildiğinde, kullanışlı verileri yakalamada başarısız olduğunda oluşur. Örneğin, kullanıcı bağlantı sorunları yaşarsa ve kullanım günlükleri sunucularınızla senkronize edilmezse, mobil uygulamanızda kullanıcı davranışı hakkındaki bilgileri kaybedebilirsiniz. Benzer şekilde, bir mikrofon gibi donanım sensörleri kullanıyorsanız, ses kayıtlarınız arka plandaki parazitleri veya diğer sinyallerinden gelen parazitleri yakalayabilir.

  1. İşleme hatası

Daha önce müşteri satışlarını hesaplamak için yaptığımız basit girişimden görebileceğiniz gibi, verilerinize bakmadan önce bile birçok hata meydana gelebilir. Birçok işletme on yıllardır kendi verilerinin, nerede veri kararlarını açıklayan yeteneğine sahip olmasına rağmen değerlendiremedi. Onların varsayımları ve sorunlarının çoğu büyük olasılıkla belgelenmemiştir.

Veri toplama sırasında yapılan orijinallerden farklı varsayımlarda bulunabilir ve farklı sonuçlar elde edebilirsiniz. Ortak hatalar arasında, araştırmacıların verileri kullandıkları, farklı standartlar kullandıkları ve metodolojik hatalar sayılabilir.

  1. Kapsama hatası

Kapsama hatası, hedeflenen tüm katılımcıların katılmaları için yeterli fırsat olmadığında anket verileriyle neler olduğunu açıklar. Örneğin, yaşlılarla ilgili veri topluyorsanız, ancak bir web sitesi anketi sunuyorsanız muhtemelen birçok katılımcıyı kaçıracağınız anlamına gelir.

Dijital ürünler söz konusu olduğunda, pazarlama ekipleri tüm mobil akıllı telefon kullanıcılarının potansiyel bir ürünle nasıl davranılacağını projelendirmekle ilgilenebilir. Bununla birlikte, yalnızca bir iOS uygulaması sunuyorsanız ancak bir Android uygulaması sunmuyorsanız, iOS kullanıcı verisi, Android kullanıcılarının nasıl davranabileceği konusunda size sınırlı bilgi sağlayacaktır.

  1. Örnekleme hatası

Örnekleme hataları, hedef popülasyonunuzu temsil etmeyen daha küçük bir örnek verileri analiz ettiğinizde oluşur. Bu, yalnızca bir nüfus içindeki bazı gruplar için veri bulunduğunda kaçınılmazdır. Temsili olmayan örnekten çektiğiniz sonuçlar büyük olasılıkla bütün için geçerli olmayacaktır.

Örneklemenin klasik bir örneği sadece arkadaşlarınıza veya meslektaşlarınıza şirketinizin ürünleri hakkında fikir sormak, sonra da kullanıcı kitlesinin benzer şekilde ne hissedeceğini varsaymak olacaktır.

  1. Çıkarsama hatası

İstatiksel veya makine öğrenme modelleri, mevcut zemin gerçeğinden yanlış tahminlerde bulunmaları durumunda çıkarım hatalarını yapar. Olası olumsuzluklar ve yanlış pozitiflikler, oluşabilecek çıkarım hatalarının iki türüdür. Yanıltıcı pozitiflikler, bir öğenin bir kategoriye ait olduğunu yanlış tahmin ettiğinizde ortaya çıkar. Bir öğe bir kategorideyken yanlış negatifler oluşur, ancak bir öğe bir kategoride değilse de bunun olmadığını öngörürsünüz.

Temel gerçeğe temiz bir şekilde sahip olduğunuzu varsayarak; çıkarım hatalarını hesaplamak, makine öğrenme modellerinin performansını değerlendirmenize yardımcı olacaktır. Ancak gerçek şu ki, gerçek veri kümelerinin çoğunun karmaşık olması ve yanlış etiketlenebilmesi, yani yapay zeka sisteminiz tarafından yapılan kesin çıkarım hataları hakkında netliğinizin olmayabileceği anlamına geliyor.

  1. Bilinmeyen hata

Gerçeklik zor olabilir ve her zaman kolaylıkla gerçekliği kuramazsınız. Birçok durumda, dijital ürünler gibi, kullanıcının platformunuzda yaptıklarına ilişkin tonlarca veri toplayabilir, ancak bu eylemler hakkında bilgi toplayabilirsiniz. Bir kullanıcının bir reklamı tıkladığını biliyor olabilirsiniz, ancak onunla ne kadar rahatsız olduğunu bilmiyorsunuzdur.

 

Bilinen bir çok hataya ek olarak, gerçeklik ve veri biçimi ile gerçeklik arasındaki boşluk bırakan evren hakkında bilinmeyen şeyler var.

Veri bilimi veya makine öğrenimi geçmişine sahip olmayan yöneticiler sıklıkla bu dokuz önemli hatayı yapar, ancak çok daha ince konular da verilerden tahminler üreten yapay zeka teknolojilerinin performansını engelleyebilir.

 

Kaynak: Mariya Yao, Applied Artificial Intelligence adlı yazar ve kitabından Türkçeleştirme yapılmıştır.

Yeni yazılardan ve güncellemelerden hemen haberdar olmak için bildirimlere abone olun

Cevap bırakın

E-posta hesabınız yayımlanmayacak.