DOSYA - Veri Ne Verir Ne Vermez?

DOSYA - Veri Ne Verir Ne Vermez?

Büyük veri, veri madenciliği, veri analizi... İçinde bulunduğumuz dönemin en şık, en gösterişli kelimeleri haline geldiler. Aralarında önemli farklar olsa da ortak özellikleri “veriden bilgi üretmek” olan bu kavramlar gerçekten de gördükleri ilgiyi fazlasıyla hakediyorlar. Ancak veri her zaman beklentileri karşılayacak ölçüde konuşur mu? Bazen “ser verip sır vermeyen” veri kümeleri ile karşılaşabilir miyiz? Depolayanından korkması, kalıbından utanması gereken büyük veri kümeleri var mıdır? Yanıtlar sırası ile Hayır-Evet ve Evet.

Büyük Veri Nedir?

Veri analizine veya veri madenciliğine dayalı her proje büyük olasılıkla bir soruya yanıt aramak, bir probleme çözüm bulmak veya bir fırsat yaratmak üzere başlatılır. Bazıları bilimsel merak ürünü olan bu projelerin büyük bölümü de iş zekâsına hizmet etmek üzere planlanmıştır. Bilimin merak ettiği soruların yanıtlarını bulmak, iş dünyasının ihtiyacı olan alışkanlıkları, yönelimleri ortaya çıkarmak üzere çoğu kez ekip ya da ekipler projelerde iş birlikleri içinde çalışırlar.

Bir proje de eğer veri, miktar olarak çok büyük, yapısal olmayan ve zamana bağlı değişen bir yapıdaysa bu proje “büyük veri” projesi adını alır ve bu özelliklerinden dolayı farklı araçlar ve donanımlara ihtiyaç duyar. Yapısal veriyle uğraşıyorsak ve veri tabanlarından bilgi çıkarmaya yönelik bir veri bilimi projesi ise, “veri madenciliği” adını alır. Benzer şekilde yine verinin büyüklüğüne bağlı olarak gelişmiş donanım ihtiyaçları ve yazılım araçları olacaktır. Herhangi bir gizli bilgi peşinde değilsek ve elimizde bulunan veride salt alışkanlıkları, profilleri, eğitimleri görünür kılmaya çalışıyorsak bu kez “veri analizi” projesinde çalışıyoruz diyebiliriz. Adlar değişebilir ancak değişmeyen şey bir “proje konusu” veya “sorusu”, bir “ekip” ve “yazılım-donanım” ikilisinden oluşan araçlara ihtiyaç duyulmasıdır. Masada bu üçlü olmadan projeye başlanmaz, bütün oyuncular masadaki yerini almadan da oyun başlamaz.

Projelerde kullanılan araçlar ve yöntemler başka bir yazının konusu. Bu yazıda “veri”nin bir şey vermesi için gerekti insan gücünü, bazen ekibin bütün çeşitlilik ve yeterliliğine rağmen ağzından laf alınamayan veri kümelerini konuşacağız.

Bir veri madencisi her projesinde farklı alanlardan verilerle çalışabileceği gerçeğini baştan idrak ve kabul etmiş olmalıdır. Buluttaki veya lokaldeki veriler bazen finans sektöründen gelebilir, bazen meteoroloji, bazen perakende mağaza zincirleri bazen de tıpla ilgili veriler olabilir. Veri analizi için gerekti algoritmaları, ön hazırlık, veri ön işleme aşamalarını, verinin dönüştürme ihtiyaç ve yöntemlerini çok iyi bilseniz bile ekibinizde alan uzmanı bir müttefikinizin olması cephenizi müthiş kuvvetlendirecektir. Finans projesinde masada bir finansçı, tıbbi veri ile uğraşırken ortamda bir hekim olması paha biçilmez bir değer, her şeyden önce bir ihtiyaçtır. Her projenizde ister istemez projenin ilgili olduğu alana dair fikir sahibi olsanız bile bu bir sonraki projeyi tek başınıza yürütmenize yeter koşul yaratmaz. Sadece alan uzmanı ile daha rahat iletişim kurmanızı sağlar. Elbette bu aşamada alana dair, özellikle proje konusu ile ilgili birkaç okumanın yaratacağı fayda da tartışılamaz.

Veri Kendinden Bekleneni Bazen Neden Vermez?

Çünkü bazen sorulan soru ile eldeki veri alakasızdır. Örneğin elinizde hatırı saydır bir miktar öğrenciye ait kayıtlar var ve bu kayıtlar öğrencilerin sadece ad, soyad, adres, telefon ve kaçıncı sınıf olduğu bilgilerini içeriyor olsun. Siz de bu dönem sonunda kayıtlarda yer alan öğrencilerin ne kadarının 1.8 GNO’nun altına düşüp başarısız olarak etiketleneceğini tespit etmek ve belki buna göre birtakım önlemler almak istiyorsunuz. E ama verilerin içinde öğrencilerin başarı durumlarıyla ilgili hiçbir şey yok!? Sorduğunuz sorunun yanıtını bu veri seti içinde bulmak imkânsız! Ne yapmak lazım? Muhtemelen bir başka veri tabanında aynı öğrencilerin bu zamana kadarki not ortalamalarım ve başarı durumlarını tutan bir küme vardır; bu kümeye erişim izni çıkartıp, bu izni alabilmek için gerekirse projeye bu erişim izni olan tüzel veya özel kişiyi de katıp iki kümenin kesişim ve fark kümelerinden harekede çalışmaya yön vermek lazım. “Ama bu çok bariz, ortada başarıya dair bir veri yokken nasıl bu soru sorulur ki?” deyip gülmeyin, gerçekten başıma geldi, sorulan soru ile alakasız bir veri seti, karşımda projenin sahibi, “bilgisayarınız yok mu yapın işte!” diyor. Yapamam! Yapmayı çok istiyorum inanın ama bunu yapabilmem demek bildiğiniz hayal gücüme dayalı çıkarımdan sonuca gitmem demek. Şu ana kadarki bilgi ve tecrübelerim bana hayal gücünün çok gerekli bir şey olduğunu, her şeyin hayal etmekle başladığını öğretmiş olmakla beraber henüz hiçbir projemin sonucunu da hayal gücüme dayanarak ilan etmedim!

Çok sevdiğim bir Temel fıkrası vardır. Ormanda kaybolan bir fille ilgili. Nice ajanlar girip ormanda fili arıyor ancak bulamıyorlar, bizim Temel üç gün sonra ormandan yanında bir zürafa olduğu halde çıkageliyor, zürafa karşısında gördüğü yetkililere ağlayarak koşarken “abi yemin ediyorum ben filim, Allah aşkına kurtarın beni bunun elinden” diyor. Sonuç olarak ikna kabiliyeti yüksek bir araştırmacı dahi olsanız bazen veri zürafadan daha inatçı çıkabiliyor!

Ya Sadece On Kişi Varsa?

Bazen de son derece alakalı bir veri kümesi ile kutsanmışsınızdır ancak miktar yetersizdir. Böyle taşıma suyla değirmen döndürmeye çalıştığımız projeler de oldu, ancak sonucun güvenilirliği hepimiz tarafından şüpheyle karşılanırken üst yönetimlerin buna dayanarak aksiyon almasını sağlamak artık bizim değil risk yöneticilerinin sorunu haline geldi.

Bu duruma örnek teşkil edecek bir olayı ise bir Tıp Bilişimi Kongresi’nde yaşadım. O vakitler bir tıbbi veri seti üzerinde ve İstanbul Üniversitesi Cerrahpaşa Tıp Fakültesi hekimleri ile birlikte çalışıyorduk, güzel bir çalışmamız olmuştu, yayınlamaya değer bulduk ve uluslararası bir tıp bilişimi kongresine gönderdik. Sunum günü geldiğinde kendi oturumumuzda başka yayınları da dinliyorken bir sunumda yapılan çalışmada toplam kayıt sayısının 10 olduğunu gördük. Basımda hata yok, doğru okudunuz, toplam 10 hasta üzerinde çalışma yapılmış gerçekten. Elbette salondaki hemen herkesten benzer sesler yükseldi, bu kadar az kayıtla nasıl? Bu olur, şu olur, çalışmaya katılanların yüzde şu kadarı kadın, şu kadarında iyileşme görüldü... Hepi topu tamamı 10 kişi zaten. Nasıl bu kadar kati rakamlar verilebilir? Yanıt şöyle oldu: Çalışmanın konusu meğer çok spesifik bir kanser türü imiş, boğazın burunla birleşen bölümü yani nazofarenks kanseri ile alakalı bir çalışma, bu o kadar ender görülen bir şeymiş ki yıllar içerisinde kendilerine gelen vakalardan biriktirebildikleri sadece toplam 10 kişi olmuş. Yani günün sonunda çalışmanın sahipleri “100 kişi vardı da biz mi sormadık?” diyecek oldular, içimizden geçen, keşke o 10 kişi de olmasaydı, kimse kanser olmasaydı duygusu elbette.. Neticede insan kurtarmak için araştırma yapmak zorundalar, ancak araştırma için de ellerinde yeterince örnek yok. Zor bir problem.

Veriden Bilgiye Giden Yolda Bazı Engeller!

Bir sonraki probleme geçelim. Veri toplama yöntemleri arasında anket, müşteri kayıtları, işlemleri (alış-veriş) ve ölçümler (sensörler, ses kayıtlan, uydu verileri vb.) yer alır. Anket ile veri toplayarak bilgiye ulaşmaya çalışan meslektaşlarının sayısı azımsanamayacak kadar fazla çünkü ne yazık ki ülkemizde halen veri paylaşımı ile ilgili bir politikamız yok, bu konuda atılmış bir adım da yok. “Kişisel Verilerin Korunması Kanunu"na ters düşmeden de pekâlâ anonimleştirme algoritmaları kullanılarak ciddi ve gerçek kayıtlar araştırmacılar ile paylaşılabilir ve bu şekilde her sektörde ilgili veri çalışmaları daha yüksek doğrulukla yapılmaya başlanabilir. O gün gelene kadar anket, yine kurtarıcı veri toplama yöntemlerinden biri olacak gibi görünüyor. Buna karşın insanların yalan söyleme alışkanlık ve yetenekleriyle baş edecek bir algoritmamız var mı? Yok. Herhangi bir istihbarat kurumu da değiliz ki ankete katılan kişiyi çapraz sorguya alalım. Elbette anketlerdeki yanıtların doğruluk ve kendi içerisinde tutarlılığını sağlamak için özel soru hazırlama teknikleri kullanıyoruz ancak insan faktörü her zaman ezici üstünlükle ağırlığını hissettiriyor. Kilosunu ve günlük tükettiği şeker miktarım yanlış rakamlarla bildiren kişilerden yola çıkarak diyabetle ilgili güvenilir bir çalışma yapamazsınız. Sanırım bunun tek çözümü farkındalık yaratmaya yönelik çalışmalar ile kişisel bilgilerinin güvende olacağına ilişkin ikna kabiliyeti ve hassasiyet.

Veri kendisine sorulan sorulara yanıtlarını vermemekte direniyorsa bazen bunun nedeni gerçekten de tekniğin yanlış olmasından kaynaklanabilir. Veriler konuyla son derece alakalıdır, üzerinde çalışmaya elverişli bir veri kümesi elde edilmiştir ve doğru olduğuna da inanç tamdır ancak yine sorunlarımız bitmedi. Verinin ilk hazırlanma aşamalarında gözden kaçan bir detay veya yapılan bir hata, veriden bilgi çıkarımı yolculuğunun ileri aşamalarında da omuzlarda gittikçe ağırlaşan bir yük gibi taşınır. En kötüsü de ya sorunun yanıtına ulaşmanıza engel olur ya da yanlış sonuçlar elde etmenize neden olur, ister acemilik ister ehil olmama isterseniz dikkatsizlik deyin, bir veri madenciliği projesinde sarf edilecek eforun neredeyse %70’ine mal olacak veri hazırlığı (aykırı değer analizi, eksik-kayıp değerler, veri dönüşümü) evresinde şu veya bu nedenle hata yapmak projenin direkt başarısızlık sebebi olabilir. Bu aşamada dikkatli olmayı ve bazen teyit için birden fazla kontrol yapmayı önerebilirim. Proje körlüğü denilen durumdan sakınmak için de bazen ekranınıza ekipten bir başkasının bakmasını rica etmelisiniz. Sizin göremediğinizi o iki dakikada görüp dikkatleri oraya çekebilir.

Veriden bilgi üretmeye giden heyecan verici yolculukta aşılması gereken engellerden sadece birkaç tanesini özetlemeye çalıştım. Engeller bazen gerçekten zorlayıcı olsalar da bilgi keşfinin verdiği heyecan ve haz harcanan bütün eforu katlanılır kılıyor.