Veri Madenciliği Çalışma Alanları, Bilgi Temsili ve Sunum Yapıları

Veri Madenciliği uygulamaları aşağıdaki model ve çalışma alanlarına göre düzenlenebilir.

veri-madenciligi-calisma-alanlari-ornekler

Bir veri madenciliği uygulamasında çalışma alanına göre bilginin temsilinde farklı  yapılar söz konusudur. Bilginin temsilinde tasarım değişkenleri ile kavram, kural veya fonksiyonlardan hangisinin kullanımının anlamlı olduğu işin yapısına uygun olarak belirlenir.

 

veri-madenciligi-calisma-alanlari-bilgi-temsili-sunum-yapilari

Tasarım değişkenlerinin seçimi sırasında her belirlenmiş arama alanının farklı derecede karmaşıklık göstereceğine ve ilgi çekici veri örüntüsünün bulunmasında kullanılan arama algoritmasının da bununla orantılı olarak daha uzun çalışmasının gerektiğine dikkat edilmelidir.

Örneğin, çok sık ve sevilerek kullanılan karar ağaçları, kural kümelerine göre son derece sınırlı özelliklere sahiptir. Bunun sonucunda kural kümeleri ile bulunabilecek veri örüntülerinin, karar ağaçlarıyla bulunamaması mümkündür. Esasında karar ağaçları kural kümelerinin yalnızca sınırlı bir grafik sunumudur. Karar ağaçları ile istekleri tatmin edecek bir veri örüntüsü bulunamaması, böyle bir örüntünün bulunmadığı anlamını taşımayacaktır.

İşletmelerde veri madenciliği projelerinde anlamlı bir analiz için gerekli verinin hiç bulunamadığı veya veri kalitesinin arzu edilenin altında kaldığı sıkça görülmektedir. Genellikle geçmişe ait yeterli verinin bulunmaması, farklı dönemlere ait ilişkilerin analizini engellemektedir. Örnek olarak bir bankanın kampanya yönetimi projesinde, ilgi çekecek müşteri grubunun süzülmesi için yeterli hukuksal verinin bulunmasına karşılık, bu müşterilerin profilinin ortaya çıkartabilecek, kişiye ilişkin ve sosyo demografik veriler gibi yumuşak verilerin çok az olduğu görülmüştür. Bu durum elde edilen sonuçların kalitesini önemli ölçüde etkilemektedir. Bir başka projede ise, bir bir firmanın müşteri segmentasyonu için gerek duyduğu sosyodemografik veriler bir dış hizmet işletmesinden satın alınmış ve müşterilerin adreslerine göre müşteriler sınıflandırılmıştır.

Etkin bir veri analizi için iyi bir veri deposunun orta vadede oluşturulması ihtiyacı giderek anlaşılmaktadır. (örneğin müşteri davranışlarını belgelendirmeye yardımcı olan müşteri kartlarının artan dağıtımı bunun bir göstergesidir.) En iyi veri bankası algoritmaları ve yazılım paketleri bile, eğer başlangıç verileri eksik veya kalitesiz ise faydasız ve değersiz olacaktır.

Başlangıç verileri belirlenmiş, toplanmış ve hazır hale getirilmiş ise, veri grupları ve nitelik (attribute) değerleri daha kompakt bir yapıya dönüştürülmelidir. Birbirini ikame eden niteliklerin elenmesi (örneğin korelasyon analizi ile), sürekli değere sahip niteliklerin kesikli hale getirilmesi (örneğin; gelir niteliğinin gelir grubu içinde ele alınması) ve kavram hiyerarşilerinin kullanımı (örneğin; ikamet yeri, mahalle, şehir, bölge, ülke) bu dönüşümün örnekleridir. Burada ise dönüştürme işlemlerinin sadece veri madenciliği mühendisinin katkısıyla gerçekleştirilmesi mümkün olmayıp uygulamada çalışan kişinin ve kullanıcının iş bilgisine ihtiyaç duyulmaktadır.

 

Kaynak:

Yazar:Richard Lackes

Business Intelligence and Data Mining, Prof. Dr. Haldun Akpınar, Dönence Basın ve Yayın Hizmetleri, İstanbul, 2004