Veri Madenciliği
Veri Madenciliği Çalışma Alanları, Bilgi Temsili ve Sunum Yapıları
Veri Madenciliği uygulamaları aşağıdaki model ve çalışma alanlarına göre düzenlenebilir.
Bir veri madenciliği uygulamasında çalışma alanına göre bilginin temsilinde farklı yapılar söz konusudur. Bilginin temsilinde tasarım değişkenleri ile kavram, kural veya fonksiyonlardan hangisinin kullanımının anlamlı olduğu işin yapısına uygun olarak belirlenir.
Tasarım değişkenlerinin seçimi sırasında her belirlenmiş arama alanının farklı derecede karmaşıklık göstereceğine ve ilgi çekici veri örüntüsünün bulunmasında kullanılan arama algoritmasının da bununla orantılı olarak daha uzun çalışmasının gerektiğine dikkat edilmelidir.
Örneğin, çok sık ve sevilerek kullanılan karar ağaçları, kural kümelerine göre son derece sınırlı özelliklere sahiptir. Bunun sonucunda kural kümeleri ile bulunabilecek veri örüntülerinin, karar ağaçlarıyla bulunamaması mümkündür. Esasında karar ağaçları kural kümelerinin yalnızca sınırlı bir grafik sunumudur. Karar ağaçları ile istekleri tatmin edecek bir veri örüntüsü bulunamaması, böyle bir örüntünün bulunmadığı anlamını taşımayacaktır.
İşletmelerde veri madenciliği projelerinde anlamlı bir analiz için gerekli verinin hiç bulunamadığı veya veri kalitesinin arzu edilenin altında kaldığı sıkça görülmektedir. Genellikle geçmişe ait yeterli verinin bulunmaması, farklı dönemlere ait ilişkilerin analizini engellemektedir. Örnek olarak bir bankanın kampanya yönetimi projesinde, ilgi çekecek müşteri grubunun süzülmesi için yeterli hukuksal verinin bulunmasına karşılık, bu müşterilerin profilinin ortaya çıkartabilecek, kişiye ilişkin ve sosyo demografik veriler gibi yumuşak verilerin çok az olduğu görülmüştür. Bu durum elde edilen sonuçların kalitesini önemli ölçüde etkilemektedir. Bir başka projede ise, bir bir firmanın müşteri segmentasyonu için gerek duyduğu sosyodemografik veriler bir dış hizmet işletmesinden satın alınmış ve müşterilerin adreslerine göre müşteriler sınıflandırılmıştır.
Etkin bir veri analizi için iyi bir veri deposunun orta vadede oluşturulması ihtiyacı giderek anlaşılmaktadır. (örneğin müşteri davranışlarını belgelendirmeye yardımcı olan müşteri kartlarının artan dağıtımı bunun bir göstergesidir.) En iyi veri bankası algoritmaları ve yazılım paketleri bile, eğer başlangıç verileri eksik veya kalitesiz ise faydasız ve değersiz olacaktır.
Başlangıç verileri belirlenmiş, toplanmış ve hazır hale getirilmiş ise, veri grupları ve nitelik (attribute) değerleri daha kompakt bir yapıya dönüştürülmelidir. Birbirini ikame eden niteliklerin elenmesi (örneğin korelasyon analizi ile), sürekli değere sahip niteliklerin kesikli hale getirilmesi (örneğin; gelir niteliğinin gelir grubu içinde ele alınması) ve kavram hiyerarşilerinin kullanımı (örneğin; ikamet yeri, mahalle, şehir, bölge, ülke) bu dönüşümün örnekleridir. Burada ise dönüştürme işlemlerinin sadece veri madenciliği mühendisinin katkısıyla gerçekleştirilmesi mümkün olmayıp uygulamada çalışan kişinin ve kullanıcının iş bilgisine ihtiyaç duyulmaktadır.
Kaynak:
Yazar:Richard Lackes
Business Intelligence and Data Mining, Prof. Dr. Haldun Akpınar, Dönence Basın ve Yayın Hizmetleri, İstanbul, 2004
Veri Madenciliği Uygulamalarının Projelendirilmesi ve Gerçekleştirilmesi
Submitted by baris on Per, 06/19/2008 - 20:04Movitivasyon
İşletme enformasyon sistemlerinin kullanımı, işletmelerde operasyonel süreçlerin etkinliğini giderek arttırmaktadır. Bununla birlikte çok yüksek miktarda veri elde edilip kaydedilmesine rağmen, bu verilerin stratejik yönetim kararlarında kullanımı sınırlı kalmaktadır. Verilerin mevcut olmasına veya istenildiğinde elde edilebilmesine rağmen, bur verilerin stratejik kararlarda enformasyon olarak kullanılmaması, operasyonel enformasyon sistemlerinde elde edilen verinin yönetim kararları için beklenen yapıya sahip olmamasından ve yazılım destekli analiz araçlarının eksikliğinden kaynaklanmaktadır.
Bu iki problem için tasarlanan çözüm yaklaşımları,
- Analiz amaçlı veri tabanlarının gerçekleştirilmesine yardımcı olacak veri ambarı (data warehouse) mimarileri,
- İlginç ilişkiler bakımından büyük veri yığınlarının otomatik analizini gerçekleştirecek veri madenciliği algoritmalarıdır.
Karmaşık ve pahalı analiz yazılımları satın alınarak, karara yönelik ilişkilerin veri yığınları arasından problemsiz ve otomatik olarak çekilebileceği yanılsaması, veri madenciliğinde sık sık karşılaşılan bir durumdur.
Bu yanılsama su yüzüne çıktığında veya beklentiler gerçekleşmediğinde ortaya çıkan hayal kırıklığı büyük olmaktadır. Bu nedenle veri madenciliği uygulamalarında istenilen başarıların elde edilebilmesi, baştan üzerinde yoğun olarak düşünülmüş planlama ile mümkündür. Özellikle uygulama alanı hakkındaki işletme Know-How'ı ve tecrübelerin kullanım olanağı başarının önemli yapı taşlarıdır.
Veri Madenciliği Problemleri
Veri madenciliği uygulamalarının pratikte gerçekleştirilmesinde hangi noktalarda önemli zorluklar ortaya çıkmaktadır? Aşağıda bazıları daha sonra ayrıntılı olarak ele alınacak on iki tipik veri madenciliği problemine yer verilmiştir.
1. Hedefin yetersiz belirlenmesi: Veri yığınları arasında amaçsız ve ayrıntıları belirlenmemiş bir şekilde dolaşmak başarı sağlamayacaktır. Çare: Hedef ayrıntılarının belirlenmesi.
2. İşin belirsiz ve aşırı heterojen yapısı: Her şeyi kapsamaya çalışan geniş veri yağınları ve büyük boyutlu analiz tabloları, analiz süreçlerin zorlaştırmakta ve sonuçları sulandırmaktadır. Çare: Verilerin daha iyi belirlenmesi için iş spesifikasyonlarının eksiksiz tanımlanması.
3. Sonuçların kullanımı göz önüne alınmadan model seçimi: Kullanım şekli ve model örtüşmelidir. Genellikle model seçimi işin yapısı göz önünde bulundurulmadan, veri madenciliği mühendisinin bilgi düzeyine veya modelin kullanılan yazılımda mevcut olup olmamasına göre yapılmaktadır.
4. Veri toplama sorunları: Gerekli verilerin belirlenmesi sona erdiğinde ( ve buna göre hangi verilere ihtiyaç duyulacağının bilinmesi), bu verilerin mevcudiyeti problemi ortaya çıkmaktadır. Genellikle analiz amaçları için arzu edilen veriler ya hiç bulunamamakta ya da uygun kaliteye sahip olmamaktadır (eksik değerler, yetersiz güncelleme). Sonuç: Hazırlık ve sonraki aşamalarda elle yapılan işlemler nedeni ile yüksek maliyet.
5. Veri kaynaklarının heterojenliği: Verilerin belirlenmesinden sonra, bu veriler kaynak enformasyon sistemlerinden seçilip çekilerek ayrı bir veri yönetimi altında toplanmalıdır. Genellikle işletmenin yapısal özelliklerinden dolayı ortaya çıkan aşırı heterojen enformasyon sistemlerinin uyumlaştırılması ve birleştirilmesi gerekmektedir. Sonuç: Verilerin seçimi ve çevriminde elle yapılan işlemler nedeni ile yüksek maliyet.
6. Verilerin yetersiz yapılandırılması ve veri tablosunun kötü oluşturulması: veriler birleştirilirken niteliklerin (attributes) uygun ayrıntı düzeyinin ne olacağı, kavram (concept) hiyerarşilerinin nasıl kullanılması gerektiği, kesin sınırlamaların anlamlı olup olmadığı ve uygun bir veri indirgemesinin nasıl gerçekleştirileceği sorularının üzerinde çok iyi düşünülmesi gerekmektedir. Sonuç: Düşünülenden daha fazla entelektüel katkı.
7. İlgi çekiciliğinin ölçümündeki problemler: Veri örüntülerinde (pattern) ilgi çekiciliğin nasıl ölçülebileceği formal olarak belirlenmelidir. Örüntülerdeki ilgi çekicilik büyük ölçüde çözüm sürecini ve sonucun kalitesini etkilemektedir.
8. Yöntem seçimi: Ayrıntıları belirlenmemiş veri madenciliği sistematik istatistiğin yerini alamaz. İstatistik yöntemler göz ardı edilmeyip, anlamlı bir şekilde kullanılmalıdır. Planlama desteği için işletme açısından daha iyi olan yöntemin seçilmesi gerekmektedir ( daha az maliyetli, daha hızlı, ve daha iyi sonuçlar sağlayan).
9. Standart yazılım kullanılması veya parametre ayarları problemi: Uygun standart yazılımın seçiminin yanı sıra, program paketlerinin doğru kullanımı ve önemli parametrelere dikkat edilmesi gerekmektedir. Parametrelerin sonuç üzerindeki etkisi çok iyi bilinmelidir. ( Örneğin Kohonen ağının boyutunun veya öğrenme oranının seçimi) Maliyet nedenlerinden dolayı özel program yazılması genellikle söz konusu değildir.
10. Bir kerelik durum analizi yerine düzenli analizlerin planlanması: Bu gereksinim öncelikle pazarların ve davranışların dinamik yapısının bir sonucudur. İşletme ile ilgili fenomenler arasındaki ilişkiler zamanla değişmekte ve bilgi eskimektedir. Diğer taraftan analiz sonuçlarına göre verilen kararlar ve uygulamalar temel verilerin yapısında değişime neden olabilmektedir. ( Örneğin, bir sigorta için, müşteri gruplarının sözleşmeyi niçin sona erdirdiğine dair yapılan analiz sonuçlarına göre hareket edip, geliştirilen danışmanlık programları ile, sözleşme fesih oranlarının azaltılması.) Daha önce yapılan analizlerden elde edilen sonuçların bir araya getirilmesi ve bunlardan elde edilen daha iyi enformasyon seviyesi ile daha iyi analizler gerçekleştirilebilmektedir. Sonuç: Analiz kural çemberinin yerleştirilmesi ve örgüt yapısına entegrasyonu.
11. Verimliliğin hedeflenemesi: Diğer yatırım faaliyetlerinde olduğu gibi veri madenciliğ projelerinde de kesinlikle ekonomiklik kriterinin göz önünde bulundurulması gerekmektedir. Bu noktada veri madenciliği uygulaması için ROI (Return on Investment) gibi bir değerin belirlenmesi, karar verilebilmesi için zor da olsa, katlanılacak maliyetlerin bir şekilde edilebilecek faydalarla karşılaştırılmasını sağlayacak bir yapının hazırlanması gerektiği vurgulanmalıdır. Teknik oyunlar ve teorik ayrıntılardan mümkün olduğunca uzak durulmalıdır.
12. Veri madenciliği sonuçlarının uygulanması kararı belirleyen başarı faktörüdür. Analiz yöntemleri sonucunda elde edilen bilgi kullanılabilir olmalıdır, yani işletmedeki karar vericiler bu sonuçları anlamalı ve kabul edebilmelidir. Sonuç: Veri madenciliğinden elde edilen deneyimler anlaşılır biçimde iletilmelidir (paketlenmelidir).
Yukarıda ifade edilen on iki problemi ve sonuç, çareleri aşağıdaki tabloda özetleyebiliriz.
|
Veri Madenciliği Problemi |
Sonuç/Çare |
|
1. Hedefin yetersiz belirlenmesi |
Çare: Hedef ayrıntılarının belirlenmesi |
|
2. İşin belirsiz ve aşırı heterojen yapısı |
Çare: Verilerin daha iyi belirlenmesi için iş spesifikasyonlarının eksiksiz tanımlanması |
|
3. Sonuçların kullanımı göz önüne alınmadan model seçimi |
|
|
4. Veri toplama sorunları |
Sonuç: Hazırlık ve sonraki aşamalarda elle yapılan işlemler nedeni ile yüksek maliyet. |
|
5. Veri kaynaklarının heterojenliği |
Sonuç: Verilerin seçimi ve çevriminde elle yapılan işlemler nedeni ile yüksek maliyet. |
|
6. Verilerin yetersiz yapılandırılması ve veri tablosunun kötü oluşturulması |
Sonuç: Düşünülenden daha fazla entelektüel katkı. |
|
7. İlgi çekiciliğinin ölçümündeki problemler |
|
|
8. Yöntem seçimi |
|
|
9. Standart yazılım kullanılması veya parametre ayarları problemi |
|
|
10. Bir kerelik durum analizi yerine düzenli analizlerin planlanması |
Sonuç: Analiz kural çemberinin yerleştirilmesi ve örgüt yapısına entegrasyonu. |
|
11. Verimliliğin hedeflenmesi |
Çare: Teknik oyunlar ve teorik ayrıntılardan mümkün olduğunca uzak durulmalıdır. |
|
12. Veri madenciliği sonuçlarının uygulanması kararı belirleyen başarı faktörüdür |
Çare: Veri madenciliğinden elde edilen deneyimler anlaşılır biçimde iletilmelidir (paketlenmelidir). |
Amaç ve iş spesifikasyonları, verinin hazırlanması ve model seçimi
"Application of algorithms for extracting patterns from data" (verilerden örüntülerin çıkartılması için algoritmaların uygulanması) şeklindeki veri madenciliği tanımı, veri madenciliği algoritmalarının herhangi bir veri yığınında ilginç bağlantıları araştırmasını çağrıştırmaktadır. Bununla birlikte pratik uygulamalarda başarı için, somut işletme hedef ve iş yapıları göz önünde bulundurularak, analiz için gerekli potansiye önemdeki başlangıç verilerinin entelektüel katkı ile bir araya getirilmesi gerekmektedir. Bu nedenle işletme içindeki yapılar hakkında etkin bir kavrama yeteneğine gerek duyulmaktadır. Eğer başlangıç verileri işletmenin veri bankasındaki veri şemalarından entelektüel katkı olmaksızın (entelektüel katkı ile doğal olarak keşfedilen ilişkiler hakkında bir nevi "sansür" gerçekleştirilecektir.) otomatik olarak çekilirse, üstel olarak büyüyen dev veri tabloları ortaya çıkacaktır. Bu seyir, nitelik (attribute) değerlerinin kombinatorik bağlantıların bir sonucu olarak, veri bankasının denormalizasyonuna neden olacaktır. Başlangıç tablosu ne kadar kapsamlı ve büyük olursa, veri madenciliğinin arama alanı o kadar genişleyecek ve algoritmalar giderek yavaşlayacaktır.
Bu cümleler, işletmeye ilişkin işin yapısının, analizde kullanılacak temel verilerin kolayca seçilebilmesi için çok net bir biçimde tanımlanması gerektiğini ifade etmektedir. Ayrıca proje faydaların sağlanabileceği net bir biçimde ortaya konmalıdır. Teorik olarak ilgi çekici veri örüntülerinin keşfedilmesi ön planda tutulmamalı, aksine pratikte uygulama bilgilerini iyileştirebilecek veri örüntülerinin keşfi hedeflenmelidir
Veri madenciliği kapsamındaki Pazar sepeti analizi için daima standart örnek olarak verilen "bira ile çocuk bezi birlikte satılır" çıkarımın ekonomik faydası son derece sınırlıdır. Bu üzerinde durulması gereken ve teknik açıdan dikkat çekici bir ilişki olabilir, ama bunun bir işletme kararıyla birleştirilip bu şekilde ekonomik bir iyeleşme sağlanmaz ise bu ilişki değerini yavaş yavaş kaybedecektir. Bu pazar sepeti analizi ilişkisinin potansiyel faydası, eğer bu ilişki ürün konumlanması kararında kullanılabilirse ortaya çıkacaktır. Bu durumda neden mevcut konumlamada satın alma ilişkisinin gerekli olduğu ve bunun gerçekten kuvvetli bir ilişki olup olmadığı veye eğer yeniden konumlama (veya ikinci bir konumlama) yapılması öngörülürse ciroyu yükseltici bir etki gösterip göstermeyeceği sorularına cevap aranmalıdır.
Kaynak:
Yazar:Richard Lackes
Business Intelligence and Data Mining, Prof. Dr. Haldun Akpınar, Dönence Basın ve Yayın Hizmetleri, İstanbul, 2004