Çalışmada ilk olarak WEKA programı, veri madenciliği ve LABOR veri seti hakkında gerekli bilgilerden bahsedilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi eklenmiştir. LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve karşılaştırılmıştır.
4. WEKA
Programı
Hakkında
WEKA, makine öğrenimi amacıyla
Waikato Üniversitesinde geliştirilmiş ve
Waikato Environment for Knowledge
Analysis kelimelerinin baş harflerinden
oluşmuş yazılımın ismidir.
Günümüzde yaygın kullanımı olan
çoğu makine öğrenimi algoritmalarını
ve metotlarını içermektedir. WEKA,
tamamen modüler bir tasarıma sahip
olup, içerdiği özelliklerle veri kümeleri
üzerinde görselleştirme, veri analizi, iş
zekası uygulamaları, veri madenciliği
gibi işlemler yapabilmektedir.
6. Veri
Madenciliği
Hakkında
Büyük veri kaynaklarından
yararlı ve ilginç bilgi bulunmalı
ve bulunan bilgi, gizli, önemli,
önceden bilinmeyen ve yararlı
olmalıdır. Teoride veri
madenciliği bilgi keşfi işleminin
aşamalarından biridir ama
pratikte ise veri madenciliği ve
bilgi keşfi eş anlamlı olarak
kullanılır.
7. Veri, Veri
Tabanı ve Veri
Ambarı
Veri: Veri sayılar, metinler, sesler, görüntüler,
rasat parkında kayıt cihazında depolananlar,
otomasyonda öğrenci kayıtlarıdır. Genel
olarak veri karar vermeye yarayan soyut
simge dizileridir.
Veri Tabanı: Veri tabanı, birbiri ile ilişkili
verilerin toplanması ve depolanmasıdır.
Sistematik erişim imkanı olan, yönetilebilir,
güncellenebilir, taşınabilir, birbirleri arasında
tanımlı ilişkiler bulunabilen verilerdir ve belli
bir amaç için verilerin toplanması ve
tasarımıdır.
Veri Ambarı: Veri ambarları kesin bir tanım
yapmayı zorlaştıran bir şekilde, pek çok
biçimde tanımlanmaktadırlar. Veri ambarı bir
organizasyonun kullanılmakta olan veri
tabanlarından ayrı olarak sürdürülen bir
karar destek veritabanıdır.
9. LABOR Veri
Seti Hakkında
LABOR veri seti işçiler hakkında
bilgiler vermektedir. Bu veriler
Kanada endüstrisinde işçi
müzakereleri sonucunda
toplanmıştır. Çalışma saatleri,
işçilerin maaşı, tatilleri, maaş artış
veya azalışları, sağlık ve başka
yardımlar gibi özellikleri dikkate
alarak, bize çalışma ortamı veya
şartlarının iyi mi kötü mü olduğunu
söylemektedir. Veri seti içerisinde
17 adet öznitelik ve 57 adet kayıt
bulunmaktadır.
10. Öznitelikler
1. Anlaşma süreleri (duration)
2. İlk yıl ücret artışı (wage-increase-first-year)
3. İkinci yıl ücret artışı (wage-increase-second-year)
4. Üçüncü yıl ücret artışı (wage-increase-third-year)
5. Yaşam maliyeti ayarlaması (cost-of-living-adjustment)
6. Çalışma saatleri (working-hours)
7. Emekli maaşı (pension)
8. Bekleme ücreti: Görev için derhal hazır bulunması gereken
çalışanlar için ek ücrettir (standby-pay)
9. Vardiya Değişimi (shift-differential)
10. Eğitim ödeneği (education-allowance)
11. Resmi Tatiller (statutory-holidays)
12. Ücretli tatil günleri (vacation)
13. Uzun süreli engellilik yardımı (longterm-disability-assistance)
14. Diş planına katkı (contribution-to-dental-plan)
15. Cenaze masraflarına işverenin mali katkısı (bereavement-
assistance)
16. Sağlık planına katkı (contribution-to-health-plan)
17. Sınıf (class)
11. OneR
Algoritması
Bu algoritmanın amacı hangi
sınıfı kullanırsak daha iyi
sonucu tespit ederiz sorusuna
cevap bulmaktır. Algoritma
bunu yaparken sınıflandırmak
istediğimiz sınıfla elindeki
diğer sınıflar arasındaki
bağlantıya bakıp hangisi ile
daha fazla benzerlik
gösteriyorsa o sınıfı almaktır.
12. Veri Seti
Üzerinde
Uygulanması
Veri seti için ilk olarak bir sınıflandırma
algoritması olan OneR algoritması
uygulanmıştır. Burada test seçenekleri
içerisinde en çok kullanılan cross-
validation modeli kullanılmıştır. Veri seti
büyük bir veri seti olmadığı için algoritma
uygulanırken 3 katmana (fold)
bölünmüştür. Bu modelde “2 set eğitim, 1
set test verisi” olarak, tüm setlerin
üzerinden geçene kadar kullanılır ve her
bir parça test ve eğitim verisi olarak
kullanılmış olur. Sınıflandırma modeline
göre ilk yıl ücret artışı (wage-increase-
first-year) özniteliği seçilmiştir. 42 kayıt
doğru 15 kayıt ise yanlış
sınıflandırılmıştır. Sonuç olarak algoritma
uygulandığında %73.6842 başarı oranı
vermektedir.
13. ZeroR
Algoritması
ZeroR algoritması veri
madenciliği için en basit
ve çok kullanılan
algoritmalardan biridir.
Veri setindeki
sınıflandırmalardan
hangisinin sıklığı daha
çok ise gelen herşeyi o
sınıftan kabul eder.
14. Veri Seti
Üzerinde
Uygulanması
İkinci olarak sınıflandırma
algoritmalarından biri olan ZeroR
algoritması veri seti üzerinde
uygulanmıştır. Burada ZeroR
algoritması sınıf (class) özniteliği
için uygulanmıştır. ZeroR
algoritması veri setindeki
sınıflandırmalardan hangisinin
sıklığı daha çok ise gelen her şeyi
o sınıftan kabul ettiği için 37’ye 20
şeklinde bir dağılım olduğu için
daha sık olan sınıflandırmayı
almış ve %64.9123 başarı oranı
elde edilmiştir.
15. Naive Bayes
Algoritması
Naive Bayes
algoritmasının temeli
Bayes teoremine dayanır.
Naive Bayes
algoritmasının çalışma
şekli bir eleman için her
durumun olasılığını
hesaplamak ve olasılık
değeri en yüksek olana
göre sınıflandırmak
olarak özetlenebilir.
16. Veri Seti
Üzerinde
Uygulanması
En son olarak sınıflandırma
algoritmalarından biri olan Naive
Bayes algoritması veri seti üzerinde
uygulanmıştır. Burada F-Measure’a
baktığımızda ‘good’ sonucunun ‘bad’
sonucundan daha iyi olduğu
görülmektedir. Toplam 57 veriden 54
tanesi doğru tamamlanmış ve %
94.7368 başarı oranı elde edilmiştir.
Confusion Matrix’e bakıldığı zaman
iyi bir sonuç görülmektedir. Model
‘good’ sonuçlarının tamamını doğru
tahmin etmişken, ‘bad’
sonuçlarından 3 tanesini ‘good’
olarak karıştırmıştır.
17. Sonuç
Çalışmada ilk olarak WEKA programı hakkında gerekli bilgilerden bahsedilmiş, dosya tipleri ve önemli paneller
hakkında bilgi verilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi
eklenmiştir.
Genel olarak veri seti üzerinde sınıflandırma yapıldığı için sınıflandırma algoritmalarına değinilmiştir.
LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın
kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve
karşılaştırılmıştır.
Bu üç algoritma başarı oranına göre karşılaştırıldığı zaman en iyi sonucu veren algoritma Naive Bayes algoritması
olmuştur. Bunun nedeni Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını
hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.