SlideShare ist ein Scribd-Unternehmen logo
1 von 20
WEKA İLE VERİ
MADENCİLİĞİ VE
UYGULAMALI
ÖRNEKLER
ABBASGULU ALLAHVERDILI
PARVIN TELMANLI
Giriş
WEKA Programı
Veri Madenciliği
LABOR Veri Seti
Weka Programı
WEKA
Programı
Hakkında
WEKA, makine öğrenimi amacıyla
Waikato Üniversitesinde geliştirilmiş ve
Waikato Environment for Knowledge
Analysis kelimelerinin baş harflerinden
oluşmuş yazılımın ismidir.
Günümüzde yaygın kullanımı olan
çoğu makine öğrenimi algoritmalarını
ve metotlarını içermektedir. WEKA,
tamamen modüler bir tasarıma sahip
olup, içerdiği özelliklerle veri kümeleri
üzerinde görselleştirme, veri analizi, iş
zekası uygulamaları, veri madenciliği
gibi işlemler yapabilmektedir.
Veri
Madenciliği
Veri
Madenciliği
Hakkında
Büyük veri kaynaklarından
yararlı ve ilginç bilgi bulunmalı
ve bulunan bilgi, gizli, önemli,
önceden bilinmeyen ve yararlı
olmalıdır. Teoride veri
madenciliği bilgi keşfi işleminin
aşamalarından biridir ama
pratikte ise veri madenciliği ve
bilgi keşfi eş anlamlı olarak
kullanılır.
Veri, Veri
Tabanı ve Veri
Ambarı
Veri: Veri sayılar, metinler, sesler, görüntüler,
rasat parkında kayıt cihazında depolananlar,
otomasyonda öğrenci kayıtlarıdır. Genel
olarak veri karar vermeye yarayan soyut
simge dizileridir.
Veri Tabanı: Veri tabanı, birbiri ile ilişkili
verilerin toplanması ve depolanmasıdır.
Sistematik erişim imkanı olan, yönetilebilir,
güncellenebilir, taşınabilir, birbirleri arasında
tanımlı ilişkiler bulunabilen verilerdir ve belli
bir amaç için verilerin toplanması ve
tasarımıdır.
Veri Ambarı: Veri ambarları kesin bir tanım
yapmayı zorlaştıran bir şekilde, pek çok
biçimde tanımlanmaktadırlar. Veri ambarı bir
organizasyonun kullanılmakta olan veri
tabanlarından ayrı olarak sürdürülen bir
karar destek veritabanıdır.
LABOR
Veri Seti
LABOR Veri
Seti Hakkında
LABOR veri seti işçiler hakkında
bilgiler vermektedir. Bu veriler
Kanada endüstrisinde işçi
müzakereleri sonucunda
toplanmıştır. Çalışma saatleri,
işçilerin maaşı, tatilleri, maaş artış
veya azalışları, sağlık ve başka
yardımlar gibi özellikleri dikkate
alarak, bize çalışma ortamı veya
şartlarının iyi mi kötü mü olduğunu
söylemektedir. Veri seti içerisinde
17 adet öznitelik ve 57 adet kayıt
bulunmaktadır.
Öznitelikler
1. Anlaşma süreleri (duration)
2. İlk yıl ücret artışı (wage-increase-first-year)
3. İkinci yıl ücret artışı (wage-increase-second-year)
4. Üçüncü yıl ücret artışı (wage-increase-third-year)
5. Yaşam maliyeti ayarlaması (cost-of-living-adjustment)
6. Çalışma saatleri (working-hours)
7. Emekli maaşı (pension)
8. Bekleme ücreti: Görev için derhal hazır bulunması gereken
çalışanlar için ek ücrettir (standby-pay)
9. Vardiya Değişimi (shift-differential)
10. Eğitim ödeneği (education-allowance)
11. Resmi Tatiller (statutory-holidays)
12. Ücretli tatil günleri (vacation)
13. Uzun süreli engellilik yardımı (longterm-disability-assistance)
14. Diş planına katkı (contribution-to-dental-plan)
15. Cenaze masraflarına işverenin mali katkısı (bereavement-
assistance)
16. Sağlık planına katkı (contribution-to-health-plan)
17. Sınıf (class)
OneR
Algoritması
Bu algoritmanın amacı hangi
sınıfı kullanırsak daha iyi
sonucu tespit ederiz sorusuna
cevap bulmaktır. Algoritma
bunu yaparken sınıflandırmak
istediğimiz sınıfla elindeki
diğer sınıflar arasındaki
bağlantıya bakıp hangisi ile
daha fazla benzerlik
gösteriyorsa o sınıfı almaktır.
Veri Seti
Üzerinde
Uygulanması
Veri seti için ilk olarak bir sınıflandırma
algoritması olan OneR algoritması
uygulanmıştır. Burada test seçenekleri
içerisinde en çok kullanılan cross-
validation modeli kullanılmıştır. Veri seti
büyük bir veri seti olmadığı için algoritma
uygulanırken 3 katmana (fold)
bölünmüştür. Bu modelde “2 set eğitim, 1
set test verisi” olarak, tüm setlerin
üzerinden geçene kadar kullanılır ve her
bir parça test ve eğitim verisi olarak
kullanılmış olur. Sınıflandırma modeline
göre ilk yıl ücret artışı (wage-increase-
first-year) özniteliği seçilmiştir. 42 kayıt
doğru 15 kayıt ise yanlış
sınıflandırılmıştır. Sonuç olarak algoritma
uygulandığında %73.6842 başarı oranı
vermektedir.
ZeroR
Algoritması
ZeroR algoritması veri
madenciliği için en basit
ve çok kullanılan
algoritmalardan biridir.
Veri setindeki
sınıflandırmalardan
hangisinin sıklığı daha
çok ise gelen herşeyi o
sınıftan kabul eder.
Veri Seti
Üzerinde
Uygulanması
İkinci olarak sınıflandırma
algoritmalarından biri olan ZeroR
algoritması veri seti üzerinde
uygulanmıştır. Burada ZeroR
algoritması sınıf (class) özniteliği
için uygulanmıştır. ZeroR
algoritması veri setindeki
sınıflandırmalardan hangisinin
sıklığı daha çok ise gelen her şeyi
o sınıftan kabul ettiği için 37’ye 20
şeklinde bir dağılım olduğu için
daha sık olan sınıflandırmayı
almış ve %64.9123 başarı oranı
elde edilmiştir.
Naive Bayes
Algoritması
Naive Bayes
algoritmasının temeli
Bayes teoremine dayanır.
Naive Bayes
algoritmasının çalışma
şekli bir eleman için her
durumun olasılığını
hesaplamak ve olasılık
değeri en yüksek olana
göre sınıflandırmak
olarak özetlenebilir.
Veri Seti
Üzerinde
Uygulanması
En son olarak sınıflandırma
algoritmalarından biri olan Naive
Bayes algoritması veri seti üzerinde
uygulanmıştır. Burada F-Measure’a
baktığımızda ‘good’ sonucunun ‘bad’
sonucundan daha iyi olduğu
görülmektedir. Toplam 57 veriden 54
tanesi doğru tamamlanmış ve %
94.7368 başarı oranı elde edilmiştir.
Confusion Matrix’e bakıldığı zaman
iyi bir sonuç görülmektedir. Model
‘good’ sonuçlarının tamamını doğru
tahmin etmişken, ‘bad’
sonuçlarından 3 tanesini ‘good’
olarak karıştırmıştır.
Sonuç
Çalışmada ilk olarak WEKA programı hakkında gerekli bilgilerden bahsedilmiş, dosya tipleri ve önemli paneller
hakkında bilgi verilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi
eklenmiştir.
Genel olarak veri seti üzerinde sınıflandırma yapıldığı için sınıflandırma algoritmalarına değinilmiştir.
LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın
kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve
karşılaştırılmıştır.
Bu üç algoritma başarı oranına göre karşılaştırıldığı zaman en iyi sonucu veren algoritma Naive Bayes algoritması
olmuştur. Bunun nedeni Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını
hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
Algoritmaların
Başarı Yüzdeleri
Sınıflandırma
Algoritması
Başarı
Yüzdesi
OneR %73.6842
ZeroR %64.9123
Naive Bayes %94.7368
Kaynak
• [1] https://tr.wikipedia.org/wiki/Weka [Çevrimiçi Erişim Tarihi: 19.01.2022]
• [2] Dr. Öğr. Üyesi Nilgün GÜLER BAYAZIT, ‘Veri Madenciliğine Giriş’, Yıldız Teknik Üniversitesi, 2021.
• [3] https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/labor.arff [Çevrimiçi Erişim Tarihi: 19.01.2022]
Teşekkür Ederiz

Weitere ähnliche Inhalte

Was ist angesagt?

Interoperability and Portability for Cloud Computing: A Guide
Interoperability and Portability for Cloud Computing: A GuideInteroperability and Portability for Cloud Computing: A Guide
Interoperability and Portability for Cloud Computing: A GuideCloud Standards Customer Council
 
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪Yohei Azekatsu
 
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用QlikPresalesJapan
 
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]オラクルエンジニア通信
 
モノオク事業説明
モノオク事業説明モノオク事業説明
モノオク事業説明祐一 阿部
 
LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINE Corporation
 
MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話Yoshinori Matsunobu
 
Future Of DevOps Trends 2023
Future Of DevOps Trends 2023Future Of DevOps Trends 2023
Future Of DevOps Trends 2023WeCode Inc
 
Deep Learning Workflows: Training and Inference
Deep Learning Workflows: Training and InferenceDeep Learning Workflows: Training and Inference
Deep Learning Workflows: Training and InferenceNVIDIA
 
Cloud Computing Assignment 3
Cloud Computing Assignment 3Cloud Computing Assignment 3
Cloud Computing Assignment 3Gurpreet singh
 
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)オラクルエンジニア通信
 
GitOps and ArgoCD
GitOps and ArgoCDGitOps and ArgoCD
GitOps and ArgoCDOmar Fathy
 
Cassandra における SSD の活用
Cassandra における SSD の活用Cassandra における SSD の活用
Cassandra における SSD の活用Yuji Ito
 
Pythonsevilla2019 - Introduction to MLFlow
Pythonsevilla2019 - Introduction to MLFlowPythonsevilla2019 - Introduction to MLFlow
Pythonsevilla2019 - Introduction to MLFlowFernando Ortega Gallego
 

Was ist angesagt? (20)

OCIコンテナサービス関連の技術詳細
OCIコンテナサービス関連の技術詳細OCIコンテナサービス関連の技術詳細
OCIコンテナサービス関連の技術詳細
 
Interoperability and Portability for Cloud Computing: A Guide
Interoperability and Portability for Cloud Computing: A GuideInteroperability and Portability for Cloud Computing: A Guide
Interoperability and Portability for Cloud Computing: A Guide
 
what is SaaS?
what is SaaS?what is SaaS?
what is SaaS?
 
簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪簡単!AWRをEXCELピボットグラフで分析しよう♪
簡単!AWRをEXCELピボットグラフで分析しよう♪
 
Exadata X8M-2 KVM仮想化ベストプラクティス
Exadata X8M-2 KVM仮想化ベストプラクティスExadata X8M-2 KVM仮想化ベストプラクティス
Exadata X8M-2 KVM仮想化ベストプラクティス
 
IBM Cloud Computing
IBM Cloud ComputingIBM Cloud Computing
IBM Cloud Computing
 
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用
Qlik Sense SaaSでソフトウェア開発ライフサイクルを活用
 
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]
Oracle Cloud Infrastructure セキュリティの取り組み [2021年2月版]
 
モノオク事業説明
モノオク事業説明モノオク事業説明
モノオク事業説明
 
LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版LINEのMySQL運用について 修正版
LINEのMySQL運用について 修正版
 
MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話MHA for MySQLとDeNAのオープンソースの話
MHA for MySQLとDeNAのオープンソースの話
 
Future Of DevOps Trends 2023
Future Of DevOps Trends 2023Future Of DevOps Trends 2023
Future Of DevOps Trends 2023
 
Deep Learning Workflows: Training and Inference
Deep Learning Workflows: Training and InferenceDeep Learning Workflows: Training and Inference
Deep Learning Workflows: Training and Inference
 
Cloud Computing Assignment 3
Cloud Computing Assignment 3Cloud Computing Assignment 3
Cloud Computing Assignment 3
 
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)
事例から見る規模別クラウド・データベースの選び方 (Oracle Database) (Oracle Cloudウェビナーシリーズ: 2021年6月30日)
 
Oracle Analytics Cloud のご紹介【2021年3月版】
Oracle Analytics Cloud のご紹介【2021年3月版】Oracle Analytics Cloud のご紹介【2021年3月版】
Oracle Analytics Cloud のご紹介【2021年3月版】
 
GitOps and ArgoCD
GitOps and ArgoCDGitOps and ArgoCD
GitOps and ArgoCD
 
Cassandra における SSD の活用
Cassandra における SSD の活用Cassandra における SSD の活用
Cassandra における SSD の活用
 
Pythonsevilla2019 - Introduction to MLFlow
Pythonsevilla2019 - Introduction to MLFlowPythonsevilla2019 - Introduction to MLFlow
Pythonsevilla2019 - Introduction to MLFlow
 
Multi Cloud Architecture Approach
Multi Cloud Architecture ApproachMulti Cloud Architecture Approach
Multi Cloud Architecture Approach
 

Ähnlich wie Weka ile Veri Madenciliği

İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLMurat Azimli
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdfKaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdfaarthitimesgd
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applicationsEsranur Öğretmen
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applicationsEsranur Öğretmen
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuG. Basak Berk
 
tacalan_proje_rapor_v4
tacalan_proje_rapor_v4tacalan_proje_rapor_v4
tacalan_proje_rapor_v4Ozan Taçalan
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdfKaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdfaaseletronics2013
 
Urun Gami 3
Urun Gami 3Urun Gami 3
Urun Gami 3erkut81
 
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)AISecLab
 
Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Erol Dizdar
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Musa BEKTAŞ
 
Veritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, TurkeyVeritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, TurkeyVeritas Technologies LLC
 
OpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managersOpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managersOpenAIRE
 
Naive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma UygulamasıNaive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma UygulamasıHarun Çetin
 
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme YöntemiUtku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme YöntemiZeo
 
Urun Gami 1
Urun Gami 1Urun Gami 1
Urun Gami 1erkut81
 
agem_intern_report
agem_intern_reportagem_intern_report
agem_intern_reportMeliz Ersoy
 

Ähnlich wie Weka ile Veri Madenciliği (20)

İlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQLİlişkisel Veritabanı Sistemleri ve NoSQL
İlişkisel Veritabanı Sistemleri ve NoSQL
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdfKaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistemi.pdf
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applications
 
Medical data mining applications
Medical data mining applicationsMedical data mining applications
Medical data mining applications
 
ML_3.pdf
ML_3.pdfML_3.pdf
ML_3.pdf
 
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez SunumuGizem Başak Berk - Yüksek Lisans Tez Sunumu
Gizem Başak Berk - Yüksek Lisans Tez Sunumu
 
tacalan_proje_rapor_v4
tacalan_proje_rapor_v4tacalan_proje_rapor_v4
tacalan_proje_rapor_v4
 
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdfKaputun Altndan Bakmak ORION  UPSte Yeni Navigasyon Sistem.pdf
Kaputun Altndan Bakmak ORION UPSte Yeni Navigasyon Sistem.pdf
 
Urun Gami 3
Urun Gami 3Urun Gami 3
Urun Gami 3
 
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
Google Güvenli Yapay Zeka Framework Yaklaşımı(Türkçe Çeviri)
 
Sunucu işletim sistemi 4
Sunucu işletim sistemi 4Sunucu işletim sistemi 4
Sunucu işletim sistemi 4
 
Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇Veri̇ madenci̇li̇ği̇
Veri̇ madenci̇li̇ği̇
 
Veritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, TurkeyVeritas Vision Solution Day 2020, Istanbul, Turkey
Veritas Vision Solution Day 2020, Istanbul, Turkey
 
OpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managersOpenAIRE PROVIDE Dashboard for Turkish repository managers
OpenAIRE PROVIDE Dashboard for Turkish repository managers
 
Naive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma UygulamasıNaive Bayes Sınıflandırma Uygulaması
Naive Bayes Sınıflandırma Uygulaması
 
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme YöntemiUtku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
Utku Demirhan @Digitalzone Meetups - Dijitalde 5 Veri Görselleştirme Yöntemi
 
Urun Gami 1
Urun Gami 1Urun Gami 1
Urun Gami 1
 
Urun gami 3
Urun gami 3Urun gami 3
Urun gami 3
 
YÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİYÖNETİM BİLGİ SİSTEMİ
YÖNETİM BİLGİ SİSTEMİ
 
agem_intern_report
agem_intern_reportagem_intern_report
agem_intern_report
 

Mehr von Abbasgulu Allahverdili

Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxKötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxAbbasgulu Allahverdili
 
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptxYapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptxAbbasgulu Allahverdili
 
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAzerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAbbasgulu Allahverdili
 
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Abbasgulu Allahverdili
 

Mehr von Abbasgulu Allahverdili (9)

Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptxKötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
Kötü Niyetli Programlar ve Bu Programları Engelleyici Programlar.pptx
 
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptxYapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
Yapay Zeka ile Araçların Yakıt Tüketimi Tahmini.pptx
 
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileriAzerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
Azerbaycan Hakkında Genel Bilgi ve Türkiye-Azerbaycan İlişkileri
 
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
Tümör büyümesi̇ni̇n matemati̇ksel modellenmesi̇
 
Karabağ Futbol Kulübü
Karabağ Futbol KulübüKarabağ Futbol Kulübü
Karabağ Futbol Kulübü
 
Futbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket ÖğretimiFutbol ve Temel Hareket Öğretimi
Futbol ve Temel Hareket Öğretimi
 
A Software Engineer
A Software EngineerA Software Engineer
A Software Engineer
 
A Business Analyst
A Business AnalystA Business Analyst
A Business Analyst
 
A Software Tester
A Software TesterA Software Tester
A Software Tester
 

Weka ile Veri Madenciliği

  • 1. WEKA İLE VERİ MADENCİLİĞİ VE UYGULAMALI ÖRNEKLER ABBASGULU ALLAHVERDILI PARVIN TELMANLI
  • 4. WEKA Programı Hakkında WEKA, makine öğrenimi amacıyla Waikato Üniversitesinde geliştirilmiş ve Waikato Environment for Knowledge Analysis kelimelerinin baş harflerinden oluşmuş yazılımın ismidir. Günümüzde yaygın kullanımı olan çoğu makine öğrenimi algoritmalarını ve metotlarını içermektedir. WEKA, tamamen modüler bir tasarıma sahip olup, içerdiği özelliklerle veri kümeleri üzerinde görselleştirme, veri analizi, iş zekası uygulamaları, veri madenciliği gibi işlemler yapabilmektedir.
  • 6. Veri Madenciliği Hakkında Büyük veri kaynaklarından yararlı ve ilginç bilgi bulunmalı ve bulunan bilgi, gizli, önemli, önceden bilinmeyen ve yararlı olmalıdır. Teoride veri madenciliği bilgi keşfi işleminin aşamalarından biridir ama pratikte ise veri madenciliği ve bilgi keşfi eş anlamlı olarak kullanılır.
  • 7. Veri, Veri Tabanı ve Veri Ambarı Veri: Veri sayılar, metinler, sesler, görüntüler, rasat parkında kayıt cihazında depolananlar, otomasyonda öğrenci kayıtlarıdır. Genel olarak veri karar vermeye yarayan soyut simge dizileridir. Veri Tabanı: Veri tabanı, birbiri ile ilişkili verilerin toplanması ve depolanmasıdır. Sistematik erişim imkanı olan, yönetilebilir, güncellenebilir, taşınabilir, birbirleri arasında tanımlı ilişkiler bulunabilen verilerdir ve belli bir amaç için verilerin toplanması ve tasarımıdır. Veri Ambarı: Veri ambarları kesin bir tanım yapmayı zorlaştıran bir şekilde, pek çok biçimde tanımlanmaktadırlar. Veri ambarı bir organizasyonun kullanılmakta olan veri tabanlarından ayrı olarak sürdürülen bir karar destek veritabanıdır.
  • 9. LABOR Veri Seti Hakkında LABOR veri seti işçiler hakkında bilgiler vermektedir. Bu veriler Kanada endüstrisinde işçi müzakereleri sonucunda toplanmıştır. Çalışma saatleri, işçilerin maaşı, tatilleri, maaş artış veya azalışları, sağlık ve başka yardımlar gibi özellikleri dikkate alarak, bize çalışma ortamı veya şartlarının iyi mi kötü mü olduğunu söylemektedir. Veri seti içerisinde 17 adet öznitelik ve 57 adet kayıt bulunmaktadır.
  • 10. Öznitelikler 1. Anlaşma süreleri (duration) 2. İlk yıl ücret artışı (wage-increase-first-year) 3. İkinci yıl ücret artışı (wage-increase-second-year) 4. Üçüncü yıl ücret artışı (wage-increase-third-year) 5. Yaşam maliyeti ayarlaması (cost-of-living-adjustment) 6. Çalışma saatleri (working-hours) 7. Emekli maaşı (pension) 8. Bekleme ücreti: Görev için derhal hazır bulunması gereken çalışanlar için ek ücrettir (standby-pay) 9. Vardiya Değişimi (shift-differential) 10. Eğitim ödeneği (education-allowance) 11. Resmi Tatiller (statutory-holidays) 12. Ücretli tatil günleri (vacation) 13. Uzun süreli engellilik yardımı (longterm-disability-assistance) 14. Diş planına katkı (contribution-to-dental-plan) 15. Cenaze masraflarına işverenin mali katkısı (bereavement- assistance) 16. Sağlık planına katkı (contribution-to-health-plan) 17. Sınıf (class)
  • 11. OneR Algoritması Bu algoritmanın amacı hangi sınıfı kullanırsak daha iyi sonucu tespit ederiz sorusuna cevap bulmaktır. Algoritma bunu yaparken sınıflandırmak istediğimiz sınıfla elindeki diğer sınıflar arasındaki bağlantıya bakıp hangisi ile daha fazla benzerlik gösteriyorsa o sınıfı almaktır.
  • 12. Veri Seti Üzerinde Uygulanması Veri seti için ilk olarak bir sınıflandırma algoritması olan OneR algoritması uygulanmıştır. Burada test seçenekleri içerisinde en çok kullanılan cross- validation modeli kullanılmıştır. Veri seti büyük bir veri seti olmadığı için algoritma uygulanırken 3 katmana (fold) bölünmüştür. Bu modelde “2 set eğitim, 1 set test verisi” olarak, tüm setlerin üzerinden geçene kadar kullanılır ve her bir parça test ve eğitim verisi olarak kullanılmış olur. Sınıflandırma modeline göre ilk yıl ücret artışı (wage-increase- first-year) özniteliği seçilmiştir. 42 kayıt doğru 15 kayıt ise yanlış sınıflandırılmıştır. Sonuç olarak algoritma uygulandığında %73.6842 başarı oranı vermektedir.
  • 13. ZeroR Algoritması ZeroR algoritması veri madenciliği için en basit ve çok kullanılan algoritmalardan biridir. Veri setindeki sınıflandırmalardan hangisinin sıklığı daha çok ise gelen herşeyi o sınıftan kabul eder.
  • 14. Veri Seti Üzerinde Uygulanması İkinci olarak sınıflandırma algoritmalarından biri olan ZeroR algoritması veri seti üzerinde uygulanmıştır. Burada ZeroR algoritması sınıf (class) özniteliği için uygulanmıştır. ZeroR algoritması veri setindeki sınıflandırmalardan hangisinin sıklığı daha çok ise gelen her şeyi o sınıftan kabul ettiği için 37’ye 20 şeklinde bir dağılım olduğu için daha sık olan sınıflandırmayı almış ve %64.9123 başarı oranı elde edilmiştir.
  • 15. Naive Bayes Algoritması Naive Bayes algoritmasının temeli Bayes teoremine dayanır. Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
  • 16. Veri Seti Üzerinde Uygulanması En son olarak sınıflandırma algoritmalarından biri olan Naive Bayes algoritması veri seti üzerinde uygulanmıştır. Burada F-Measure’a baktığımızda ‘good’ sonucunun ‘bad’ sonucundan daha iyi olduğu görülmektedir. Toplam 57 veriden 54 tanesi doğru tamamlanmış ve % 94.7368 başarı oranı elde edilmiştir. Confusion Matrix’e bakıldığı zaman iyi bir sonuç görülmektedir. Model ‘good’ sonuçlarının tamamını doğru tahmin etmişken, ‘bad’ sonuçlarından 3 tanesini ‘good’ olarak karıştırmıştır.
  • 17. Sonuç Çalışmada ilk olarak WEKA programı hakkında gerekli bilgilerden bahsedilmiş, dosya tipleri ve önemli paneller hakkında bilgi verilmiştir. Ayrıca veri madenciliği başlığı altında veri, veri tabanı ve veri ambarı ile ilgili detaylı bilgi eklenmiştir. Genel olarak veri seti üzerinde sınıflandırma yapıldığı için sınıflandırma algoritmalarına değinilmiştir. LABOR veri seti incelenmiş, içermiş olduğu özniteliklerle ilgili detaylı bilgi verilmiş ve veri seti üzerinde en yaygın kullanılan sınıflandırma algoritmalarından olan OneR, ZeroR, Naive Bayes algoritmaları uygulanmış ve karşılaştırılmıştır. Bu üç algoritma başarı oranına göre karşılaştırıldığı zaman en iyi sonucu veren algoritma Naive Bayes algoritması olmuştur. Bunun nedeni Naive Bayes algoritmasının çalışma şekli bir eleman için her durumun olasılığını hesaplamak ve olasılık değeri en yüksek olana göre sınıflandırmak olarak özetlenebilir.
  • 19. Kaynak • [1] https://tr.wikipedia.org/wiki/Weka [Çevrimiçi Erişim Tarihi: 19.01.2022] • [2] Dr. Öğr. Üyesi Nilgün GÜLER BAYAZIT, ‘Veri Madenciliğine Giriş’, Yıldız Teknik Üniversitesi, 2021. • [3] https://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/labor.arff [Çevrimiçi Erişim Tarihi: 19.01.2022]