1. Aplicación de minería de datos a
WEKA
Juan P. Sandoval
Armando Tapia
Rolando Valenzuela
Gerardo Zapata
2. Introducción
•
Weka es un software programado en Java que está orientado a la
extracción de conocimientos desde bases de datos con grandes
cantidades de información.
•
La implementación de los esquemas de aprendizaje son los recursos
más valiosos de WEKA. Las herramientas para el preprocesamiento de
datos, llamados filtros, WEKA centra su atención en los algoritmos de
clasificación y filtro, sin embargo, también incluye la implementación de
algoritmos para el aprendizaje de reglas de asociación y el
agrupamiento de datos (clustering).
3. Descubrimiento del software
•
•
•
•
En 1993, la Universidad de Waikato de Nueva Zelanda inició el
desarrollo de la versión original de Weka (en TCL/TK y C).
En 1997, se decidió reescribir el código en Java incluyendo
implementaciones de algoritmos de modelado.
En 2005, Weka recibe de SIGKDD2 3 (Special Interest Group on
Knowledge Discovery and Data Mining) el galardón "Data Mining and
Knowledge Discovery Service".
En 2006, Pentaho Corporation adquirió una licencia exclusiva para
usar Weka para Inteligencia de negocio (Business Intelligence), dando
lugar al componente de minería de datos y análisis predictivo del
paquete de software Pentaho Business Intelligence.
4. Descripción Del Software
• El paquete Weka contiene una colección de herramientas de
visualización y algoritmos para análisis de datos y modelado
predictivo, unidos a una interfaz gráfica de usuario para
acceder fácilmente a sus funcionalidades. La versión original
de Weka fue un front-end enTCL/TK para modelar algoritmos
implementados en otros lenguajes de programación, más
unas utilidades para pre procesamiento de datos
desarrolladas en C para hacer experimentos de aprendizaje
automático.
5. Operaciones del software
Razones a favor de Weka
•Está disponible libremente bajo la licencia pública general de
GNU.
•Es muy portable porque está completamente implementado en
Java y puede correr en casi cualquier plataforma.
•Contiene una extensa colección de técnicas para
preprocesamiento de datos y modelado.
•Es fácil de utilizar por un principiante gracias a su interfaz
gráfica de usuario.
7. La interfaz del usuario
• Simple CLI
• Simple CLI es la abreviatura de Simple
Command-Line Interface (Interfaz Simple de
Línea de Comandos); se trata de una consola
que permite acceder a todas las opciones de
Weka desde línea de comandos.
8. • Explorer
• La interfaz Explorer (Explorador) dispone de varios
paneles que dan acceso a los componentes
principales del banco de trabajo:
• "Preprocess“
• "Classify“
• "Associate"
• "Cluster“
• "Selectedattributes"
9. • Experimenter
• La interfaz Experimenter (Experimentador)
permite la comparación sistemática de una
ejecución de los algoritmos predictivos de
Weka sobre una colección de conjuntos de
datos.
10. • Knowledge Flow
• KnowledgeFlow (Flujo de Conocimiento) es
una interfaz que soporta esencialmente las
mismas funciones que el Explorer pero con
una interfaz que permite "arrastrar y soltar".
Una ventaja es que ofrece soporte para el
aprendizaje incremental.
11. Ejercicio
• El fichero contiene una serie de filas, cada una
de las cuales contiene un conjunto de factores
meteorológicos de un determinado día y nos
indica si se ha podido jugar o no al tenis.
Nuestro objetivo será crear un árbol de
decisión que nos ayude a predecir si, por
ejemplo, hoy vamos a poder jugar al tenis.