I summit utpl-taller

TALLER isummit
2010
2010
Datos, textos y visualización
Sylvie Ratté, Ph.D.
Directora del Laboratorio de Ingeniería Cognitiva y Semántica
École de technologie supérieure, Montréal, QC

2
ProgramaPrograma
• introducción
• parte 1:WEKA y MD básica
• parte II: RapidMiner y su interfaz visual y mas
• parte III: R y sus posibilidades
• parte IV: GATE y los textos
• discusión y conclusión

Introducción
ÉTS, el LiNCS y el taller

4
IntroducciónIntroducción
1. Sobre la ÉTS
2. Sobre las investigaciones del LiNCS
3. Sobre el taller y las herramientas
4. Sobre el transcurso del taller (duración, método)

5
1. Sobre la ÉTS1. Sobre la ÉTS
ÉTS - École de technologie supérieure
•'Top' 5 de las 45 escuelas y
facultades de ingeniería en Canadá
•Uno de cada cuatro Ingenieros de la
Provincia de Qébec se graduó de la
ETS
•Más de 4 500 estudiantes
•Edificios ultra moderno
•1000 unidades en las residencias

6
1. Breve presentación: LiNCS / ÉTS1. Breve presentación: LiNCS / ÉTS
LiNCS - Laboratorio de Ingeniería Cognitiva y Semántica
• Focos en el trazado entre la
descripción escrita en lenguaje
natural (documento) y su
representación visual (modelo,
diagrama y animación).
• Minería de textos
• Minería del Web
• Minería de redes
• Modelos de lenguaje
2. Sobre las investigaciones del LiNCS2. Sobre las investigaciones del LiNCS

7
3. Sobre el taller y las herramientas3. Sobre el taller y las herramientas
Extracción de
información
Extracción de
información
Minería de
textos
Minería de
textos
Minería de
datos
Minería de
datos
Estadística y
mas
Estadística y
mas

8
4. Sobre el transcurso del taller4. Sobre el transcurso del taller
• Duración: 4 partes de 4 horas
• Método:
• muchas practicas;
• poco teoría;
• experimentación libre
• «Vamos al grano!»: Sobre la minería de datos

Parte I
WEKA y Minería de datos básica
4 ejercicios y una experimentación

10
programaprograma
1. introducción
2. WEKA: presentación
3. ejercicio I: el «explorer» y predicción
4. ejercicio II: el «explorer» y clasificación
5. ejercicio III: clustering
6. ejercicio IV: «knowledge flow»
7. experimentación libre

11
1. Introducción1. Introducción
• La minería de datos consiste en la extracción no trivial de
información que reside de manera implícita en los datos.
• Dicha información era previamente desconocida y podrá
resultar útil para algún proceso.
• En otras palabras, la minería de datos prepara, sondea y
explora los datos para sacar la información oculta en ellos.
• En las próximas horas, vamos a experimentar con el
concepto de manera practica pero por ahora...

12
• Usted es parte de un grupo de personas en una isla
desierta.
• Para sobrevivir, debe comer hongos nativos.
• Cuatro amigos fueron lo bastante temerario y comieron 4
especímenes diferentes...
• Dos de ellos están muy enfermos
• Se descubre 4 especímenes mas:
Espécimen Pesado Olor Moteado Tóxico
A 0 0 0 0
B 0 1 1 1
C 1 1 0 0
D 1 0 0 1
Espécimen Pesado Olor Moteado Tóxico
E 1 1 1
F 0 0 1
G 0 1 0
H 1 0 1

13
• Cada vez que hago este pequeño ejercicio me resulta lo
mismo:
• técnicas tipo reglas: IF...THEN (antecedentes, consequentes)
• técnicas tipo probabilidad: Bayes
• técnicas tipo distancias: Knn
• Este ejemplo ilustra un grupo de métodos de predicción

14
• Espiar a mi vecino, el banquero
perspectiva temperatura humedad viento juega
soleado caliente alto F no
soleado caliente alto T no
cubierto caliente alto F sí
lluvioso suave alto F sí
lluvioso fresco normal F sí
lluvioso fresco normal T no
cubierto fresco normal T sí
soleado suave alto F no
soleado fresco normal F sí
lluvioso suave normal F sí
soleado suave normal T sí
cubierto suave alto T sí
cubierto caliente normal F sí
lluvioso suave alto T no
soleado caliente normal F
cubierto fresco alto T
cubierto caliente alto T
lluvioso suave normal F

15
• Fases de construcción
Selección del conjunto de datos
Análisis de las propiedades de los datos
Transformación del conjunto de datos de entrada
Seleccionar y aplicar la técnica
de minería de datos
Evaluar los resultados
soleado, humidad, vestido negro,
tipo de pantalon, tipo de caro,
llamada telefonica, temperatura,
viento, juega golf, trabaja, a comer
soleado, humidad, vestido negro,
tipo de pantalon, tipo de caro,
llamada telefonica, temperatura,
viento, juega golf, trabaja, a comer
 ZeroR
 OneR
 Naive Bayes
 Árbol de decisiones
 K-vecinos
 Red neuronal
 Inducción de reglas
http://www.crisp-dm.org/

16
• Illustracion de ZeroR
perspectiva temperatura humedad viento
juega
soleado caliente alto F
no
soleado caliente alto T
no
cubierto caliente alto F
sí
lluvioso suave alto F
sí
lluvioso fresco normal F
sí
lluvioso fresco normal T
no
cubierto fresco normal T
sí
soleado suave alto F
no
soleado fresco normal F
sí
sí
soleado suave normal T
sí
cubierto suave alto T
sí
cubierto caliente normal F
sí
lluvioso suave alto T
no
9 sí
5 no
sí
sí
sí
sí

17
• Ilustración de OneR Perspectiva | No Sí
--------------------------------------------
Soleado | 3 2
--------------------------------------------
Cubierto | 0 4
--------------------------------------------
Lluvioso | 2 3
Temp | No Sí
--------------------------------------------
Caliente | 2 2
--------------------------------------------
Suave | 2 4
--------------------------------------------
Fresco | 1 3
Humedad | No Sí
--------------------------------------------
Alta | 4 3
--------------------------------------------
Normal | 1 6
Viento | No Sí
--------------------------------------------
F | 2 6
--------------------------------------------
T | 3 3
10/14
9/14
10/14
9/14
no
sí
sí
sí

18
2.WEKA: presentación2.WEKA: presentación

19
3. Ejercicio I: el «explorer» de Weka3. Ejercicio I: el «explorer» de Weka
• Objetivo: aprender a manejar «el explorer» de Weka
• cargar un archivo de datos en de Weka;
• aplicar algunos algoritmos de clasificación;
• navegar;
• ver algunos resultados;
• aprender el formato de datos ARFF.
• weather.nominal.arff
• ABRE este fichero primero dentro un programa TXT-only

20
• @relation weather.symbolic
• @attribute outlook {sunny, overcast, rainy}
• @attribute temperature {hot, mild, cool}
• @attribute humidity {high, normal}
• @attribute windy {TRUE, FALSE}
• @attribute play {yes, no}
• @data
• sunny,hot,high,FALSE,no
• sunny,hot,high,TRUE,no
• overcast,hot,high,FALSE,yes

21

22
• ZeroR
• Naive Bayes
• IbK
• J48
• ZeroR
• Naive Bayes
• IbK
• J48

23

24
4. Ejercicio 1I: clases múltiples4. Ejercicio 1I: clases múltiples
• iris.arff -- hace una clasificación con J48...

25
5. Ejercicio III: clustering5. Ejercicio III: clustering
• iris.arff

26
5. Ejercicio III: clustering5. Ejercicio III: clustering

27
6. EjercicioV: «knowledge flow»6. EjercicioV: «knowledge flow»
• segment-challenge and segment-test
• Logistic regression

28
6. EjercicioV: «knowledge flow»6. EjercicioV: «knowledge flow»

Parte II
RapidMiner: interfaz visual y mas

30
Parte II: programaParte II: programa
1. RapidMiner: presentación
2. Ejercicio I: ficheros .arff
3. Ejercicio II: repositorios propios de RM
4. Ejercicio III: ROC y otras métricas de evaluación
5. Ejercicio IV: «train» y «test»
6. EjercicioV: PCA (teoría) y clustering
7. Experimentación libre

31
1. RapidMiner: presentación1. RapidMiner: presentación
operadores y
repertorios
operadores y
repertorios
igual al KnowledgeFlow
de Weka
igual al KnowledgeFlow
de Weka
parámetros de
la selección
actual
parámetros de
la selección
actual
ejecución y visualizaciónejecución y visualización
reporte de los
problemas
reporte de los
problemas
parámetros de
la selección
actual
parámetros de
la selección
actual
ayuda sobre la
selección actual
ayuda sobre la
selección actual

32
2. Ejercicio I: ficheros .arff en RM2. Ejercicio I: ficheros .arff en RM
• Objetivo: los repositorios y los datos

33
2. Ejercicio I: iris con RapidMiner2. Ejercicio I: iris con RapidMiner

34

35

36

37
2. Ejercicio II: repositorios propios de RM2. Ejercicio II: repositorios propios de RM
• Siempre es mas fácil transformar los ficheros directamente
en los repositorios de RM.

38
3. Ejercicio III: ROC y otras métricas de evaluación3. Ejercicio III: ROC y otras métricas de evaluación
• ROC : receiver operating characteristic .... pero primero...
regresamos al principio
Matriz de confusión
ecisión del clasificador: accuracy = (TP+TN)/(TP+TN+FP+FN
Pueden imaginar un caso especial:
la precisión muy alta pero de verdad, no significa nada?
AYUDA: pensan en ZeroR...

39
• Limitaciones de la precisión (“accuracy”) :
• Supongamos un problema con 2 clases:
• 9990 ejemplos de la clase 1
• 10 ejemplos de la clase 2
• Si el modelo de clasificación siempre dice que los ejemplos
son de la clase 1, su precisión es
• 9990/10000 = 99.9%
• Totalmente engañosa, ya que nunca detectaremos ningún

40
precision = TP/(TP+FP) True positive recognition rate
recall = sensitivity = TP/P = TP/(TP+FN) True negative recognition rate
specificity = TN/N = TN/(TN+FP)
F-measure = 2*precision*recall / (precision+recall)F= 2TP / (2TP+FP+FN)
Medidas “cost-sensitive”

41

42
• Para evaluar la precisión de un modelo de clasificación
nunca debemos utilizar el conjunto de entrenamiento (lo
que nos daría el “error de resustitución” del clasificador),
sino un conjunto de prueba independiente:
• Por ejemplo, podríamos reservar 2/3 de los ejemplos
disponibles para construir el clasificador y el 1/3 restante lo
utilizaríamos de conjunto de prueba para estimar la
precisión del clasificador.

44
• Variantes de la validación cruzada
• “Leave one out”: Se realiza una validación cruzada con k
particiones del conjunto de datos, donde k coincide con el
número de ejemplos disponibles.
• Validación cruzada estratificada: Las particiones se realizan
intentando mantener en todas ellas la misma proporción de
clases que aparece en el conjunto de datos completo.

45
• Curvas ROC (Receiver Operating Characteristics)
• Eje vertical: “true positive rate” TPR = TP/(TP+FN)
• Eje horizontal: “false positive rate” FPR = FP/(FP+TN)

46
Curvas ROC
•Desarrolladas en los años 50 para analizar señales con ruido:
caracterizar el compromiso entre aciertos y falsas alarmas.
•Permiten comparar visualmente distintos modelos de
clasificación.
•El área que queda bajo la curva es una medida de la
precisión (accuracy) del clasificador:
•Cuanto más cerca estemos de la diagonal (área cercana a
0.5), menos preciso será el modelo.
•Un modelo “perfecto” tendrá área 1.

47
Ningún modelo es consistentemente mejor que el otro:
M1 es mejor para FPR bajos, M2 para FPR altos.

48
Curvas ROC
•¿Cómo construir la curva ROC?
•Se usa un clasificador que prediga la probabilidad de que un
ejemplo E pertenezca a la clase positiva P(+|E)
•Se ordenan los ejemplos en orden decreciente del valor
estimado P(+|E)
•Se aplica un umbral para cada valor distinto de P(+|E), donde
se cuenta el número de TP, FP,TN y FN.
• TPR = TP/(TP+FN)
• FPR = FP/(FP+TN)

49

50
• labor.ooi

51

52
4. Ejercicio IV: «train» y «test»4. Ejercicio IV: «train» y «test»
• Modelo:Apply testset
• digit2_train
• digit2_test

53
5. EjercicioV: PCA5. EjercicioV: PCA
• Sobre iris
Experimentación libre:
comparación de los resultados con el ExampleSet original y
con el ExampleSetPCA

54
6. EjercicioVI: «market basket analysis»6. EjercicioVI: «market basket analysis»

55
6. EjercicioVI: «market basket analysis»6. EjercicioVI: «market basket analysis»

56
6. EjercicioV: «market basket analysis»6. EjercicioV: «market basket analysis»

57
6. EjercicioV: «market basket analysis»6. EjercicioV: «market basket analysis»

Parte III
Representación de textos, R y LSA

59
Parte III: programaParte III: programa
1. Minería de textos: requisitos
2. Teoría: LSA
3. Ejercicio I: LSA en RapidMiner
4. R: presentación
5. Ejercicio II: LSA en R
6. Ejercicio III:Visualización en R

60
1. Mineria de textos: requisitos1. Mineria de textos: requisitos
• Buscar «text mining» en Google...
• Muchas informaciones en formato textual
• Estimacion: 80%-85% de datos en textos LN (lenguajes
naturales)
• Ejemplo en BioTech
• 80% del conocimiento in artículos científicos
• Humano: leer 60 artículos / semana ...!
• ... 10% son interesante... 6 semanas, 300/años
• MedLine: 10 000 articulos / mes !!!
• Chemical Abstract Registry: 4000 / dia, 2.5 miliones en
2004

61
dfdfdsafsdafdsafdsafdsCharacterizing Trajectories of Moving Objects
Mobile Medecine: Drug Information through NL SMS
Capture Relations in Biomedical Text
Texts for a Cognitive Vision System
Mapping Natural Language to Imagery
Automated Identification of LTL Patterns
Mapping NL to Imagery
Automation of Requirements Analysis
NL Interface for Crime-related Queries
Dependability Analysis in Industrial Use Cases
Web 2.0 and NLP
Animated Agent that Understand NL
Processing NL Requirements
Automatic Diagram Drawing
Automatic Construction of UML Diagrams
Automated Conceptual Data Modeling
Intelligent User Interfaces for Wikis
Integrating BPM and Governing Documents
Integrating Requirements and Model-Driven Engineering
Translation NL into Temporal and Dynamic Logic
Fact Extraction from Source Code
Finding Defects in NL Confidentiality Requirements
Extracting Causation Knowledge
Multilingual Understanding of Natural Business Rules
SMS Text Normalization
Text Mining for Clinical Medical Records
Event Model for Analysis of Verb Sense
Intelligent Decision Support System
User-Friendly Interface for Fingerprint Systems
Analyzing Gap between Workflows and NL Descriptions
000

62
• Classify news stories as World, US, Business, SciTech, Sports,
Entertainment, Health, Other
• Add MeSH terms to Medline abstracts
• e.g.“Conscious Sedation” [E03.250]
• Classify business names by industry.
• Classify student essays as A,B,C,D, or F.
• Classify email as Spam, Other.
• Classify email to tech staff as Mac,Windows, ..., Other.
• Classify pdf files as ResearchPaper, Other
• Classify documents as WrittenByReagan, GhostWritten
• Classify movie reviews as Favorable,Unfavorable,Neutral.
• Classify technical papers as Interesting, Uninteresting.

63
• Best-studied benchmark: Reuters-21578 newswire stories
• 9603 train, 3299 test documents, 80-100 words each, 93
classes
ARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONS
BUENOS AIRES, Feb 26
Argentine grain board figures show crop registrations of grains, oilseeds and their
products to February 11, in thousands of tonnes, showing those for future
shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in
brackets:
Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
Maize Mar 48.0, total 48.0 (nil).
Sorghum nil (nil)
Oilseed export registrations were:
Sunflowerseed total 15.0 (7.9)
Soybean May 20.0, total 20.0 (nil)
The board also detailed export registrations for subproducts, as follows....

64
Cual es la mejor representación
para un documento?
sencilla / útil

el gato gato gato gordoel gato gato gato gordo
el ... el gato gordo!el ... el gato gordo!
el gato gordo gordo gordo gordoel gato gordo gordo gordo gordo
A
B
C
1 1 3
1 2 1
4 1 1
gordo el gato
A
B
C
65

66
 Secuencias de caracteres
+ Nada de conocimiento de lingüística!
Consecuencia: herramientas muy sencillas para construir la
matriz
- Si quiere un poco de semántica, la representación es muy
débil
 N-grammes (unigrammes, bigrammes, trigrammes, …)
 Google (2006): corpus de n-grams
 Gratuito en 2006, 150$US en 2009
 Fichero txt: 24 Mo zip
 Number of tokens: 1,024,908,267,229
 Number of sentences: 95,119,665,584
 Number of unigrams: 13,588,391
 Number of bigrams: 314,843,401
 Number of trigrams: 977,069,902
 Number of fourgrams: 1,313,818,354
Atributos
25

67
 Palabras
 bag-of-words representation
 Herramientas necesarias: por lo menos un «tokenizer», mas un «lemmatizer»
 Expresiones regulares (*, ?, etc.)
 Secuencias de palabras (1, 2, 3...)
 Google (2006): corpus de n-grams
 Gratuito en 2006, 150$US en 2009
 Fichero txt: 24 Mo zip
 Number of tokens: 1,024,908,267,229
 Number of sentences: 95,119,665,584
 Number of unigrams: 13,588,391
 Number of bigrams: 314,843,401
 Number of trigrams: 977,069,902
 Number of fourgrams: 1,313,818,354
 Number of fivegrams: 1,176,470,663
26
Atributos

68
 Palabras que pertenece a una clase lexical en particular (ex. solamente los verbos,
solamente los nombres, etc.)
 Herramientas necesarias: POS-tagger
 Los tesauros y las taxonomías permiten establecer una relación entre las formas de misma
significación (sinónimos) o establecer una relación entre una forma de significación general y otra
mas especifica (hiperonimia?!!)
 Herramientas:WordNet, EuroWordNet
 Otra posibilidad: los «tags» colaborativos
30
Atributos

69
 Presencia/ausencia del termino
 Frecuencia del termino :TF(j)
 Frecuencia tri-valuada: 0, 1, 2
 Frecuencia TF-IDF(j) = TF(j) * IDF(j)
33
Valores
inverse document frequency

70
o Possibilités
o Tf-idf
o Similarité
Multimodal
N
df(m)
tfidf(m) = tf(m) * log
Nombre de documentos
Frecuencia de la palabra en el
documento
Nombre de documentos
contendiendo la palabra
34
La palabra (m) es mas
importante si aparece
muchas veces en un
documento.
La palabra (m) es
menos importante si
aparece en muchos
documentos
Valores

71
• Principal Component Analysis: buscar el mejor «plan» de proyección
(pasar de 1000 a 30 dimensiones p.e.)
• Latent Semantic Analysis: basado sobre SingularValue Decomposition
• U contiene los «eigen vectors» de A * A
• V contiene los «eigen vectors» de A * A
• S contiene las «singular values»
• Latent Dirichlet Allocation: descubierto de «topics»
• pLSA, etc.
Reduccion de la dimensionalidad / modelos de lenguaje
A = U * S * V
T
T
T
2. LSA2. LSA

72
• LSA transforma la matriz de ocurrencias en una "relación" entre los
términos y "conceptos" y una relación entre estos conceptos y de
los documentos.
A A
documentos términos
documentos
términos
T
A = U * S * V
T
U
A
A
documentos
términos
documentos
términos
TV
2. LSA2. LSA

73
distancia entre 2
documentos
distancia entre 2
«palabras»
2. LSA2. LSA

74
 Similaridad cosine
∑x1i x2i
Sim(D1, D2) =
∑xj
2
∑xk
2
35
2. LSA2. LSA

76
3. LSA con RapidMiner3. LSA con RapidMiner
bow.csv

77

78

79

80
4. R: Presentacion4. R: Presentacion

82
5. LSA con R5. LSA con R
dependencias:
Snowball
Rweka
Rjava
Rwekajar
Mas rapido de cargar
los archivos ZIP sobre
el sitio de R...

83
ad.csv("bow.csv", header=TRUE, sep=",")> X (para ver su con
Menu Archivo / Cambiar dir...
seleccionar el repertorio donde esta BOW.CSV
(ex. LSA Datasets)

84
> R = lsa(X, dims=dimcalc_share())> R (para ver
su contenido: $tk, $dk y $sk)
> U = R$tk> V = R$dk> S = R$sk
> Xmodif = as.textmatrix(R)
> cosine(Xmodif[,1], Xmodif[,2])>
cosine(Xmodif)

85
5.Visualización de LSA en R5.Visualización de LSA en R
read.csv("mots.csv", header=FALSE, sep=",")> mots
1], U[,2], col = "red")> textxy(U[,1], U[,2], t(mots), cx=0.5, d
1], V[,2], col = "blue")> textxy(V[,1], V[,2], 1:9, cx=0.5, dcol=

86
5.Visualización de LSA en R5.Visualización de LSA en R
U[,1], V[,1])> losY = append(U[,2], V[,2])> plot(losX, losY, co

88
Parte IV: programaParte IV: programa
1. «Text analytics» y minería de textos
2. GATE: presentación
3. Ejercicio I: documentos y corpus
4. Ejercicio II: Processing Resources
5. Ejercicio III:Applications
6. Ejercicio IV:Anotaciones y esquemas (patrones)

89
Natural Language Processing
NLP
Minería de textos
MT
IR
Busceda de information
(information retrieval)
Semantic Web
Web 2.0
Text Analytics
Analítica de
textos
1. «text analytics» y Minería de textos1. «text analytics» y Minería de textos

90
• Había una vez una serie de palabras
• T mey levtp t rk n.ə ŋə əγ ə ə
(Skorik 1961: 102)
Nociones
10
verbos
nombres
adjetivos
adverbios
pronombres
conjunción
determinantes
yo, tu, la, les, y, o, cual...
•part-of-speech: POS

91
• el libro, los libros
• canto, cantamos, cantan
• difícil, difícilmente
• instituto, institutor, institución, instituir
13
Nociones

92
ella
la mujer
la mujer muy grande
la mujer con los aquellos ojos verdes
la mujer con el cabello largo que me ha dado
un regalo
Nelson
los ninos
los estudiantes de la UTPL
el pequeno profesor con el pelo corto
la carta que me has dado
16
Nociones

93
• sintagmas nominales (noun phrase): NP
• sintagmas preposicionales (prepositional phrase): PP
• sintagmas verbales (verbal phrase):VP
• sintagmas adjetivas (adjectival phrase):AP
17
Nociones

94
• S  NPVP
• NP  Nprop
• NP  Det N
• NP  NP PP
• VP V NP
• VP VP PP
• PP  P NP
 N libro, castillo, parque,
cazador, mesa, gato,
pastel
 Nprop Marcelo
 V  come, caza, ve,
estrangula, pica,
construye
 P  en, sobre, detrás
 Det  el, un
18
Nociones
Marcelo estrangula un gato en el parque detrás el castillo

95
2. GATE: presentación2. GATE: presentación
resourcesresources
mensajes, anotations and
construccion de applicationes
mensajes, anotations and
construccion de applicationes

96

97

98

99
3. Ejercicio I: documentos y corpus3. Ejercicio I: documentos y corpus
1. carga y visualización documentos in GATE
2. navegación de los conjuntos de anotaciones y lista de
anotaciones.

100
1. nombre de archivos y de carpetas: sin espacio

101

102
3. Ejercicio 1: documentos y corpus3. Ejercicio 1: documentos y corpus
corpus_1

103
3. Ejercicio 1: documentos y corpus3. Ejercicio 1: documentos y corpus

104
4. Ejercicio II: Processing Resources4. Ejercicio II: Processing Resources

105

106

107

108
5. Ejercicio III:Aplicaciones5. Ejercicio III:Aplicaciones

109

110
MyTokens
MySentences
MyTokens

111

112
6. Ejercicio IV:Anotaciones y esquemas (patrones)6. Ejercicio IV:Anotaciones y esquemas (patrones)

113

114

115

116

Conclusión y discusión
Donde vamos ahora?

I summit utpl-taller

Recomendados

Recomendados

Más contenido relacionado

Similar a I summit utpl-taller

Similar a I summit utpl-taller (20)

Más de eccutpl

Más de eccutpl (20)

Último

Último (20)

I summit utpl-taller

Notas del editor