En la medida en que el volumen total de datos continúe aumentando, el volumen de datos erróneos también aumentará si no se hace nada al respecto. La mala calidad de los datos afecta negativamente a las empresas. La buena calidad de los datos es un activo estratégico, que puede ser una ventaja competitiva. Veremos por qué es importante preocuparse por la calidad de los datos, los problemas más comunes y lo que podemos hacer para resolverlos.
¿Por qué preocuparse por mejorar la calidad de los datos?
1. 1 / 42
¿Por qué preocuparse por
mejorar la calidad de los datos?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/
12. 12 / 42
¿Lo hacen a propósito o usan
malos instrumentos?
Es preciso
pero inexacto
Ni preciso
ni exacto
Es exacto
pero impreciso
Es exacto
y preciso
14. 14 / 42
Una pregunta rápida: ¿Cómo
defines el open rate de un
email?
Para responder:
●
Abre https://slido.com
●
Introduce el event code: A388
●
Join y contesta la pregunta.
15. 15 / 42
Faltan datos: datos incompletos
o pérdida de datos
Grado en el que están todos los datos
que deberían estar
16. 16 / 42
¿Qué zonas del avión
deberíamos reforzar?
17. 17 / 42
Datos sin actualizar
Aunque necesitemos datos del día anterior,
hay datos de los que sólo dispondremos
pasados unos días.
18. 18 / 42
Poca confianza en los datos
¿Se puede confiar en los datos mostrados?
19. 19 / 42
Si un registro está duplicado,
¿cuál es el bueno?
21. 21 / 42
No conocemos los datos
¿Qué qué significan los datos?
¿Significan otra cosa de la esperada?
●
Suele ser señal de que la estructura es
demasiado compleja
22. 22 / 42
En fuentes de datos de
terceros, pueden cambiar la
definición de los datos
An improvement to our data
collection was applied from 1/1/16
23. 23 / 42
Variedad de las fuentes
¿Cuántas fuentes de datos se integran?
●
Cuando se trata de integrar datos de una
gran variedad de fuentes de datos, es
necesario un gran esfuerzo previo de
modelización antes de poder limpiar y cruzar
la información de forma adecuada
24. 24 / 42
¿Cuántos pedidos hubo el
último mes?
No es lo mismo lo que diga el CMS que lo que
diga Google Analytics.
●
En este caso, una rectificación del pedido era
un nuevo pedido para el CMS y no para
Google Analytics
25. 25 / 42
Errores del sistema
Caídas de servidores, funcionamiento
anómalo, datos que han quedado huérfanos
o duplicados, etc.
26. 26 / 42
¿Y que podemos hacer para
mejorar la calidad de los
datos?
27. 27 / 42
Para mejorar algo, primero
hay que medirlo
●
Extrae los últimos 100 registros creados o editados
en una hoja de cálculo. Deja sólo los 10-15 campos
críticos de cada registro.
●
Reúnete 1h-2h con 2-3 personas más que conozcan
los datos.
●
Registro por registro, se marcan los errores evidentes
en rojo. (Ej: Un nombre mal escrito, columna
incorrecta, formatos incorrectos, valores fuera de
rango, datos falsos para evadir un control, etc)
●
¿El registro esta completamente correcto? SI/NO
●
El KPI será el porcentaje de registros completamente
correctos
28. 28 / 42
Calcula tu propio KPI de
gestión de calidad de datos
29. 29 / 42
Una vez ya se ha usado el
dato erróneo
Ya está hecho el daño
Puede implicar:
●
Haber tomado decisiones en base a datos
incorrectos.
●
Pérdidas de tiempo.
●
Devoluciones de pedidos.
●
Instatisfacción o incluso pérdida del cliente.
●
etc
30. 30 / 42
Arreglar la mala calidad de
los datos
Un «cortafuegos» para reducir el riesgo
de que se produzcan incidencias
●
Reglas automáticas para limpiar, deduplicar,
etc
●
Equipo de validación y corrección de
possibles errores detectados via Inteligencia
Artificial o modelos probabilísticos
31. 31 / 42
Prevención de errores en la
introducción de datos
Son la mayor fuente de datos erróneos
●
Por ejemplo, por errores tipográficos o por
equivocaciones al transcribir desde el
teléfono o copiar del papel
35. 35 / 42
1. Inventariado de los datos, acordar
definiciones y requerimientos
2. Identifica las causas de la mala
calidad de los datos
3. Diseña, desarrolla y ejecuta los
procesos de mejora de calidad
(limpieza, homologación,
enriquecido...)
4. Monitoriza el progreso en la mejora
de la calidad de los datos
36. 36 / 42
Air France-KLM corrige más de 1
millón de registros cada mes
●
Emails y teléfonos de los pasajeros
●
Reconciliación de fuentes online y offline
●
Recopilado y procesado de datos personales
desde multiples fuentes para programas de
fidelidad
●
Hacer anónima información sensible para
aquellos que no tengan acceso autorizado
37. 37 / 42
Save The Children UK mejorando la
calidad de los datos mejora la
comunicación con sus socios y
donantes
●
Desduplicación de las importaciones de
donaciones realizadas para evitar envíos
multiples al mismo socio.
●
Relacionar adecuadamente los datos de
donantes y de socios.
●
Poder unificar cartas postales para los
habitantes de un mismo piso
38. 38 / 42
Travis Perkins mejorando la calidad
del catálogo de productos de su sitio
web mejoró la conversión un 30%
●
La información de producto no era
consistente (distintos proveedores)
●
Se realizó un proceso para estanderizar
datos, campos y valores ya que aunque
hubiera un equipo no llegaba a todo
●
Detección probailística de duplicados y uso
de barcodes
●
Todo ello, resultó en un sitio web con
información de producto más precisa y
consistente
39. 39 / 42
Amazon mejora de la calidad de los
datos de su buscador para convertir
el doble que sus competidores
40. 40 / 42
¿Y qué conseguimos mejorando la
calidad de los datos?
41. 41 / 42
Que los datos sean un
activo para el negocio
●
Tener un visión única de los datos.
●
Enriquecidos desde distintas fuentes de datos
de forma controlada.
●
Ser operativamente solventes, para poder
ofrecer datos completos y consistentes
●
Trabajar estratégicamente, consiguiendo
unos datos valiosos para su función.
●
Cumplimiento normativo (Multas de 2% de
facturación).
42. 42 / 42
¡Gracias! ¿Preguntas?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/