SlideShare ist ein Scribd-Unternehmen logo
1 von 42
Downloaden Sie, um offline zu lesen
1 / 42
¿Por qué preocuparse por
mejorar la calidad de los datos?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/
2 / 42
La calidad, ¿te hace feliz?
3 / 42
Si usamos basura,
obtendremos basura
La respuesta es 324.¿Cuál es el secreto de la felicidad?
4 / 42
Datos apropiados para
cada propósito
Mañana hay previsión de
sol en Barcelona
¿Qué tiempo hará
mañana en Barcelona?
5 / 42
Cada segundo, se generan en
Internet 50TB de datos
6 / 42
Y sumando...
●
18 productos vendidos en Amazon
●
823 imágenes subidas en Instagram
●
2937 llamadas en Skype
●
7890 mensajes nuevos en Twitter
●
12500 canciones reproducidas en Spotify
●
64619 búsquedas en Google
●
72226 vídeos reproducidos en Youtube
7 / 42
Sumando datos erróneos
8 / 42
Incluso con autocorrector
9 / 42
¿Cuáles son los problemas
más comunes?
10 / 42
Inexactitud
Grado en el que un dato se corresponde
con la realidad o en unos valores
aceptables
11 / 42
12 / 42
¿Lo hacen a propósito o usan
malos instrumentos?
Es preciso
pero inexacto
Ni preciso
ni exacto
Es exacto
pero impreciso
Es exacto
y preciso
13 / 42
Inconsistencia
Grado en el que un dato podría ser
contradictorio o incoherente
14 / 42
Una pregunta rápida: ¿Cómo
defines el open rate de un
email?
Para responder:
●
Abre https://slido.com
●
Introduce el event code: A388
●
Join y contesta la pregunta.
15 / 42
Faltan datos: datos incompletos
o pérdida de datos
Grado en el que están todos los datos
que deberían estar
16 / 42
¿Qué zonas del avión
deberíamos reforzar?
17 / 42
Datos sin actualizar
Aunque necesitemos datos del día anterior,
hay datos de los que sólo dispondremos
pasados unos días.
18 / 42
Poca confianza en los datos
¿Se puede confiar en los datos mostrados?
19 / 42
Si un registro está duplicado,
¿cuál es el bueno?
20 / 42
¿Por qué ocurren estos
problemas?
21 / 42
No conocemos los datos
¿Qué qué significan los datos?
¿Significan otra cosa de la esperada?
●
Suele ser señal de que la estructura es
demasiado compleja
22 / 42
En fuentes de datos de
terceros, pueden cambiar la
definición de los datos
An improvement to our data
collection was applied from 1/1/16
23 / 42
Variedad de las fuentes
¿Cuántas fuentes de datos se integran?
●
Cuando se trata de integrar datos de una
gran variedad de fuentes de datos, es
necesario un gran esfuerzo previo de
modelización antes de poder limpiar y cruzar
la información de forma adecuada
24 / 42
¿Cuántos pedidos hubo el
último mes?
No es lo mismo lo que diga el CMS que lo que
diga Google Analytics.
●
En este caso, una rectificación del pedido era
un nuevo pedido para el CMS y no para
Google Analytics
25 / 42
Errores del sistema
Caídas de servidores, funcionamiento
anómalo, datos que han quedado huérfanos
o duplicados, etc.
26 / 42
¿Y que podemos hacer para
mejorar la calidad de los
datos?
27 / 42
Para mejorar algo, primero
hay que medirlo
●
Extrae los últimos 100 registros creados o editados
en una hoja de cálculo. Deja sólo los 10-15 campos
críticos de cada registro.
●
Reúnete 1h-2h con 2-3 personas más que conozcan
los datos.
●
Registro por registro, se marcan los errores evidentes
en rojo. (Ej: Un nombre mal escrito, columna
incorrecta, formatos incorrectos, valores fuera de
rango, datos falsos para evadir un control, etc)
●
¿El registro esta completamente correcto? SI/NO
●
El KPI será el porcentaje de registros completamente
correctos
28 / 42
Calcula tu propio KPI de
gestión de calidad de datos
29 / 42
Una vez ya se ha usado el
dato erróneo
Ya está hecho el daño
Puede implicar:
●
Haber tomado decisiones en base a datos
incorrectos.
●
Pérdidas de tiempo.
●
Devoluciones de pedidos.
●
Instatisfacción o incluso pérdida del cliente.
●
etc
30 / 42
Arreglar la mala calidad de
los datos
Un «cortafuegos» para reducir el riesgo
de que se produzcan incidencias
●
Reglas automáticas para limpiar, deduplicar,
etc
●
Equipo de validación y corrección de
possibles errores detectados via Inteligencia
Artificial o modelos probabilísticos
31 / 42
Prevención de errores en la
introducción de datos
Son la mayor fuente de datos erróneos
●
Por ejemplo, por errores tipográficos o por
equivocaciones al transcribir desde el
teléfono o copiar del papel
32 / 42
Una opción, campos de
confirmación
33 / 42
Otra opción, sugerencias
34 / 42
Priorizemos la prevención
35 / 42
1. Inventariado de los datos, acordar
definiciones y requerimientos
2. Identifica las causas de la mala
calidad de los datos
3. Diseña, desarrolla y ejecuta los
procesos de mejora de calidad
(limpieza, homologación,
enriquecido...)
4. Monitoriza el progreso en la mejora
de la calidad de los datos
36 / 42
Air France-KLM corrige más de 1
millón de registros cada mes
●
Emails y teléfonos de los pasajeros
●
Reconciliación de fuentes online y offline
●
Recopilado y procesado de datos personales
desde multiples fuentes para programas de
fidelidad
●
Hacer anónima información sensible para
aquellos que no tengan acceso autorizado
37 / 42
Save The Children UK mejorando la
calidad de los datos mejora la
comunicación con sus socios y
donantes
●
Desduplicación de las importaciones de
donaciones realizadas para evitar envíos
multiples al mismo socio.
●
Relacionar adecuadamente los datos de
donantes y de socios.
●
Poder unificar cartas postales para los
habitantes de un mismo piso
38 / 42
Travis Perkins mejorando la calidad
del catálogo de productos de su sitio
web mejoró la conversión un 30%
●
La información de producto no era
consistente (distintos proveedores)
●
Se realizó un proceso para estanderizar
datos, campos y valores ya que aunque
hubiera un equipo no llegaba a todo
●
Detección probailística de duplicados y uso
de barcodes
●
Todo ello, resultó en un sitio web con
información de producto más precisa y
consistente
39 / 42
Amazon mejora de la calidad de los
datos de su buscador para convertir
el doble que sus competidores
40 / 42
¿Y qué conseguimos mejorando la
calidad de los datos?
41 / 42
Que los datos sean un
activo para el negocio
●
Tener un visión única de los datos.
●
Enriquecidos desde distintas fuentes de datos
de forma controlada.
●
Ser operativamente solventes, para poder
ofrecer datos completos y consistentes
●
Trabajar estratégicamente, consiguiendo
unos datos valiosos para su función.
●
Cumplimiento normativo (Multas de 2% de
facturación).
42 / 42
¡Gracias! ¿Preguntas?
Jordi Rosell (@jrosell)
CTO en The ducks in a row
jordi@thediar.com
https://www.thediar.com/

Weitere ähnliche Inhalte

Ähnlich wie ¿Por qué preocuparse por mejorar la calidad de los datos?

éXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un SistemaéXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un Sistemaguest6948f9c
 
Trabajo empresarial
Trabajo empresarialTrabajo empresarial
Trabajo empresarialflorlisbeth
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimientonoriarman
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdfNathalLpez
 
Sistemas de Información
Sistemas de Información Sistemas de Información
Sistemas de Información Ana Castañeda
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8John Bulla
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimientonoriarman
 
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Ramón Hernández
 
Creando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónCreando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónRamón Hernández
 
Data integration
Data integrationData integration
Data integrationPowerData
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfNubiral
 
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...UNIVERSIDAD MAGISTER (Sitio Oficial)
 
[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG ArgentinaCodealike
 
Ponencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMPonencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMData Quality Team SL
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosAlex Rayón Jerez
 
Administración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónAdministración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónDanny Carolina Medina
 
Big Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEBig Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEOpenBigDataManagement
 

Ähnlich wie ¿Por qué preocuparse por mejorar la calidad de los datos? (20)

éXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un SistemaéXitos Y Fracasos De Un Sistema
éXitos Y Fracasos De Un Sistema
 
Trabajo empresarial
Trabajo empresarialTrabajo empresarial
Trabajo empresarial
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimiento
 
Data pipeline
Data pipelineData pipeline
Data pipeline
 
2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf2021 09 22 Calidad Datos V1.1.pdf
2021 09 22 Calidad Datos V1.1.pdf
 
IN Unidad 3: Minería de datos
IN Unidad 3: Minería de datosIN Unidad 3: Minería de datos
IN Unidad 3: Minería de datos
 
Sistemas de Información
Sistemas de Información Sistemas de Información
Sistemas de Información
 
Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8Diplomado Técnico SQL Server 2012 - Sesión 4/8
Diplomado Técnico SQL Server 2012 - Sesión 4/8
 
Entregable 6 auditoria de bases de datos - rendimiento
Entregable 6   auditoria de bases de datos - rendimientoEntregable 6   auditoria de bases de datos - rendimiento
Entregable 6 auditoria de bases de datos - rendimiento
 
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
Reseña del Libro "El Valor Del Dato. La brújula para gestionar tus datos como...
 
Creando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organizaciónCreando la estrategia de gestión de datos para tu organización
Creando la estrategia de gestión de datos para tu organización
 
Data integration
Data integrationData integration
Data integration
 
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdfeBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
eBook Nubiral _ DataOps_ cada cual atiende su juego (1).pdf
 
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
Análisis del Sistema de Administración Académica de Guardería y Kinder Santa ...
 
Analisis ups
Analisis upsAnalisis ups
Analisis ups
 
[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina[SPANISH ]Codealike en MUG Argentina
[SPANISH ]Codealike en MUG Argentina
 
Ponencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSMPonencia Ismael Caballero desayuno AFSM
Ponencia Ismael Caballero desayuno AFSM
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
 
Administración de proyectos de sistemas de información
Administración de proyectos de sistemas de informaciónAdministración de proyectos de sistemas de información
Administración de proyectos de sistemas de información
 
Big Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYMEBig Data para procesos. De TV3 a cualquier PYME
Big Data para procesos. De TV3 a cualquier PYME
 

Mehr von Jordi Rosell

Optimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceOptimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceJordi Rosell
 
Marketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROMarketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROJordi Rosell
 
Reporting para la accionabilidad
Reporting para la accionabilidadReporting para la accionabilidad
Reporting para la accionabilidadJordi Rosell
 
Aprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceAprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceJordi Rosell
 
Happy product pages
Happy product pagesHappy product pages
Happy product pagesJordi Rosell
 
Elección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceElección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceJordi Rosell
 
Páginas aterrizaje que convierten
Páginas aterrizaje que conviertenPáginas aterrizaje que convierten
Páginas aterrizaje que conviertenJordi Rosell
 
Optimizar la conversión en Magento
Optimizar la conversión en MagentoOptimizar la conversión en Magento
Optimizar la conversión en MagentoJordi Rosell
 
Optimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcOptimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcJordi Rosell
 
Web Performance para Magento
Web Performance para MagentoWeb Performance para Magento
Web Performance para MagentoJordi Rosell
 
Desenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitDesenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitJordi Rosell
 

Mehr von Jordi Rosell (12)

Full stack R
Full stack RFull stack R
Full stack R
 
Optimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerceOptimización de la conversión de un e-commerce
Optimización de la conversión de un e-commerce
 
Marketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CROMarketineo Bilbao 2019: Proyectos CRO
Marketineo Bilbao 2019: Proyectos CRO
 
Reporting para la accionabilidad
Reporting para la accionabilidadReporting para la accionabilidad
Reporting para la accionabilidad
 
Aprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerceAprendiendo de una #cagadaEcommerce
Aprendiendo de una #cagadaEcommerce
 
Happy product pages
Happy product pagesHappy product pages
Happy product pages
 
Elección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerceElección de Magento como plataforma E-commerce
Elección de Magento como plataforma E-commerce
 
Páginas aterrizaje que convierten
Páginas aterrizaje que conviertenPáginas aterrizaje que convierten
Páginas aterrizaje que convierten
 
Optimizar la conversión en Magento
Optimizar la conversión en MagentoOptimizar la conversión en Magento
Optimizar la conversión en Magento
 
Optimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwcOptimización de la Conversión #einnovamwc
Optimización de la Conversión #einnovamwc
 
Web Performance para Magento
Web Performance para MagentoWeb Performance para Magento
Web Performance para Magento
 
Desenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxitDesenvolupar una botiga online amb èxit
Desenvolupar una botiga online amb èxit
 

Kürzlich hochgeladen

PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxCarolina Bujaico
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nóminacuellosameidy
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y maslida630411
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaYeimys Ch
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS
 

Kürzlich hochgeladen (20)

El camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVPEl camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVP
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Clasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptxClasificación de Conjuntos de Datos Desequilibrados.pptx
Clasificación de Conjuntos de Datos Desequilibrados.pptx
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
Nomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de NóminaNomisam: Base de Datos para Gestión de Nómina
Nomisam: Base de Datos para Gestión de Nómina
 
PROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y masPROYECCIÓN DE VISTAS planos de vistas y mas
PROYECCIÓN DE VISTAS planos de vistas y mas
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guiaORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
ORIENTACIONES DE INFORMÁTICA-2024.pdf-guia
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptx
 

¿Por qué preocuparse por mejorar la calidad de los datos?

  • 1. 1 / 42 ¿Por qué preocuparse por mejorar la calidad de los datos? Jordi Rosell (@jrosell) CTO en The ducks in a row jordi@thediar.com https://www.thediar.com/
  • 2. 2 / 42 La calidad, ¿te hace feliz?
  • 3. 3 / 42 Si usamos basura, obtendremos basura La respuesta es 324.¿Cuál es el secreto de la felicidad?
  • 4. 4 / 42 Datos apropiados para cada propósito Mañana hay previsión de sol en Barcelona ¿Qué tiempo hará mañana en Barcelona?
  • 5. 5 / 42 Cada segundo, se generan en Internet 50TB de datos
  • 6. 6 / 42 Y sumando... ● 18 productos vendidos en Amazon ● 823 imágenes subidas en Instagram ● 2937 llamadas en Skype ● 7890 mensajes nuevos en Twitter ● 12500 canciones reproducidas en Spotify ● 64619 búsquedas en Google ● 72226 vídeos reproducidos en Youtube
  • 7. 7 / 42 Sumando datos erróneos
  • 8. 8 / 42 Incluso con autocorrector
  • 9. 9 / 42 ¿Cuáles son los problemas más comunes?
  • 10. 10 / 42 Inexactitud Grado en el que un dato se corresponde con la realidad o en unos valores aceptables
  • 12. 12 / 42 ¿Lo hacen a propósito o usan malos instrumentos? Es preciso pero inexacto Ni preciso ni exacto Es exacto pero impreciso Es exacto y preciso
  • 13. 13 / 42 Inconsistencia Grado en el que un dato podría ser contradictorio o incoherente
  • 14. 14 / 42 Una pregunta rápida: ¿Cómo defines el open rate de un email? Para responder: ● Abre https://slido.com ● Introduce el event code: A388 ● Join y contesta la pregunta.
  • 15. 15 / 42 Faltan datos: datos incompletos o pérdida de datos Grado en el que están todos los datos que deberían estar
  • 16. 16 / 42 ¿Qué zonas del avión deberíamos reforzar?
  • 17. 17 / 42 Datos sin actualizar Aunque necesitemos datos del día anterior, hay datos de los que sólo dispondremos pasados unos días.
  • 18. 18 / 42 Poca confianza en los datos ¿Se puede confiar en los datos mostrados?
  • 19. 19 / 42 Si un registro está duplicado, ¿cuál es el bueno?
  • 20. 20 / 42 ¿Por qué ocurren estos problemas?
  • 21. 21 / 42 No conocemos los datos ¿Qué qué significan los datos? ¿Significan otra cosa de la esperada? ● Suele ser señal de que la estructura es demasiado compleja
  • 22. 22 / 42 En fuentes de datos de terceros, pueden cambiar la definición de los datos An improvement to our data collection was applied from 1/1/16
  • 23. 23 / 42 Variedad de las fuentes ¿Cuántas fuentes de datos se integran? ● Cuando se trata de integrar datos de una gran variedad de fuentes de datos, es necesario un gran esfuerzo previo de modelización antes de poder limpiar y cruzar la información de forma adecuada
  • 24. 24 / 42 ¿Cuántos pedidos hubo el último mes? No es lo mismo lo que diga el CMS que lo que diga Google Analytics. ● En este caso, una rectificación del pedido era un nuevo pedido para el CMS y no para Google Analytics
  • 25. 25 / 42 Errores del sistema Caídas de servidores, funcionamiento anómalo, datos que han quedado huérfanos o duplicados, etc.
  • 26. 26 / 42 ¿Y que podemos hacer para mejorar la calidad de los datos?
  • 27. 27 / 42 Para mejorar algo, primero hay que medirlo ● Extrae los últimos 100 registros creados o editados en una hoja de cálculo. Deja sólo los 10-15 campos críticos de cada registro. ● Reúnete 1h-2h con 2-3 personas más que conozcan los datos. ● Registro por registro, se marcan los errores evidentes en rojo. (Ej: Un nombre mal escrito, columna incorrecta, formatos incorrectos, valores fuera de rango, datos falsos para evadir un control, etc) ● ¿El registro esta completamente correcto? SI/NO ● El KPI será el porcentaje de registros completamente correctos
  • 28. 28 / 42 Calcula tu propio KPI de gestión de calidad de datos
  • 29. 29 / 42 Una vez ya se ha usado el dato erróneo Ya está hecho el daño Puede implicar: ● Haber tomado decisiones en base a datos incorrectos. ● Pérdidas de tiempo. ● Devoluciones de pedidos. ● Instatisfacción o incluso pérdida del cliente. ● etc
  • 30. 30 / 42 Arreglar la mala calidad de los datos Un «cortafuegos» para reducir el riesgo de que se produzcan incidencias ● Reglas automáticas para limpiar, deduplicar, etc ● Equipo de validación y corrección de possibles errores detectados via Inteligencia Artificial o modelos probabilísticos
  • 31. 31 / 42 Prevención de errores en la introducción de datos Son la mayor fuente de datos erróneos ● Por ejemplo, por errores tipográficos o por equivocaciones al transcribir desde el teléfono o copiar del papel
  • 32. 32 / 42 Una opción, campos de confirmación
  • 33. 33 / 42 Otra opción, sugerencias
  • 34. 34 / 42 Priorizemos la prevención
  • 35. 35 / 42 1. Inventariado de los datos, acordar definiciones y requerimientos 2. Identifica las causas de la mala calidad de los datos 3. Diseña, desarrolla y ejecuta los procesos de mejora de calidad (limpieza, homologación, enriquecido...) 4. Monitoriza el progreso en la mejora de la calidad de los datos
  • 36. 36 / 42 Air France-KLM corrige más de 1 millón de registros cada mes ● Emails y teléfonos de los pasajeros ● Reconciliación de fuentes online y offline ● Recopilado y procesado de datos personales desde multiples fuentes para programas de fidelidad ● Hacer anónima información sensible para aquellos que no tengan acceso autorizado
  • 37. 37 / 42 Save The Children UK mejorando la calidad de los datos mejora la comunicación con sus socios y donantes ● Desduplicación de las importaciones de donaciones realizadas para evitar envíos multiples al mismo socio. ● Relacionar adecuadamente los datos de donantes y de socios. ● Poder unificar cartas postales para los habitantes de un mismo piso
  • 38. 38 / 42 Travis Perkins mejorando la calidad del catálogo de productos de su sitio web mejoró la conversión un 30% ● La información de producto no era consistente (distintos proveedores) ● Se realizó un proceso para estanderizar datos, campos y valores ya que aunque hubiera un equipo no llegaba a todo ● Detección probailística de duplicados y uso de barcodes ● Todo ello, resultó en un sitio web con información de producto más precisa y consistente
  • 39. 39 / 42 Amazon mejora de la calidad de los datos de su buscador para convertir el doble que sus competidores
  • 40. 40 / 42 ¿Y qué conseguimos mejorando la calidad de los datos?
  • 41. 41 / 42 Que los datos sean un activo para el negocio ● Tener un visión única de los datos. ● Enriquecidos desde distintas fuentes de datos de forma controlada. ● Ser operativamente solventes, para poder ofrecer datos completos y consistentes ● Trabajar estratégicamente, consiguiendo unos datos valiosos para su función. ● Cumplimiento normativo (Multas de 2% de facturación).
  • 42. 42 / 42 ¡Gracias! ¿Preguntas? Jordi Rosell (@jrosell) CTO en The ducks in a row jordi@thediar.com https://www.thediar.com/