1. Nuevas tendencias en
detección de fraudes
Big Data Analytics para auditores
Charla impartida durante la Conferencia Latinoamericana 2014 de ISACA
www.bdatascience.com
2. Jorge Pérez Colín
Diseño y Arte por
Computadora
Emprendedor
Academia Profesional
Value Sight
3. Mi primera aproximación analítica al churn
El Financiero Excelsior El Sol de Puebla
Churn 0.05 0.1 0.1
Participación
15 25 60
inicial (P0)
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 3
Paticipación
final (P48)
66 10 24
Supuestos:
1. El número de suscriptores es constante
2. Las suscripciones perdidas por un periódico son absorbidas por los otros dos
en proporción a su participación de mercado
4. Apliquemos analítica al negocio de las suscripciones
¿Qué más les gustaría saber para incrementar el índice de
renovaciones?
¿Cómo sacarían esa información?
¿Qué harían con lo descubierto?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 4
5. ¿Puede el área de auditoría capitalizar el
modelo predictivo de renovación?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 5
7. Big Data no tiene sentido sin analytics
Big Data entendido como la posibilidad
de contar con grandes volúmenes de
información brinda la posibilidad de
descubrir patrones que pueden ser
aprovechados en beneficio del negocio.
Una abundancia de información genera
una escasez de atención o de enfoque o,
simplemente, saber por dónde empezar.
CRISP-DM es una de las metodologías más
utilizadas en minería de datos pero sobre
todo en business analytics para usar
eficientemente esta nuevo activo (Big
Data).
Gap Analítico
Competing on Analytics
Datos
Disponibles
Capacidad
de Análisis
Capacidad
de Ejecución
Gap de
Ejecución
Big Data Era
2020
1980 1990 2000 2010
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 7
8. Antes de Big Data es Business Analytics
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 8
9. Objetivo y temas a tratar
Esta sesión tiene como objetivo explicar a grandes rasgos lo que la analítica
predictiva, desde el punto de vista de Big Data Analytics es, pero sobre
conocer cómo afrontar el reto analítico a través del uso de la metodología
Cross Industry Standard Process for Data Mining (CRISP-DM) en el contexto
de Big Data.
Temas:
• Diferencia entre Business Intelligence y Business Analytics
• Cross Industry Standard Process for Data Mining (CRISP-DM) en sus seis fases
• Ley de Benford
Nota aclaratoria de la sesión: El tema Big Data Analytics toca al margen los
temas de auditoria, materia de este evento, pero presenta una serie de
herramentales que serán cada vez más útiles esa función.
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 9
10. Diferencia entre Business Intelligence y Business Analytics
Business Analytics (y es el sentido
que le damos aquí a Big Data
Analytics) se refiere a las
habilidades, tecnologías y
prácticas para la exploración e
investigación del desempeño
pasado de la empresa para ganar
conocimiento y conducir la
planeación y ejecución del
negocio. BA se enfoca en
desarrollar nuevos aprendizajes y
entendimiento del negocio basado
en los datos, métodos estadísticos y
de optimización.
En contraste, Business Intelligence
tradicionalmente se enfoca en usar
un conjunto consistente de
métricas para al mismo tiempo
medir el desempeño pasado y
guiar la planeación del negocio.
Business
Intelligence
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 10
11. Software de BI y de BA
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 11
BI
Software:
• Business Objects (SAP), Hypheron (Oracle),
Cognos (IBM), Qlickview (Qliktech),
MicroStrategy, Tibco, Tableau
Software/hardware (appliances—good
for Big Data)
• Netezza (IBM)
• Greenplum (EMC)
• DataAllegro (Microsoft)
• Teradata
BI en la nube (for Big Data Too)
• AWS (Amazon)
• Pivotal (EMC+Vmware)
BA
Estadística
• SPSS Modeler (IBM)
• SAS
• R (software libre)
Optimización
• AIMSS (Paragon)
• Lingo
• Mathematica (Wolfram)
… (hasta Excel)
12. ¿Cuál sería, es, o debe ser la aproximación de
auditoría en términos de BI o BA?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 12
13. Cross Industry Standard Process for Data Mining (CRISP-DM)
Concebido en1996:
•DaimlerChrysler
•SPSS
•NCR
En ese tiempo empieza el auge por la
minería de datos, Un modelo de
proceso estándar para cualquier
industria, no propietario y gratuito,
cumpliría con el propósito.
Un año después se crea un consorcio
para desarrollar este proceso estándar
quien en 2 años y medio se dedicaron
a desarrollar y refinar lo que hoy en día
es el CRISP-DM.
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 13
14. Antes de entender los datos debemos de entender el negocio
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 14
ENTENDIMIENTO DEL NEGOCIO
¿Para quién producimos valor?
¿Cuál es nuestra propuesta de valor?
¿Cómo la entregamos?
¿Cómo la creamos?
15. Si no sabes cuál es la pregunta no tiene caso preocuparte por el Big Data
No sé cuál es la pregunta
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 15
16. Antes de la respuesta necesitamos la pregunta
No poner el caballo detrás de la
carreta
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 16
17. Lienzo de Osterwalder: Una herramienta para entender el negocio
El lienzo (canvas) del modelo de
negocio de Osterwalder es una
plantilla de gestión estratégica
para desarrollar o documentar
modelos de negocio.
Es un apoyo visual con elementos
que describen la propuesta de
valor de la empresa, los clientes,
las operaciones y las finanzas.
Esta herramienta ayuda a las
organizaciones a alinear sus
recursos, actividades y gente
ilustrando potenciales
desventajas.
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 17
18. Modelo de Negocio Modelo de Negocio de…
Aliados clave Actividades clave Relaciones con el
cliente
Segmentos de
clientes
Propuesta de valor
Recursos clave Canales
Estructura de costos Fuentes de ingreso
Business Model Canvas de Alexander Osterwalder
18
19. Generación de hipótesis
No existe tal cosa como el discovery puro...
la hipótesis establece una respuesta a contrastar.
Documentación de hipótesis
• ¿Quién la emite?
• ¿Cómo se priorizan?
• ¿Qué datos necesitamos para contrastarlas?
19
20. Ejercicio
Escojan un tipo de fraude
¿En qué industria?
¿Por qué es un fraude?
¿Cómo de doy cuenta que existe?
¿Qué hipótesis tengo al respecto?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 20
21. ¿Qué datos necesito para contrastar las
hipótesis?
¿Existen?
¿Cómo obtenerlos?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 21
22. Fraude bancario
El banco experimentaba una incidencia de fraudes que acumulaban una pérdida
relevante de recursos, estimada en más de $N millones al año.
El banco había realizado inversiones significativas en herramientas y procesos para la
detección y prevención de fraudes principalmente tecnológicos; sin embargo, estos
sistemas estaban centrados en la reacción inmediata a patrones transaccionales
predeterminados, y no incorporaban otras fuentes de información interna y externa que
permitían descubrir y detectar de manera temprana fraudes no tipificados previamente.
Esto era especialmente relevante en los tipos de fraude presenciales, como la
suplantación de identidad y el robo de tarjetas de débito, que habían tenido un
incremento del i% durante el año anterior, y en donde la falta de integración de otras
fuentes de información no permite contrastar otras hipótesis que pudieran ser relevantes
para esta problemática.
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 22
23. Entendimiento de negocio en el caso de fraude bancario
1.Entrevistas a tomadores de decisiones relevantes para entendimiento del
reto de negocio, recopilación del expertise directivo, integración y
generación de hipótesis
2.Identificación de variables requeridas para el análisis y evaluación de su
disponibilidad
3.Normalización estadística y construcción de baseline de incidencia de
fraudes
4.Revisión de procesos de generación de hipótesis, y bases de
conocimiento y aprendizaje relacionadas con la generación de hipótesis
5.Construcción conjunta de nuevas hipótesis relacionadas con la incidencia
del fraude
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 23
Actividades
Entendimiento de negocio
Generación de
preguntas
24. Entendimiento del negocio
1.Identificación de procesos analíticos y operativos relacionados con al
incidencia de fraudes
2.Seguimiento y documentación de los procesos identificados, incluyendo
responsables, información, clientes internos
3.Recopilación de la información y documentos utilizados y generados
durante los procesos
4.Escucha sistemática de llamadas de call center para procesos
identificados
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 24
Actividades
25. ETENDIMIENTO DE LOS DATOS
¿Existen los datos?
¿Dónde están?
¿Necesito más datos?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 25
26. Sé cuál es la pregunta
Sé la pregunta,
pero no sé que datos necesito para contestarla
Sé que datos necesito,
pero no sé donde encontrarlos
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 26
27. Tipos y fuentes de datos
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 27 27
No
estructurado
Investigación cuantitativa
Investigación cualitativa
Infraestructura
Fotografías
Grabaciones
Media
Social media
Estructurado
ERP/xRM/eCommerce
Service Desk
WMS/TMS
INEGI
Sistema Meteorológico Nacional
Cámaras y Asociaciones
Interno Externo
28. Ejemplo de fuentes de información para un modelo de localización
predictiva
Punto de Venta
Contexto
Infraestructura
Encuestas de
satisfacción
¡Más de 4,500
variables!
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 28
29. Con nueva fuente
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 29
Contexto
Infraestructura
Punto de Venta
Encuestas de
satisfacción
Foursquare
¡Posibilidad de hacer
sentiment analysis!
30. 30
PREPARACIÓN DE LOS DATOS
¿Cómo obtengo los datos?
¿Me sirven así?
¿Dónde depositarlos?
31. Business Intelligence me permite saber qué pasa pero no necesariamente
por qué
Reportes
Tableros de
Control
Business Dataware House (BDW)
Servidor de
Reportes
Alertas
ETL ETL ETL ETL ETL
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 31
Business Intelligence
Tradicionalmente
un sistema de
business
intelligence se
diseña de arriba
hacia abajo
Defino que
quiero saber,
extraigo el dato,
hago el cálculo lo
cargo en un
receptorio
ERP CRM HRM SCM Otros
32. Un Business Dataware House puede ser útil pero no indispensable
Business Analytics En un mundo ideal, la
organización cuenta
con un BDW en el cual
existen los datos
necesarios para
responder la pregunta
de negocios.
Pocas veces sucede y
si existe no hay el
tiempo de respuesta
requerido (síndrome del
dueño del kínder).
Los ETL son ejecutados
manualmente a partir
de extracciones a
modo.
Modelado con SPPS, SAS, R,…
Archivo plano
Queries
ERP CRM HRM SCM Otros
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 32
33. Bases de datos en Big Data
El Big Data empezó a estresar el desempeño en empresas como Google y
Amazon haciéndoles evidente que las bases de datos relacionales (SQL) no
satisfacían sus necesidades. Necesitaban mejor desempeño para atender
miles de peticiones sobre una cantidad de datos inmensa, compleja,
creciente y distribuida entre miles (millones) de servidores.
Necesitaban entonces una nueva concepción de bases de datos, esto es,
bases de datos no relacionales (NoSQL), y un nueva arquitectura (Hadhoop)
para procesar eficientemente la información distribuida.
Bases de datos relacionales Bases de datos no relacionales
SQL Server, MySQL, Oracle… MongoDB, CouchDB, BigTable…
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 33
34. ¿Necesito Hadhoop?
A9.com, AOL, Booz Allen
Hamilton, Eharmony, eBay,
Facebook, Fox Interactive
Media, Freebase, IBM,
ImageShack, ISI, Joost,
Last.fm, LinkedIn, Meebo,
Metaweb, Mitula15, The New
York Times, Ning, Rackspace,
StumbleUpon16, Tuenti,
Twitter, Veoh, Zoosk, 1&1,
Mercadolibre
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 34
35. La promesa de Big Data
Real Time Analytics Engines
Data Lakes
ELT
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 35
Big Data Engines
En lugar de extraer,
transformar y cargar
ahora extraigo, cargo y
luego transformo
En lugar de data marts y
business data
warehouses tenemos
Data Lakes
La analítica se hace en
tiempo real
ERP CRM HRM SCM Otros
36. En ese futuro de real time Analytics sobre
prácticamente todos los datos existentes,
¿dónde queda el auditor?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 36
37. La sola preparación de datos ofrece grandes
oportunidades de entender la realidad.
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 37
38. Preparación de datos en el caso de fraude bancario
1.Recopilación de información histórica interna relacionada con la
incidencia de fraudes incluyendo otras bases de datos no utilizadas al
momento (productos, cobranza, call center)
2.Recopilación de fuentes de información externa relevantes para el
proyecto incluyendo bases de datos demográficas
3.Integración, preparación, normalización de datos, creación de bases de
datos y variables y diagnóstico de bases de datos
4.Diseño de procesos de integración de bases de datos para asegurar la
replicabilidad de los análisis
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 38
Actividades
39. MODELACIÓN
¿Qué técnicas de
análisis existen?
¿Cuáles usar?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 39
40. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé dónde encontrarlos,
pero no sé como procesarlos
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 40
41. Técnicas de análisis predictivo
Técnicas de regresión Regresión lineal
Series de tiempo
Análisis de
superviviencia
Modelos elección
discreta
Logit
Probit
Árboles
de
decisión
Machine learning Redes neuronales
Modelación
geoespacial
Naïve
Bayes
k-nearest neighbours
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 41
42. Modelación en el caso de fraude bancario
1.Análisis de patrones de incidencia de fraudes en función de perfiles
demográficos, transaccionales y geográficos
2.Identificación y cuantificación de variables que impactan
significativamente en la incidencia de fraudes
3.Contrastación de hipótesis construidas en el proceso
4.Definición de indicadores de gestión para el monitoreo de incidencia de
fraudes
5.Validación de resultados e integración de resultados
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 42
Actividades
43. EVALUACIÓN
¿Tiene sentido lo que he
encontrado?
¿Es aplicable?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 43
44. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé como procesarlos
¿Tengo la respuesta adecuada?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 44
45. Evaluación del modelo
Estimación Prueba
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 45
No es indispensable
esperar eventos
futuros para
determinar la
precisión de nuestros
modelos.
El procedimiento
cruzado nos permite
validar con los
mismos datos que
tenemos ahora.
Datos
(y1, x1),…(yn, xn)
Datos
entrenamiento.
Todos los datos salvo
(yk, xk))
Datos de prueba
(yk, xk))
Predicción
Repetir para cada k
46. Contrastación del modelo con la realidad
R2=0.92 Modelo estadístico de pronóstico
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 46
900
800
700
600
500
400
300
200
100
0
0 100 200 300 400 500 600 700 800 900
Venta mensual Real
Mínimo de ventas
deseado
Venta pronosticada dada la ubicación (venta mensual promedio)
47. No sólo debe ser preciso, debe tener sentido económico (de negocio)
“La producción pesquera explica muy
bien la venta de cerveza”
“Pon la próxima cafetería al lado de
una agencia Bentley”
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 47
48. Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 48
DESPLIEGUE
¿Cómo sacar valor de lo aprendido?
49. Sé cuál es la pregunta
Sé que datos necesito para contestarla
Sé donde encontrarlos
Sé como procesarlos
Tengo la respuesta adecuada
¿Cómo sacarle provecho
a lo aprendido?
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 49
50. Plan de despliegue
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 50
¿Qué procesos de negocio
serán
modificados/implantados?
¿Qué reglas de negocio
serán alteradas o
introducidas?
¿En qué tecnologías será
desplegado?
¿Qué nuevas habilidades
serán necesarias?
¿Cómo manejar el cambio?
Procesos
Tecnología
Gente
51. El perfil ideal de demostradoras de alcohol
De 23 a 25 años con
baja antigüedad sin
hijos
De 27 a 29 años con
baja antigüedad
Salario: 6,619
Bono: 1,388
Estado civil: 69% soltera
Grado de estudios: 63%
con educación básica
N: 41 - 21%
Salario: 6,364 con hijos
Bono: 1,327
Estado civil: 95% soltera
Grado de estudios: 73.6%
con educación-media
N: 59 - 30%
De 31 a 33 años con
muy alta
antigüedad con
hijos
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 5511
Venta adicional al esperado por grupo de demostradora
Salario: 7,148
Bono: 1,376
Estado civil: 66% soltera
Grado de estudios: 50% con
educación media y 38%
educación básica
N: 28 - 15%
Salario: 6,354
Bono: 1,353
Estado civil: 61% casada
Grado de estudios: 64%
con educación-media
N: 66 - 34%
$14,643
$6,265
De 28 a 30 años con
alta antigüedad sin
hijos
52. Qué se hizo con
Modelo estadístico de pronóstico
Bien ubicadas, mal
desempeño
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 52
900
800
700
600
500
400
300
200
100
0
0 100 200 300 400 500 600 700 800 900
Venta mensual real
R2=0.92
Mala ubicación y mal
desempeño
Los esfuerzos de
apoyo no eran
rentables
Se aplicaron
prácticas que se
pueden replicar
Venta pronosticada dada la ubicación (venta mensual promedio)
Mínimo de ventas
deseado
53. Despliegue en el caso de fraude bancario
1.Definición conjunta de acciones de mitigación de incidencia de fraudes,
balanceando el beneficio esperado y el costo financiero y de servicio que
implican
2.Estimación de impactos esperados por las acciones implementadas
3.Integración de los casos de negocio relacionados con las acciones definidas
para la mitigación de los fraudes
4.Generación de indicadores adicionales para medir el impacto de las
acciones en el tipo de fraude
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su divulgación puede estar penada en términos de la ley de
propiedad industrial 53
Actividades
55. 1.Diseño de procesos de seguimiento y diseño de acciones de mitigación,
junto con el impacto obtenido
2.Ejecución y acompañamiento en ciclos analíticos bimestrales para la
revisión de resultados, incluyendo:
1.Definición de acciones
2.Seguimiento a implementación
3.Medición de resultados
4.Documentación de aprendizajes
5.Ajuste de acciones
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 55
Actividades
56. Conclusión
El Big Data es una realidad, tenemos la posibilidad de disponer de
más datos y a mayor velocidad de lo que podemos analizar y
ejecutar. Contar con un método de explotación de esta nueva
abundancia permite enfocar y operar resultados exitosos.
Big Data Analytics ofrece una oportunidad al área de Auditoría
para contrastar hipótesis sobre desviaciones en la ejecución
esperada.
Jorge Pérez Colín
Información confidencial propiedad de Business Data Scientists, SAPI de CV Su
divulgación puede estar penada en términos de la ley de propiedad industrial 56