En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
3. Gaps de la Arquitectura de Datos Tradicional
• Soporte de volúmenes de datos limitado a
nivel de los sistemas OLTP
• Integración y consolidación compleja a
través de procesos ETL
• Excesiva normalización y rigidez a nivel de
los esquemas de datos
• No es compatible con la carga de fuentes de
datos no estructuradas
• No soporta naturalmente la implementación
de real-time analytics
• Capacidad de escalamiento y elasticidad
limitados y de alto costo
• Pensada principalmente para el mundo on-
premise, lo que dificulta su extensión hacia
el Cloud
30%
50%
20%
Workloads
ETL
Operaciones
Analíticos
No esta preparada para la
Transformación Digital
4. Arquitectura de Datos Moderna
Hadoop Distributed File System (HDFS)
Otro
EDW
DM
DM
Data Access APIs
OLTP OLTP OLTP
Workload Interactivo Workload Real-time Workload Batch Workload Analítico
Fuentes de Datos No Estructuradas
Documentos y
Correos
Web Logs &
Click Streams
Social
Networks
Cloud-based
Services
Sensors Data
Geo-location
Data
5. ¿Cómo resuelve los gaps la Arquitectura de Datos Moderna?
• Eliminando la separación conceptual y física de
los datos OLTP y los datos Analíticos a partir de
una Arquitectura de Datos unificada
• Eliminando las clásicas limitaciones de manejo
de volúmenes de información restringidos
• Soportando bajo una misma plataforma todos
los workloads requeridos actualmente,
Interactivo, Real-time, Batch y Analítico
• Integrándose con los activos de datos existentes
como el EDW, los DataMarts y las bases de
datos OLTP más las fuentes de datos no
estructuradas.
• Generando la figura de un Enterprise Data Lake
disponible para toda la corporación.
• Siendo compatible con arquitecturas de tipo
Cloud-Híbrida
20%
40%
40%
Workloads
ETL
Operaciones
Analíticos
Siendo un habilitador
fundamental para la
implementación de
productos y servicios
digitales
6. Resumen Comparativo
• Volúmenes de datos limitados y
capacidad de escalamiento vertical.
• Separación conceptual y física de datos
OLTP y datos analíticos
rellenorellenorellen.o
• Excesiva normalización y rigidez a nivel de
los esquemas de datos.
• Limitaciones importantes para resolver
workloads de Real-time analytics
rellenorellenorelleno
• No preparada para soportar el desarrollo
de productos y servicios digitales
• Pensada principalmente para el mundo
on-premise.
Arquitectura de Datos Tradicional
• Volúmenes de datos ilimitados con
capacidad de escalamiento horizontal.
• Arquitectura de datos Unificada que
integra fuentes de datos estructuradas y
no estructuradas.
• Esquemas flexibles diseñados para
cambiar frecuentemente.
• Diseñada para soportar cualquier tipo de
workload, Interactivo, Real-time, Batch y
Analítico.
• Fundamental para la implementación de
productos y servicios digitales
• Compatible con cualquier arquitectura
Cloud (privada, pública, híbrida).
Arquitectura de Datos Moderna
7. Web/Móvil
Sucursales
Callcente
r
ETL
Enteprise Data
Warehouse
Inteligencia
de Clientes
Modelos
Predictivos
Campañas Push
Modelos Riesgo
Reportes
Pérdida de Información
al momento de
transformar los datos
Existen datos que no
estamos procesando (ej:
logs)
No soporta la
implementación de
servicios de Real-Time
Analytics
Capacidad Analítica
limitada a los datos
disponibles
Baja capacidad de
impulsar la práctica
de Data Discovery
Escenario actual en la Banca
Riesgo
Canales
Operacione
s
8. Carga incremental (en near-real-
time) de todas las fuentes de
información relevantes.
Carga de fuentes no estructuradas
como logs, correos e información de
redes sociales.
Escenario futuro (Big Data)
Real-time
Analytics API
Campañas
Real-time
Data Insight
Discovery
Logs
Logs
Logs
Big Data
Enterprise Platform
(Data Lake)
EL
ETL
Web/Móvil
Sucursales
Callcente
r
ETL
Enteprise Data
Warehouse
Modelos
Predictivos
Campañas Push
Modelos Riesgo
Reportes
Data
Scientists
Capacidad analítica potenciada por
nuevas fuentes de información
Soporta la implementación de
servicios real-time y la práctica de
Discovery de datos
Machine Learning
based models
Inteligenci
a de
Clientes
Riesgo
Canales
Operacione
s
9. ¿Cuáles serían los casos de uso
más comunes de Big Data en la
Banca y la arquitectura sugerida?
10. Enterprise Data Warehouse offloading
Enterprise Data
Warehouse
OLTP
ETL
1
2
Movemos información de
menor valor y/o histórica
desde el EDW a Hadoop
ocupando Sqoop
También podemos
replicar la información en
Hadoop para derivar
carga de explotación
Equipos
Explotació
n
3
4
Los equipos explotan la
información con las
mismas herramientas
que ocupan
actualmente.
11. Enterprise Data Lake
Enterprise Data
Warehouse
(EDW)
ETL
1
Equipos
Explotació
n
3
4
OLTP
OLTP
Las bases de datos
OLTP más
importantes se
cargan as-is en
Hadoop en
modalidad Batch
ETL
2
El EDW puede ser
cargado desde el
Data Lake en
Hadoop a través de
procesos ETL
12. Enterprise Data Lake + Nuevas Fuentes
Enterprise Data
Warehouse
(EDW)
ETL
1
Equipos
Explotación
4
5
OLTP
El Data Lake
incorpora fuentes
de datos No
Estructuradas en
modalidad Batch
ETL
3
Logs
OLTP
Logs
2
Data
Scientists
Data Insight
Discovery
(Aster Data)
Advanced
Analytics
(Mahout, R)
Cognitive
Analytics
(IBM Watson)
13. Near-Real-Time Data Ingestion
Enterprise Data
Warehouse (EDW)
Equipos
Explotació
n
4
5
OLTP
Los agentes de Flume
hacen streaming de la
información generada
ETL
3
Logs
OLTP
Logs
Flume
Agent
Flume
Agent
Flume
Agent
Los Interceptors de Flume
permiten enriquecer la
ingesta de datos para
finalmente guardarla en
HDFS (Hadoop)
1
2
Data
Scientists
Data Insight
Discovery
(Aster Data)
Advanced
Analytics
(Mahout, R)
Cognitive
Analytics
(IBM Watson)
14. Real-Time Analytics con HBase
OLTP
Logs
OLTP
Logs
Flume
Agent
Flume
Agent
Flume
Agent
En el proceso de ingesta de
datos, se guarda
información en HBase que
posteriormente servirá
como input para los
servicios Real-Time (ej: el
consumo acumulado diario
por rubro de un cliente con
tarjeta de crédito).
1
Real-Time
Analytics
Services API
2
3 El servicio real-time (expuesto como
API) es consumido por ejemplo por
la aplicación móvil cada vez que el
cliente realiza un pago con tarjeta.
Con la estructura clave-valor en
HBase, el servicio puede advertir al
cliente de un consumo excesivo en
su tarjeta e inclusive compararlo con
meses y años anteriores.
15. Real-Time Analytics con HBase+Spark
OLTP
Logs
OLTP
Logs
Flume
Agent
Flume
Agent
Flume
Agent
1
Real-Time
Analytics
Services API
3
Spark permite crear un
Resilient Distributed Dataset
(RDD) a partir de datos en
HDFS, HBase, etc.
Su capacidad de representar
los datos en memoria y de
procesar los mismos de
manera distribuida, permite
crear servicios de real-time
analytics avanzados que
requieran procesar grandes
volúmenes de datos.
2
16. Ejemplo Digital Journey soportado por BigData
Web
Red Social
El usuario se
conecta a
www.banco.cl
La aplicación le
indica que se
registre con sus
credenciales de
Twitter /
Facebook o
Linkedin
El usuario selecciona
Linkedin y la
aplicación solicita
permisos para
acceder a su perfil y
su lista de contactos
La aplicación le
muestra sus datos, le
solicita que ingrese su
número de móvil, una
clave segura y le envía
por SMS un código de
enrolamiento para su
dispositivo.
Móvil
El usuario recibe el
código de
enrolamiento para
confirmar su regsitro
El usuario confirma su registro y ya es
“Cliente Registrado”. La aplicación le da
la Bienvenida y la indica que 36 de sus
contactos en Linkedin ya son clientes
del Banco y que 22 de ellos tienen Cta
Cte y Tarjeta de Crédito, mientras que
18 tienen productos de inversión,
invitándolo a contratar dichos
productos
Email
El cliente recibe un correo de
bienvenida, con la misma
información de sus contactos que
está viendo en la aplicación web y
con la invitación a seguir
explorando los productos del
Banco
17. Resumiendo
• Los Bancos (y todos los negocios digitales) necesitan una
Arquitectura de Datos Moderna que soporte el
procesamiento de grandes volúmenes de información
(Big Data).
• El foco inicial debe estar puesto en la implementación de
una Plataforma de Big Data Corporativa, tanto para fines
analíticos como operativos.
• Los casos de uso más implementados son:
• Database offloading
• Enterprise Data Lake
• Near-Real-Time Data Ingestion
• Real-Time Analytics
18. Big Data en el Entorno
Bancario
Martín Cabrera
Technology Director
Everis, an NTT DATA Company
@dmcabrera
martin.cabrera.aguilar@everis.com