Informatica for Data Warehouse Optimisation and Data Lake Use-cases
1. Два сценария использования технологий и продуктов компании в проектах Больших Данных
Илья Гершанов
Технический Менеджер
Informatica Россия/СНГ
igershanov@informatica.com
2. План презентации
•Типовые проекты Больших Данных
•Оптимизация Корпоративного Хранилища Данных
•Озеро Данных
•Анонсы продуктов
•О компании Informatica
2
3. Safe Harbor
The information being provided today is for informational purposes only. The development, release and timing of any Informatica product or functionality described today remain at the sole discretion of Informatica and should not be relied upon in making a purchasing decision. Statements made today are based on currently available information, which is subject to change. Such statements should not be relied upon as a representation, warranty or commitment to deliver specific products or functionality in the future.
4. №
Задача
2013
2014
За год%
1
Предсказание поведения клиента
45%
44%
2
Поиск корреляций в разнородных данных (интернет, гео-, транзакции и т.д.)
52%
43%
3
Предсказание продаж продуктов или услуг
34%
36%
4
Предотвращение мошенничества и управление финансовыми рисками
28%
27%
5
Анализ интернет-активности (clickstream)
11%
26%
6
Выявление рисков ИТ безопасности
23%
25%
7
Анализ активности в социальных сетях для потребительского сегмента
18%
24%
8
Анализ сенсорных данных, web-логов, и т.д.
22%
23%
9
На данный момент не рассматривается
15%
14%
2014: Большие Данные ещё актуальны!
(*) По данным Worldwide Big Data Technology and Services 2013-2017 Forecast (IDC #244979)
(**) По данным 2014 Analytics, BI, and Information Management Survey by Information Week
1
1
9
2
15
2
6
1
1
4
Рынок Продуктов и Услуг Больших Данных продолжает расти на 27% в год, и в 2017 году достигнет 32,4 миллиардов долларов.
5. 10 2
Мэйнфрейм
Клиент-сервер
Интернет
Социальные
сети Интернет
вещей
Облако
Несколько
сотрудников
Многие
сотрудники
Клиенты/
потребители
Бизнес-
экосистемы
Сообщества
Устройства
10 4
10 6
10 7
10 9
10 11
Оптимизация
Автоматизация Фронт-офиса
бэк-офиса
Электронная
коммерция
Само-
обслуживание
Социальные
сети
Оптимизация
в реальном
времени
1960-70е
1980е
1990е
2011
2014
2007
OS/360
ТЕХНОЛОГИИ
ПОЛЬЗОВАТЕЛИ
ЦЕННОСТЬ
ТЕХНОЛОГИИ
ИСТОЧНИКИ
ДАННЫХ
БИЗНЕС
(*) What About the Data Warehouse? Start? Stop? Continue? Mark A. Beyer, Gartner, 2014
(**) Источник: The Data Lake: Taking Big Data Beyond the Cloud, Booz Allen, 2013
(***)Forrester Webinar: Big Data Integration Gains Momentum: Are You Ready?, 19.06.2014
Из-за сложностей интеграции
• используется ~15% накопленных данных**,
• аналитик тратит ~20% на продуктивную работу,
остальное – на подготовку данных***
Большие Данные и Задачи Интеграции Данных
90% Систем Больших Данных не замещают,
а дополняют системы предыдущих поколений*
t
5
6. «Типовые» Проекты Больших Данных
Для эффективной поддержки бизнес-инициатив
ИТ-инициатива
Как организовать инфраструктуру Больших Данных?
Оптимизация инфраструктуры (производительность, стоимость владения, масштабируемость)
Единое пространство для управления данными
Оптимизация Корпоративного
Хранилища
Данных
Озеро Данных
(Managed Data Lake)
6
Бизнес-инициативы
8. Оптимизация Корпоративного Хранилища Данных
Корпоративное Хранилище Данных
Корпоративные Приложения
Операционные
Хранилища
Данных (ODS)
Транзакци- онные системы
Business Intelligence
Hadoop
Load
…
Job 2
Job 1
Load
Extract
Transform
Job y
Job x
…
Запросы
8
Идентификация ненужных и
редко используемых данных
ILM
10-20% ожидаемое сокращение общей стоимости владения по итогам 1-го этапа внедрения
Снижение риска приостановки ключевых бизнес-инициатив из- за недостатка ресурсов КХД
9. Универсальный Доступ к Данным «из коробки»
Ключевой Момент №1
WebSphere MQ
JMS
MSMQ
SAP NetWeaver XI
JD Edwards
Lotus Notes
Oracle E-Business
PeopleSoft
Oracle
DB2 UDB
DB2/400
SQL Server
Sybase
ADABAS
Datacom
DB2
IDMS
IMS
Word, Excel PDF StarOffice WordPerfect Email (POP, IMPA) HTTP
Informix
Teradata
Netezza
ODBC
JDBC
VSAM
C-ISAM
Binary Flat Files
Tape Formats…
Web Services
TIBCO
webMethods
SAP NetWeaver
SAP NetWeaver BI
SAS
Siebel
Сообщения и веб-сервисы
Реляционные БД и плоские файлы
Мейнфреймы и ЭВМ среднего класса
Неструктурированные данные
Flat files
ASCII reports
HTML
RPG
ANSI
LDAP
EDI–X12
EDI-Fact
RosettaNet
HL7
HIPAA
ebXML
HL7 v3.0
ACORD (AL3, XML)
XML
LegalXML
IFX
cXML
AST
FIX
SWIFT
Cargo IMP
MVR
Salesforce CRM
Force.com
RightNow
NetSuite
ADP
Hewitt
SAP By Design
Oracle OnDemand
«Коробочные» приложения
Индустриальные стандарты
Стандарты на основе XML
SaaS/BPO
Социальные сети
Facebook
Twitter
LinkedIn
Kapow
Datasift
Pivotal
Vertica
Netezza
Teradata Aster
Массово- параллельные ПАК
9
10. Визуальная Разработка Интеграции Данных
SELECT
T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.O_CUSTKEY AS CUSTKEY, customer.C_NAME,
customer.C_NATIONKEY, nation.N_NAME, nation.N_REGIONKEY
FROM
(
SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx
FROM lineitem
GROUP BY L_ORDERKEY
) T1
JOIN orders ON (customer.C_ORDERKEY = orders.O_ORDERKEY)
JOIN customer ON (orders.O_CUSTKEY = customer.C_CUSTKEY)
JOIN nation ON (customer.C_NATIONKEY = nation.N_NATIONKEY)
WHERE nation.N_NAME = 'UNITED STATES'
) T2
INSERT OVERWRITE TABLE TARGET1 SELECT *
INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY,
count(ORDERKEY2) GROUP BY CUSTKEY;
Hive-QL
Лёгкий старт – специфических знаний (например Hadoop) не требуется, библиотеки готовых трансформаций для интеграции, качества данных
Скорость и масштабируемость – логика выполняется в кластере
Простота сопровождения – визуальная разработка, самодокументируемость, управление релизами
Защита инвестиций – на случай изменения технологий в результате эволюции Hadoop
MapReduce
UDF
Vibe – виртуальная машина данных. Её код развёрнут прямо на узлах кластера Hadoop
10
11. •Рационализация технологического ландшафта в части стоимости владения, сложности интеграции и простоты переиспользования
•Производительная, гибкая и надёжная технологическая платформа для финансовых консультантов и клиентов
•Единая версия правды, высокое качество, надёжность, доступность и отслеживаемость данных
•Нехватка специалистов Hadoop
•Кластер Hadoop простаивал, т.к. было только 2 разработчика, которые умели на нём работать, что приводило к задержкам с разработкой
•Необходимость интеграции Hadoop со сложным Логическим Хранилищем Данных, построенным на различных СУБД
•Эффективная команда специалистов
•Кластер Hadoop загружен на 100%
•Лёгкая интеграция с остальными частями Логического Хранилища Данных (Teradata и т.д.)
•Доступность согласованной информации на всех платформах
История Успеха
Оптимизация Хранилища Данных
•1.8 млрд. долларов клиентских активов в управлении
•126 млрд. долларов депозитов 17,000 финансовых консультантов в штате
•6.6M клиентских счетов
Задача
Проблема
Решение
11
13. Производительность труда разработчиков Informatica до 5 раз выше.
Банк смог использовать имеющиеся в наличии команды разработчиков Informatica PowerCenter.
4 недели
4 дня
Скорость работы оказалась выше в 2 раза
Vs.
Разработчики
Hadoop
«вручную»
Разработчики Informatica
Производительность труда разработчиков
Оптимизация КХД Morgan Stanley
13
15. Конвейер поставки данных для анализа при планировании и реализации бизнес-инициатив
Озеро данных
Бизнес- ценность
Большие Данные
Бизнес-цели
Иссле- дование данных
Операционализация
Формули- рование гипотез
Проверка гипотез
Приорите- зация
Исследователи Данных
Аналитики
Разработчики
Бизнес- пользователи
Захват и хранение
Исследование, управление
Распределение управление ЖЦ
Цепочка поставок Больших Данных
Очистка и обогащение
Системы управления данными и аналитики
Данные в исходном формате
Доступ для любых инструментов исследования данных
16. Болото, Водохранилище, Лагуна, Песочница (?!)
Озеро данных
•Данные «как есть» в исходном формате
•Инструментарий быстрой загрузки,
•Интеграция, к-во данных в режиме самообслуживания
•Автоматическое определение доменов данных
•Документирование, профилирование
Эксперименты:
•Трансформация, комбинация данных
•Исследование данных
Управление данными (Data Governance)
•Использование в режиме самообслуживания (публикация и подписка)
•Форматирование и трансформация данных
•Контроль доступа, маскирование
Болото
Пруд
Лагуна
17. 17
Типовая Архитектура Informatica
Озеро Данных
Мобильные
приложения
9. Управление
данными (DG),
загрузку
метаданных СУБД,
BI, DI
3. Потоковая
загрузка
8. Исследование,
гармонизация и
проверка данных
4. Маскирование
конфиденциальных
данных
2. Репликация
Аналитика,
отчётность,
визуализация
11. Подписка на
наборы данных
Data
Integration
Hub
1. Пакетная
загрузка или
архивирование
Витрины
5. Обогащение
данных (НСИ,
MDM)
MDM
КХД
6. Поиск,
интеграция, очистка
и подготовка данных
7. Выгрузка в
КХД
Сенсоры,
Облачные среды
Документы и
эл.почта
Реляционные БД,
Мэйнфреймы
Социальные сети,
веб-журналы
10. Аналитика реального
времени, корреляция,
определение тенденций и т.д.
18. Задача
Проблема
Решение
•Оборот >$5.5B
•29 транзакций в секунду
•200+ стран , 120+ валют
•242M C2C, 459M B2B транзакций
•Технологическая платформа для решения по кросс-канальной оптимизации для ритейла, веб- и мобильного бизнеса
•Управление клиентским опытом
•Снижение стоимости транзакции
•Противодействие мошенничеству и отмыванию денег
•Аналитическая платформа для исследования данных (машинное обучение и т.д.)
•Обработка 29 транзакций в секунду генерирует огромный объём структурированных и неструктурированных данных, которые должны быть интегрированы из различных источников (унаследованные системы, мобильные и онлайн данные)
•Решение должно быть рентабельным, масштабируемым по скорости доступа, ёмкости и вычислительной мощности
•Построена платформа обработки данных на основе Hadoop (Cloudera) и Informatica Big Data Edition
•Решение по кросс-канальной оптимизации внедрено в промышленную эксплуатацию в полном объёме, в соответствии с требованиями заказчика
Озеро Данных
18
21. 21
Managed Data Lake Portal – Ранний анонс
Data Lake
Портал самообслуживания MDL Portal
BI, Визуализация, Аналитика, Статистика
raw («болото»)
sandbox («пруд»)
refined («лагуна»)
RFID, Медицинские мониторы, Облака
HL7, HIPAA, EDI X12
OLTP, ERP, EMR, Мэйнфрейм
Социальные сети, веб-журналы
«Озеро данных»…
•Управление поставкой и использованием данных
•Трансформация «сырые данные» в достоверную и надёжная информацию.
Захват, сохранение
Очистка и обогащение
Исследование, организация
Предоставление, управление
23. •Полнофункциональная интеграция данных
•Поддержка сотен источников, приёмников, включая большие данные и облачные среды
23
Интеграция данных в режиме самообслуживания
Анонс Managed Data Lake
25. Готовые, расширяемые правила для определения доменов данных
Конфиденциальные данные
(персональные данные и т.д.)
PHI: Protected Health Information
PII: Personally Identifiable Information
Scalable to look for/discover ANY Domain type
Просмотр результатов, формирование отчётов, просмотр детальных данных.
Автоматическое определение конфиденциальных данных
Анонс Managed Data Lake
25
28. •Informatica – безоговорочный лидер Интеграции Данных по мнению ведущих аналитических агентств (Gartner, Forrester) на протяжении 9 лет.
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
28
29. Архивирование Данных
Качество Данных
Интеграция Данных
Интеграция в Облачных Средах
Управление Мастер-Данными
Маскирование Данных
Признанный технологический лидер
30. Управление Данными (DG)
Управление Мастер-Данными
Виртуализация Данных
Потоковая Аналитика Больших Данных
Корпоративная ETL Платформа
Интеграция в Облачных Средах
Управление Продуктовым Каталогом
Proven Technology Leadership
31. $0
$100 000 000
$200 000 000
$300 000 000
$400 000 000
$500 000 000
$600 000 000
$700 000 000
$800 000 000
$900 000 000
$1 000 000 000
•Год основания: 1993
•Прибыль в 2013 г. : 948.2 млн. долларов США
•Средний рост прибыли в год (CAGR): 17%
•Сотрудники: 3,080+
•Партнёры: 450+
•Крупнейшие SI, ISV, OEM, консалтинговые компании, лидеры рынка (SaaS, социальные сети)
•Клиенты: Over 5,000
•Клиенты в 82 странах
•Прямое присутствие в 28 странах
•1е место в рейтинге Customer Loyalty Rankings (7 лет подряд)
#1 независимый поставщик решений для интеграции данных
О Компании Informatica
31
32. •Поддержка партнёров на этапе пред-продаж и продаж, обучение, центры исследования и разработки по направлениям «Репликация Данных» и «Управление Мастер-Данными» в Санкт-Петербурге и Казани
•Более 60 заказчиков в России включая ведущие Банки, Телекоммуникационные компании и Розничные сети используют продукты Informatica для целей отчетности, аналитики, маркетинга, привлечения и удержания клиентов
•6 сертифицированных системных интеграторов
Компания Informatica В России и СНГ
32
33. 33
ПРОБНЫЕ ВЕРСИИ
ГОТОВЫЕ РЕШЕНИЯ
Пробная версия Informatica Big Data Edition
marketplace.informatica.com/bigdata
ТРЕНИНГИ И ВЕБИНАРЫ
34. Спасибо за внимание! Приглашаем Вас на Informatica Day Москва 26 ноября
http://now.informatica.com/Informatica-Day-Moscow.html
34