6. •병렬 분산 처리 구조
•신속하고 최적화된 검색
다양한
분석 기능
효율적인
데이터 관리
대용량 처리
고성능 및
고 가용성
•다양한 사용자 인터페이스 제공
•한글 형태소 분석
•인덱싱 데이터의 Materializing
• 사용자 직관적이고 강력한 분석
언어
•대용량 데이터 수명 관리
•강력한 보안 아키텍처
• Index Sharding 및
Parallel Query
•Mirroring 및 Fail Over
빅데이터 플랫폼
7. 부정사용 감시, 보안관제
정책 발굴, 관리 기술,학술정보 분석
비정형성
1w
1d
1h
1m
1s
정형 반정형 비정형
실시간 상품 추천
도시 관제, 재난 대응
의료, 헬스케어 서비스
소셜 미디어 분석
(트랜드,감성,이슈 분석 외)
고객,시민 목소리(VOC) 분석
국방,보안 관제/eDiscovery
실시간성
통합 로그 관리
장애 예방
8. 구성요소 정형 데이터 비정형 데이터
정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것
데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그
데이터 처리
• 엄밀한 트랜잭션 처리, 완벽한 복구
(Commit or Rollback)
• Read only 데이터 처리 고성능
(Eventually consistency )
데이터 증가량 • 증가 • 매우 빠르게 증가
데이터 조회 기술 • SQL, 수리통계 • NoSQL, 머신러닝
데이터 처리기술
분석 목적 • 과거 지향적 (정합성 보장 분석, 월별 과금 배치) • 미래 지향적 (추천, 예측)
Data
RDBMS
Data
Active – Active 클러스터
Master Node
SlaveNo
de
SlaveNo
de
SlaveNo
de
SlaveNo
de
SlaveNo
de
9. 운영 시스템
마케팅분석
성능, 보안
1. 금융 상품 추천
2. IT 운영 관리
3. 스마트 팩토리
콜센터 어플리케이션
보안 장비
서버, 프로세스
네트워크 장비
VOC 어플리케이션
빅데이터 분석
로그 수집
(XML, CSV, Text 등)
실시간 분석 용이한
구조로 저장
등록된 룰과
비교
검색
실시간 모니터링
제조관리
10. 빅데이터 이전 시대 빅데이터 시대
직감에 의한 서비스/상품 제공 방식
• 개별 고객 서비스/상품 선호 반영 불가
• 개별 고객 특성을 반영한 서비스/상품 설계 불가
• 다수 상품에서 고객 최적 서비스/상품 선택 불가
상담 직원 또는
지인 추천에 의한
서비스/상품 선택
고객 불만에 대한
분석 부족
빅데이터
인프라 구축
빅데이터
활용 마케팅
시스템 로그
음성 대화
(음성변환)
최적의 상품
실시간 이벤트 처리
마이닝
데이터 분석 기반 서비스/상품 추천
• 분석되지 못 했던 시스템로그 및 음성데이터에 대한
실시간 처리를 통한 서비스/상품 추천
11. 상용 소프트웨어오픈 소스 소프트웨어
[빅데이터 플랫폼]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM InfoSphere
DataStage
Kafka HDFS
Map
Reduce
Mongo
Cassandra
Storm
Spark
Oracle
TimesTen
분석솔루션
R
SAS
SPSS
Tableau
Teradata AsterTeradata Aster
Tibco
Stream Base
시각화
Kibana
Qliktech
Micro
strategy
CEP
Esper
Hive
Impala
Elastic Search
Scoop
12. 상용 소프트웨어오픈 소스 소프트웨어
[AnyMiner Coverage]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM
InfoSphere
DataStage
Kafka HDFS
Map
Reduce
Mongo
Cassandra
Storm
Spark
Oracle
TimesTen
분석솔루션
R
SAS
SPSS
Tableau
Teradata AsterTeradata Aster
Tibco
Stream Base
시각화
Kibana
Qliktech
Micro
strategy
CEP
Esper
Hive
Impala
Elastic Search
Scoop
[Key Features]
AnyMiner 대응 영역
13. 빅데이터 조회, 분석, 대응
수집
적재
처리
Data Loader Data Loader Data Loader
Source Source Source
Storage
Server
Storage
Server
Elastic
Search
Elastic
Search
CEP Engine
Buffer Size 단위Agent
SQL Engine
Query
Engine
Active
Active
Function Off Loading Index 생성 적재
Rule
AI
Flow
Designer
AnyMiner Storage Server
특징
SQL Query Engine
Elasticsearch 활용 적재
Buffer Size 단위 데이터 수집
고가용성 및 복잡 Query 분석
시스템 IO 최소화 성능 극대화
CEP Engine
실시간 데이터 분석
Index 활용 고성능 데이터 조회
Storage Server 활용 적재
Function Off Loading 활용
데이터 필터링 처리
Agent Fail-Over
장애 발생시 지속적 데이터 수집
14. 데이터 분석 통합 포털 활용
DataSet Management
빅데이터 스키마 설계
빅데이터 스키마 설계
빅데이터 생성
분석 대상 시스템 Agent 설치
DataSet 생성
DataLoader, DataSet 매핑
Agent로 데이터 수집
빅데이터 생성 완료
Elasticsearch Segment Index
Data Loader
Agent
빅데이터 생성
DataSet 속성
1
2
3
4
5
15. [Agent/Agentless 데이터 수집]
Switch
JDBC Scripted Input
Remote 방식 수집
(Agentless)
Local 방식 수집
Scripts
Router
File/Directory
Agent, Agentless 기반 데이터 수집
•Agent : 파일/디렉토리에서 데이터 추출
•Agentless : syslog 등과 같이 네트워크를 통해
직접 전송되는 데이터를 수집
다양한 형태 수집 방식 지원
•File / Directory : 특정 File 이나 Directory에 변화
인식하여 데이터 전달
•Scripted Input : Script의 실행 결과를 수집하는
기능
•JDBC : RDBMS에 표준 프로토콜(JDBC)를 이용한
데이터 룩업(Look up)
데이터분석 플랫폼
수집
Agent
Agentless
정형/비정형
수집
Parsing
DB
16. 품질지표 품질목표 결과치
로그 처리 성능 200,000 EPS 202,541 EPS
다수의 로그
포맷 처리
10개 10개 이상
다수의 Alert
검출
5개 5개
분석 성능 50GB/sec 1,033 GB/sec
노드당 성능
증가율
50% 65.4 %
실시간 검출
지연 시간
10ms 1.9 ms
시험 조건
• 서버 1대 AnyMiner Server와 Agent 설치
Ubuntu 16.04 LTS(64bit)
Intel Xeon E5-2660 v4 @2.00GHz * 14
128GB Memory, 600 GB HDD
• 시험 대상 로그
크기 : 1,046,720 KB(0..99 GB)
데이터 건수 : 11,879,501건
형식 : ACCESS_COMMON
측정 방법
• 로그 개수/처리 시간 EPS(Event Per Second)
• 다수 로그 포맷 처리, Alert 검출 – 실측 값
• 분석 성능 – 로그 사이즈/처리 시간
• 실시간 검출 지연 시간 – 이벤트 검출 시간/개수
Hadoop 대비 6배 이상 고성능 데이터 적재
17. AnyMiner
Source
Agent
데이터 저장소
Data Loader
SQL Engine
수집 및 가공
처리 및 가공
[ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ]
Data Modeler
Flow Designer
View /
Monitoring
직관적 Data 모델링
• Auto Discovery →데이터 소스에서 제공 정보 기반 모델링
• 관계형 모델링 → Virtual Table간 Relation 정보 확인
유연한 Flow 개발
• Drag & Drop 방식, Task 재사용
• 다양한 Task 제공 → Query, Join, Filter, Sort, FileWrite, FileRead,등
• 조건형 Flow설계 → 선행Task성공 여부에 따른 분기, 후행Task 실행 순
서 지정
개발 가시성 확보
• Ad-hoc 쿼리구문 실행, 결과확인
• Flow의 실행 Plan 확인
• Flow Task 중간 결과 조회 가능
• 실행 Log View 제공
18. PS – Primary Shard, R - Replica
Dataset
Part_2016.01
…
PS1 PS2
Part_2016.02
PS2 PS3
Part_2016.08
PS1 PS2
R2 R1
R3 R1 R2
R3 R1
… PS3
R2
Node 1 Node 2 Node 3
PS1
전체 Node의 분산 처리로
고성능 보장
멀티 Node에 대한 가용성 확보
19. Anyminer 플랫폼 데이터 저장 구조
Index 형태의 데이터 저장
•텍스트 데이터 분석에 용이한 Inverted Index
형태로 데이터 인덱싱
•비정형 데이터에 대한 검색 속도 향상
비정형 데이터 최적 인덱싱
•일반적인 Hadoop 기반 솔루션은 index 가 없는
구조 검색 속도 이슈 발생
•text search (inverted index) - 대부분의 필드가
cardinality가 적은 특징 최적의 인덱싱 방식
Document 1
Document 2
Document 3
a
and
around
for
from
In
Is
It
not
On
One
the
to
under
Stopword list Inverted index
ID Term Document
1 Best 2
2 Blue 1,3
3 Bright 1,3
4 Butterfly 1
5 Breeze 1
6 Forget 2
7 Great 2
8 Hangs 1
9 Need 3
10 Retire 2
11 Search 3
12 Sky 2,3
13 wind 2
20. 비정형정형
Query Engine
App
SQL
App
SPLSelect abc from Table search abc | top 5
※ SPL(Search Processing Language): 검색 프로세싱 언어
•SPL 장점 : 파이프 라인, join 손쉬운 언어
•SQL 장점 : 개발자 익숙, 정교함
SPL과 SQL 모두 제공
강력한 Query Power
•전문 RDBMS 쿼리 엔진 비용기반 옵티마이저
고성능 지원
•Hive, Impala 등 오픈소스의 근본적 차별성
21. 스트림 데이터
Complex Event
Time Range = 5초
A S A B F I C U ……
인메모리
CEP
Services Action Notification
룰 예시 : ABC, 5초
구성요소
Real-time
Alert
Scheduled
Alert
시간 구간
비교적 짧다
(sec, min)
비교적길다
(hour, day)
언제
검사하나?
Event-driven Time-driven
동작 방식
In-memory
processing
Store &
Processing
Rule
정의는?
CQL SQL
구현은? CEP Querying
22. 통계 패키지
Query Engine
비정형 데이터
저장소
AnyMiner
표준 프로토콜 표준 SQL 조회
다양한 분석솔루션 연동
• 글로벌 상용 소프트웨어 : SPSS, SAS 등
• 오픈소스 : R, Python scikit-learn, Tensorflow 등
• 국산 상용 소프트웨어 : ECMiner
표준 프로토콜/SQL
• 정형 뿐 만 아니라, 비정형 데이터도 Query Engine 을
통해 연동
• JDBC, ODBC 등 표준 프로토콜 지원
• ANSI 표준 SQL 을 통한 데이터 조회
23. 호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡)
이용하여 단일 솔루션들의 조합의 구축 어려움의
단점을 해결하고자 노력
AnyMinerHadoop
급
변
하
는
S/W
의
Lifecycle
Hadoop인터페이스에 대한 지원 등으로 단점을
극복하고자 진화 중
단
일
플
랫
폼
으
로
계
속
적
인
지
원
단점
구성의 복잡성(구축)
성능 이슈(구축 & 관리)
장애대응 어려움(관리)
장점
• 빅데이터 기반마련
• 다양한 Component 소유
• 인력 인프라
장점
단일제품(구축)
빠른수집/최소의 오버헤드(구축 & 관리)
통합플랫폼(관리)
단점
• 시각화, 분석기능 활용 툴 부족(진화중)
• 인력/교육적 인프라 부족
24. 기능 구분 AnyMiner Hadoop
플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합
수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재
데이터 파싱 • 정규식 형태의 유연성 제공 • 복잡하고 유연성 부족
수집 정합성 • 중복 없고, 데이터 유실도 없음 • 데이터 중복 및 유실에 대한 이슈 많음
이벤트 수집 속도 • 수집 시 빠른 성능 보장 • 수집에 부하가 많고 느림
저장 형태 • Index형태로 검색 속도 빠름 • Raw data저장 검색, 상대적으로 느림
SQL 조회 기능
• 강력한 Query Power
• Tibero의 강력한 옵티마이저 이용
• 기본적은 SQL Like기능 제공(Hive)
• 상용 DBMS Tibero 엔진기반으로 하는 AnyMiner보다 적은
지원범위 및 성능 상 느림
이벤트 처리
• CEP(Complex Event Processing)
기반 실시간 처리
• 실시간 처리 제공 어려움(일괄처리기반)
- SPARK와 같은 별도S/W설치
25. 빅데이터 = 오픈소스 ?
• 빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반
프로젝트 진행
• 프로젝트 진행 과정 중 인프라 제품 기술력 한계,
요구사항 반영 부족 등의 한계
• 수집/저장/분석 전 영역에 여러 오픈소스로 산재되어
있는 기술을 단일 솔루션으로 대체 가능
• 국내 원천기술 보유 기술력을 통한 보다 확실한
기술지원 서비스 확보
빅데이터 시대에 걸맞는 상용 소프트웨어
[Without AnyMiner] [With AnyMiner]
26. ‘17 년 하반기
’18년 상반기
’18년 하반기
XML 데이터 파싱 기능
필드별 암호화/마스킹 기능
스토리지 데이터 스캔 성능 개선
쿼리 엔진 병렬 처리 기능 개선
CEP 기능 고도화
Virtual DB 연동 (ETL)
사용자별 권한 관리
Machine Learning 엔진 탑재
TmaxIaaS에 통합
CEP 분산 처리
신 분석 툴 개발
시각화 도구