オラクルのHadoopソリューションご紹介

Copyright © 2016, Oracle and/or its affiliates. All rights reserved. |
1
データベースの会社ならではのソリューション！
オラクルのHadoopソリューションご紹介
2017/06/20
日本オラクル株式会社
クラウド・テクノロジー事業統括

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. |
• 以下の事項は、弊社の一般的な製品の方向性に関する概要を説明する
ものです。また、情報提供を唯一の目的とするものであり、いかなる契約
にも組み込むことはできません。以下の事項は、マテリアルやコード、機
能を提供することをコミットメント（確約）するものではないため、購買決定
を行う際の判断材料になさらないで下さい。オラクル製品に関して記載さ
れている機能の開発、リリースおよび時期については、弊社の裁量により
決定されます。
2
OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。
文中の社名、商品名等は各社の商標または登録商標である場合があります。

Oracle IoT/Big Data and Analytics Cloud Solution
3
Data Factory
データの取得・処理
Data Management
データの蓄積
Data Analytics
データの分析
Action
アクション
Data Factory
データの取得・加工
Data Factory
Data Factory
Data Factory
IoT
GoldenGate
Big Data
Preparation
Big Data Database
Marketing WebSite
Application
NoSQL
Storage
ERP
IoT Analytics
ストリー
ミング
バッチ/セミストリーミング
Data Factory
R
on Hadoop (**)
Big Data
Discovery
Spark
on Hadoop (**)
Spatial and Graph
on Hadoop (**)
BI
R
in Database(*)
Spatial and Graph
in Database (*)
SQL
Big Data SQL
and other Paas,SaaS
Data Lab
試行錯誤と検証
Data
Integration
(*) Database Cloud Service EE Extreme Performanceに含みます (**) Big Data Cloud Service に含みます
Event Hub
Big Data
Compute
Mobile
Machine
Learning (*)
Data
Visualization

成功のポイントはデータベースとの共存にあり！
Oracle Big Data Management System
データの特性や活用目的にあわせ、最適なテクノロジーを組み合わせる
4
データ蓄積
基盤
DatabaseHadoop NoSQL
・最適なデータ蓄積基盤で
データ活用
言語
データ活用
エンジン
SQL REST PythonGraphRnode.js Java
Machine
Learning
Graph
Engine
SQL
Engine
・使いなれたツールやスキルで
・すべてのデータを
・活用に最適なエンジンでSpark

業務
アプリケーション
オペレーショナル
レポーティング
DWH
（RDBMS)
HadoopとRDBMSの強みを組みあわせる
ソーシャルメディア
Internet of Things
73°
ビッグデータ
マネジメント基盤
Data Reservoir
（Hadoop)
5
アナリティクス

Hadoopの得意なところ、苦手なところ
RDBMSが必要なくなるわけではない、うまく組み合わせることが重要
6
• Hadoopの得意なところ
– Schema-On-Readによる柔軟性
• 格納時にデータスキーマの考慮不要、
利用時に定義
• レイアウトが変わるデータに向いている
– 高速なデータ加工・編集・集計処理
• 並列分散処理システム
• Sparkなどの豊富なエコシステム
– 低いバイト単価
• ストレージコストの低下の恩恵
• Hadoopの苦手なところ
– 更新（Update）
• マスターや残在庫情報のような頻繁に
更新かかる情報は苦手
– セキュリティ
• だいぶ進化したが、まだ発展途上
– 低レイテンシー処理
• スループット重視の分散処理のため
オーバーヘッドが大きい
• （Sparkという新技術で改善中）
– 大量の小さなファイル処理
• ファイルのメタデータを保持する
– ツール・スキルの問題

Hadoopによって解決できることがあります
7
12c
・RDBMSの履歴データの保存
期間を拡張したいが、保持コ
ストが高くなる…
・非構造データなどの大量の
データを活用したいが、
RDBMSだと扱いにくい
・IoTなどの大量のデータを
活用したいが、RDBMSだと
扱いにくい、高コスト
・SASなどの分析データをDB
上で作成しているが、データ
加工に時間が掛かりすぎて、
本来行いたい分析が思うよう
にできていない
・メインフレームで処理して
いるが、コスト高だし、ユー
ザニーズに合ったデータ加
工が難しい…
・遅いバッチ処理や大量データのバッチ処理が存在する
・実施したいバッチ処理があるが、高コストとなる
・分析前のデータマート構築を迅速化、集約したい
・さらに生データも保持して、分析に使いたい

Oracle Big Data Management System
データ量にとらわれず、新たなテクノロジーの恩恵をどう活用するか
目的
パターン・データ
特性
Hadoop DWH/Database
バッチ処理・
データ加工
バッチ処理と
生データ保持
ETL処理、生データ処理後データ
データ
分析
データ密度・
データ価値
低い高い
フォーマット
変更頻度
多い少ない
粒度細かい粗い
参照頻度少ない多い
SAS 高速化基盤
センサーデータ、
ログデータ、GPSデータ、SNS等
既存のRDBMS内のデータ
（マスターデータ/
トランザクションデータ）
明細データサマリデータ
経年データアクティブデータ
8
バッチ処理・データ加工・
大福帳作成・生データ保持
ETL処理・データ加工後の
データ
SAS アナリティクス高速化基盤

お伝えしたい要点を支える製品・機能・サービス
オラクルが提供するHadoopソリューション
9
Hadoop活用の障壁を下げる HadoopとRDBMSを密連携させる
環境構築・運用・管理を
もっと簡単に、早く、安く
Oracle
Big Data Appliance
両者間のデータ移動を
もっと早く
Oracle
Big Data Connectors
もっと多くの人にデータを
開放する
Oracle
Big Data SQL
HadoopからDBのデータを使う
Oracle Table Access
for Hadoop and Spark
もっと簡単に有益な
データを見つけだす
Oracle
Big Data Discovery
ライフサイクルを見越した
データ管理をする
Copying Oracle Tables
to Hadoop
Hadoop上での処理を
もっと簡単に構築する
Oracle
Data Integrator
他システムと密に連携する
Oracle’s
Big Data Integration
ビッグデータ環境をセキュアなクラウド環境で実行する Oracle Big Data Cloud
Hadoopのアプライアンス製品のご提供1
HadoopとOracle DBとの連携を強化するソフトウェアのご提供2
ビッグデータ活用環境をクラウド上でご提供3

Agenda
Hadoop活用の障壁を下げる
Hadoop環境構築・
運用・管理をもっと
簡単に、早く、安く
Oracle
Big Data Appliance

Oracle Big Data Appliance X6-2
2016/5 Forrester調査：事前最適化されたHadoopシステムで、7ベンダー中、No1を獲得
11
エンタープライズ向け
ビッグデータ活用環境
信頼性
TCO削減
コスト
• ハードウェア、ソフトウェアを
包含し、安価な価格（手組に
比べ45%コスト削減 **）
• 事前構成、調整済
（手組に比べ35%構築
期間短縮**+）
• ノード追加やアップグレード
がコマンド一つで実施可能、
運用コスト削減
処理の高速化
スピード
• ハードウェア、ソフトウェアで
最適化（手組構成より20%
高速化*）
• Map Reduce高速化のための
独自機能（Perfect Balance）
• 内部ノード間でのInifiniband
接続による高速連携
（40Gb/sec）
• 効果に併せて、容易に柔軟
に段階的に拡張可能
• エンタープライズ使用のため
の高度なセキュリティ機能
• エンタープライズ利用目的の
ベストプラクティスに基づく、
事前調整、テスト済
• H/WからS/Wまでの、一元サポートと、 Oracle Enterprise Managerによる一元管理
• Exadataと組み合わせることで、HadoopとRDBMの利点を活かしたビッグデータ活用基盤の構築
＊Intel公開のWhite Paperより：http://www.oracle.com/ocom/groups/public/%40otn/documents/webcontent/2745435.pdf
＊第三者機関ESG調査による、旧来機X5-2での比較： http://www.oracle.com/us/technologies/big-data/eng-systems-for-big-data-esg-wp-2852701.pdf
Oracle
Big Data Appliance

Hardware及びSoftwareの両面からのさらなる最適化を推進
12
Oracle
Big Data Appliance
手組Hadoop環境に比べ
2倍の高速化（＊）
• Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors
may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. For more complete information visit http://www.intel.com/performance. Tests
document performance of components on a particular test, in specific systems. Differences in hardware, software, or configuration will affect actual performance. Consult other sources of information to evaluate performance as you consider your purchase. For more complete information about performance and
benchmark results, visit http://www.intel.com/performance. 1 - Configurations were compared by using the Big Data Benchmark for BigBench.Oracle* Big Data Appliance configuration included 6 nodes comprised of: Intel® Xeon® CPU E5-2699 v3 (HT enabled) with 128 GB DDR4, 12 X 4TB HDD, Infiniband
network (1 connection) observed max throughput 24 Gb/sec, Oracle* Linux Enterprise 6, and CDH* 5.4.4 with modified configuration. DIY cluster configuration included 6 nodes comprised of: Intel® Xeon® CPU E5-2699 v3 (HT enabled) with 128 GB DDR4, 1 x 64GB SSD for OS, 12 X 4TB HDD, 10Gb network (1
connection), CentOS* 6.6, CDH* 5.3.3 with minimal changes. 21% Cost Savings and 30% Faster Time to Value figures based on ESG Report: Getting real about Big Data: Build versus Buy
（＊） Intel実施のX5-2でのパフォーマンステストより。Whitepaperで公開中
Cloudra HPにも記載（ http://vision.cloudera.com/big-performance-gains-for-big-data/）

IntelとOracleの協業でイノベーションをさらにリード
• DIY（手組）と比較してBDAが最大1.4倍、平均1.2倍高速化！（＊）
– Wider Network: 23GbE vs. 10GbE
– Advanced Linux & Apache* Hadoop* configuration
• さらなるチューニングにより最大2.86倍高速化を実現！（＊）
– 一部チューニングは既に最新バージョンで反映済
• 今後Intelとのさらなる協業により、
BDAのHardware及びSoftwareの両面からの
最適化を図っていく
– Spark 活用のためのさらなる最適化など
13
(＊)Intel実施のX5-2でのパフォーマンステストより。詳細は下記参照
https://blogs.oracle.com/datawarehousing/entry/performance_study_big_data_appliance
http://www.oracle.com/ocom/groups/public/%40otn/documents/webcontent/2745435.pdf
https://software.intel.com/en-us/articles/deploying-an-apache-hadoop-cluster-spend-your-time-on-bi-not-diy
Oracle
Big Data Appliance

Perfect Balance: MapReduce高速化のための独自機能（Big Data Appliance標準機能）
14
Oracle
Big Data Appliance
• よくある課題：キー分布の偏りによりMapReduce処理がスケールアウトしない
• 解決策：MapReduce処理前にデータのサンプリングを行い、偏り具合を自動検知、
Reducerごとの処理量を平準化する
時間
Reduce1
Reduce2
Reduce3
Reduce4
mapタスクの
結果を配布
キーの分布に
偏りがある場合
Mapperの出力
時間
Reduce1
Reduce2
Reduce3
Reduce4
Perfect Balance
• Perfect Balanceの有効点
Reduce処理の大幅な時間短縮が見込まれる
正常なスケール・アウト性を確保できる
アプリケーションコードを変更せず、Perfect Balanceを実行可能

Perfect Balance: MapReduce高速化のための独自機能（Big Data Appliance標準機能）
15
Oracle
Big Data Appliance
通常のMapReduce Perfect BalanceによるMapReduce
MapReduce Job 実行時間:
1分45秒
25倍高速化
MapReduce Job 実行時間: 2分5秒
3倍以上高速化
データの偏りがMapReduce jobを遅くしている
MapReduce Job 実行時間: 7分3秒
偏りが極端な場合
MapReduce Job 実行時間:
25分33秒
Y軸：データの割合
X軸：処理タスク
例1
例2

16
ESG（第３者機関）調査に裏付けられた優位性：手組より45%安価に、35%短期で構築可能
Oracle
Big Data Appliance
出典： ESGホワイト・ペーパー
(従来機 X5-2での比較）
35％
構築期間短縮
45％
コスト削減
Big Data Appliance
「Oracle Big Data Applianceは、
Clouderaが提供している主要な
Hadoopベース技術のフル・スイートを
使用したいと考えている顧客にとって
は素晴らしい選択肢です。DIY（ Do It
Yourself：手組）クラスタよりも低コスト
かつ短期間で導入が可能です。」
⁻ Mike Olson
Cloudera founder, Chief Strategy Officer,
and Chairman of the Board

ESG（第３者機関）調査に裏付けられた優位性⇒ 手組より9週間（35%）早く構築
17
Architect
1. Determine what services run in which
locations
2. Design automated failover strategy at all
levels (power, network cards and cables,
network switches, core hadoop,
supporting software, o/s disks, etc)
3. Design security approach
4. Design network approach including
network switches needed
5. Determine optimized match of server
model, drive type, drive count, cpu,
networking, and memory
6. Determine exact versions to use for BIOS,
drive firmware, network cards
7. Design high-throughput approach to
integrate with current enterprise relational
systems
8. Design growth strategy
Acquire
9. Purchase hardware
10. Contract for annual support of operating
system
Oracle Big Data Appliance で省略される、39にも及ぶ構築作業項目
Oracle
Big Data Appliance
11. Contract for annual support of Hadoop
12. Contract for annual support of hardware
Install
13. Rack up the servers
14. Setup network switches
15. Cable the servers
16. Install optimal firmware versions for
BIOS, drives, and network cards
17. Setup RAID
18. Install the O/S
19. Setup all the IPs, including for
administration networks, virtual IPs for
failover, etc
20. Setup tuned O/S parameters (such as file
and page cache, swap, networking, etc)
to support heavy I/O and heavy network
workloads
21. Install MySQL metadata database and
configure for failover
22. Install Hadoop
23. Test the installation
Patch & Upgrade
24. Automated upgrade of firmware without
breaking setup
25. Automated upgrade of O/S
26. Automated upgrade of software
27. Automated addition of new features
Services
28. Enterprise Servers with robust
Redundancy (O/S disks, network
switches, PDUs, Bonded cables)
29. Tested and Automated Failover
30. Enterprise Disks with Predictive Disk
Monitoring
31. Automatic Service Request
32. Oracle Field Hardware Support
Growth
33. As you add servers and rack,
reallocate/balance services appropriately
34. As you add servers and rack, reconfigure
the networking layer
Secure
34. Setup disk encryption
35. Install supporting Kerberos infrastructure,
enable Kerberos, and configure for
failover
36. Setup Audit Vault collector
Annually
37. Renew contract for annual support of
operating system
hardware
Hadoop

18
ESG（第３者機関）調査に裏付けられた優位性⇒ 手組より9週間（35%）早く構築
Oracle
Big Data Appliance
＊出典（ESG Whitepaper）： http://www.oracle.com/us/technologies/big-data/eng-systems-for-big-data-esg-wp-2852701.pdf
＊実際の工数と異なる場合がありますので、都度ご相談ください
2
4
2
4
7
8
3
4
3
4
0
2
0 5 10 15 20 25 30
BDA
手組構成
Architecture, Design , Procurement
Hardware , Network , configuration ,
and implementation
Development , integration , training , etc
Integrated system test , go live
Slack and over-run
Performance Tuning
Week
事前最適化された構
成を、一括調達可能
工場で組み立てされて納
品され、Mammothコマン
ドひとつでセットアップ完
了
エンタープライズ活用
を想定し、事前テスト済
9週間（35%）早く構築可能
エンタープライズ活用を
想定し、事前チューニン
グ済

初期導入時およびノード追加時に、コマンドひとつで安全にベストプラクティスを構築
19
Oracle
Big Data Appliance
Step 1 = PreinstallChecks
Step 2 = SetupPuppet
Step 3 = PatchFactoryImage
Step 4 = CopyLicenseFiles
Step 5 = CopySoftwareSource
Step 6 = CreateUsers
Step 7 = SetupMountPoints
Step 8 = SetupMySQL
Step 9 = InstallHadoop
Step 10 = StartHadoopServices
Step 11 = InstallBDASoftware
Step 12 = HadoopDataEncryption
Step 13 = SetupKerberos
Step 14 = SetupEMAgent
Step 15 = SetupASR
Step 16 = CleanupInstall
Mammoth
コマンドで
実行される
処理
すべてのノードのHDDやネットワークに障害がない
か、SWのバージョンは正しいかなど
全ノードのOSをインストールし、各種ドライバなども
設定
決められたSWコンポーネント配置に基づき、Hadoop
を有効化
Big Data ConnectorsやBig Data SQLなどのオプション
製品を有効化
標準のテストツール（Terasort）を実行し、構成に
問題がないことを確認

H/WからS/Wまで、オラクルの一元サポートと、 Oracle Enterprise Managerによる一元管理
20
Oracle
Big Data Appliance
• Big Data ApplianceをEnterprise Managerから
ハードウェアの監視が可能
Enterprise ManagerによるHW監視 Oracle Enterprise ManagerからのSW監視
•SW設定管理はCloudera Managerと連携

事前最適化されたビッグデータ活用Hadoopプラットフォーム
21
•44のCPUコア（2 ×22 Core (2.2GHz) Intel Xeon E5-2699 v4 Processors）
•96TBのストレージ容量（12 x 8 TB 7200 RPM 高容量 SAS (hot-swap)
•256GBのメモリ (8 x 32GB DDR4-2400 Memory) 768GBまで拡張可能
Oracle Big Data Appliance ノード Oracle X6-2L Server
Oracle Big Data Appliance Starter Ruck:6ノード
• 6台のOracle X6-2L Serverで構成
• 合計264のCPUコア
• 合計576TBのストレージ容量
• 合計1536GBのメモリ（最大4608GBまで拡張可能）
Oracle Big Data Appliance Full Ruck:18ノード
• 18台のOracle X6-2L Serverで構成
• 合計792のCPUコア
• 合計1728TBのストレージ容量
• 合計4608GBのメモリ（13824GBまで拡張可能）
1ノードずつ
追加可能
•40Gb/sec InfiniBand 合計 100 port (内部接続、Exadataへの接続)
•10Gb/sec Ethernet 合計16 ports (データセンター機器との接続)
•Oracle Linux 6.8
•Cloudera Enterprise Data Hub Edition 5.11.1
• Cloudera Distribution including CDH
•Cloudera Impala, Cloudera Search,
Apache HBase, Apache Spark 2.1, Kafka 2.1
•Cloudera Manager,Cloudera Navigator
•Oracle R Distribution
•Oracle NoSQL Database v4.4.6
Oracle
Big Data Appliance
＊ハードウェアのサポート契約で、
上記ソフトウェアのサポートを追加料金なしでご提供
（Oracle NoSQL Database EEを除く）
ソフトウェア(v4.9)

Big Data Applianceは、なぜ業界No1なのか？（1/2）
• 高集約型Hadoop
– 他社：小さいサイズのディスクを大量に配置->故障率の増加、膨大な設置スペース
– BDA：８TB HDDを採用する事で設置スペースを効率化
• リバランスやバックアップも最適化
– 他社：細いN/Wを内部結線として使用しているためノード障害時や拡張時のデータ再配置に時間がかかる
– BDA：InfiniBandを採用することで、データ再配置時間を極小化
DBとの接続もIBになるため、大量データ転送時もネットワークへの影響少
（BDAが世界で初めてHadoopのマルチネットワーク環境を実装）
• 圧倒的なコストパフォーマンス
– Hadoopは、比較的簡単に限界性能を引き出せるため、ノード追加はあたり前。
そのため、初期だけでなくクラスタ増強時もコストは重要。（他社の約半額）
22

Big Data Applianceは、なぜ業界No1なのか？（1/2）
• ピュアなHadoop
– 他社：高速化のために内部構造に改修を加える->OSSとのかい離
– BDA：Hadoopは、純粋なCDH(Cloudera Distribution of Hadoop)をオラクルがチューニング及び
事前検証した状態で提供
• ワンストップサポート
– 他社：H/W、Switch、OS、Java、リポジトリDB、Hadoopの原因を切り分けて問い合わせが必要
– BDA：全てオラクルのSRで対応可能
• Oracle DBとの親和性
– 他社：疎結合（JDBCで接続）
– BDA：Exadataで培った技術をHadoopに適用するため専用のソフトウェアを提供
(詳細は次ページより)
HW/SW監視・・・Enterprise Managerで統合監視
23

Agenda
もっと多くの人に
データを開放する
Oracle
Big Data SQL

Oracle Big Data SQL
25
Smart Scan
クエリをExadataの
ストレージサーバーにオフロード
Storage Index
クエリに必要な
データブロックのみをスキャン
SQL一つで、
必要なデータが
高速にセキュアに返される
Smart Scan
クエリをBig Data Applianceの
データノードにオフロード
Storage Index
クエリに必要な
データブロックのみをスキャン
Predicate Pushdown
Hadoopが得意な処理を、
Hadoop側で実施ン
SQL
必要データ
のみ移動
SQL
Hadoop Oracle Database 12c
ビッグデータの活用をよりシンプルに、しかも迅速に、そしてセキュアに
既存のアプリ、ツール、スキル
そのままで全てのデータがクエリ可能
Oracle
Big Data SQL
Hive
metadata

next = lineNext.getQuantity();
}
if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) {
state = "S";
return state;
}
if (gt(q, prev) && gt(q, next)) {
state = "T";
return state;
}
if (lt(q, prev) && lt(q, next)) {
state = "B";
return state;
}
if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) {
state = "E";
return state;
}
if (q.isEmpty() || eq(q, prev)) {
state = "F";
return state;
}
return state;
}
private boolean eq(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return a.equals(b);
}
private boolean gt(String a, String b) {
return false;
}
return Double.parseDouble(a) > Double.parseDouble(b);
}
private boolean lt(String a, String b) {
return false;
}
return Double.parseDouble(a) < Double.parseDouble(b);
}
public String getState() {
return this.state;
}
}
BagFactory bagFactory = BagFactory.getInstance();
@Override
public Tuple exec(Tuple input) throws IOException {
long c = 0;
String line = "";
String pbkey = "";
V0Line nextLine;
V0Line thisLine;
V0Line processLine;
V0Line evalLine = null;
V0Line prevLine;
boolean noMoreValues = false;
String matchList = "";
ArrayList<V0Line> lineFifo = new ArrayList<V0Line>();
boolean finished = false;
DataBag output = bagFactory.newDefaultBag();
if (input == null) {
return null;
}
if (input.size() == 0) {
return null;
}
Object o = input.get(0);
if (o == null) {
return null;
}
//Object o = input.get(0);
if (!(o instanceof DataBag)) {
int errCode = 2114;
SELECT first_x, last_z
FROM ticker MATCH_RECOGNIZE (
PARTITION BY name ORDER BY time
MEASURES FIRST(x.time) AS first_x,
LAST(z.time) AS last_z
ONE ROW PER MATCH
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price)),
Y AS (price > PREV(price)),
W AS (price < PREV(price)),
Z AS (price > PREV(price) AND
z.time - FIRST(x.time) <= 7 ))
250行以上の Java UDF 12 行のOracle SQL
Oracle SQLなら、20倍もコードが少なくて済む
しかも標準機能としてサポートされる
10:00 10:05 10:10 10:15 10:20 10:25
Oracle SQLの豊富な分析関数例：パターンマッチング
例：機器ログでのDouble Bottom (W)パターンを検出するパターンマッチング
26
Oracle
Big Data SQL

Oracle Big Data SQL
27
Hadoop上のデータへの高速なデータ処理
Oracle
Big Data SQL
高速化技法
不要なデータを転送しない
不要なブロックをReadしない
ブロックReadを早くする
（Hadoopの分散ファイルシステム
（HDFS））
Big Data SQLの機能
Smart Scan
Hadoop側でクエリに必要なデータに行と列を
絞り込み
StorageIndex
Hadoop側でクエリ条件に合致しないブロック
のスキャンをスキップ
Hive pruning
Hiveパーティションでクエリ条件に合致しない
ディレクトリのスキャンをスキップ
Parquet/ORC pushdown
クエリ条件に合致しない列のスキャンをスキッ
プ

Oracle Big Data SQL
select last_name, state,
movie, genre
frommovielog m,customer
c
where genre=‘comedy’
andc.custid=m.custid
Smart Scan：ローカルでの絞り込み・データ転送の極小化
1
NameNode/Hive Metastoreから
以下の情報取得:
• データの保持場所
• データの構造
• 対象のブロック数
1
2
Big Data SQL Serverが並列読込み:
• DataNodeが並列にデータアクセス
• 行と列の絞り込み
2
HiveMetastore
HDFS
NameNode
3
データベースサーバーでの処理
• 関連するデータのみ転送されてくる
• データベースのテーブルとジョイン
• データベースセキュリティポリシーの適用
3
HDFSDataNode
BDS Server
HDFSDataNode
BDS Server
customer
DB
Hadoop
28
Oracle
Big Data SQL

Oracle Big Data SQL
Storage Index：スキャン対象を絞込み、クエリ時間とデータIOを削減
29
HDFS
Field1,Field2,
1001
1010
1045
1109
1043
1001
1045
1609
1043
11455
1909
12430
13010
10450
1909
2043
Field3, … ,Fieldn
HDFS
Block1
(256MB)
HDFS
Block2
(256MB)
Index
B1 – Movie_ID
Min: 1001
Max: 1609
B2 – Movie_ID
Min: 1909
Max: 13010
Example:
Find all ratings from
movies with a
MOVIE_ID of 1109
✓
✗
• 自動的にHDFS上のデータブロック毎
のIndexの最大値と最小値を作成
• スキャン前に目的のデータが最大
値-最小値の間にあるかを確認
• 最大値-最小値の間になければ、
スキャンを行わず、クエリにかかる
時間と、HDFSからのI/Oを削減
平均65%、最大100倍高速化
Oracle
Big Data SQL

Oracle Big Data SQL
30
Hadoop上のデータにもOracle Databaseの強固なセキュリティ機能を提供
Big Data Appliance
+
Hadoop
Exadata
+
Oracle Database
SSN EMPID LAST FIRST SALARY
111-11-1111 275895 Smith John 125275
222-22-2222 335685 Jones Sally 250950
333-33-3333 558544 Stinson Chuckie 32000
EMPID LAST FIRST
275895 Smith John
335685 Jones Sally
SSN SALARY
111-11-XXXX 125275
222-22-YYYY 250950
333-33-ZZZZ 32000
•BDAの持つ機能
—Kerberos/LDAPによる認証
—Apache Sentryによる認可
—Oracle Audit Vault Fire Wallによる監査
—HFDSのデータ格納されるHDDの暗号化
—ネットワーク暗号化
•データベースのセキュリティ制御
—マスキング/リダクション
—仮想プライベートデータベース
—ファイングレインアクセス制御
•セキュリティ管理の統合、シンプル化
Oracle
Big Data SQL

Oracle Big Data SQL
Predicate Push-Down：Hadoopが得意な処理を、Hadoop側で実施
31
Data Node
Big Data SQL Agent
External Table Services
Smart Scan
Data Node
Big Data SQL Agent
External Table Services
Smart Scan
SELECT ticker,
AVG(price)
OVER (
PARTITION BY ticker
ORDER BY mnth
) as avg_price
FROM stock_prices
WHERE mnth < :x
AND mnth > :y
AND stx_xchange = :z
ORDER BY mnth
WHERE mnth < :x
AND mnth > :y
SELECT ticker, price, mnth
WHERE mnth < :x
AND mnth > :y
• 処理を下位層に断定的に
譲渡（含むバインド変数処理）
• Hadoop側で絞り込む場合
 Parquet/ORCファイル
 Hive パーティションからの切取
 Hbase サブスキャン
• 他はSmart Scanで絞り込む
Oracle
Big Data SQL

Big Data SQLとの組み合わせで広がる新たな活用
Oracle Confidential – Internal/Restricted/Highly Restricted 34
データ保持コストの削減
非構造データ
過去データ
明細データ
構造データ
アクティブデータ
サマリデータ
使用頻度や目的、ライフサイクルに応じて、
適材適所のデータ配置
時間帯での使い分け
夜間の非稼働時間を利用し、バッチと分析を同一基盤で実施
バッチサーバのコストの集約
12c
日中
12c
夜間
12c
分析中心バッチ処理中心
Oracle
Big Data SQL

Oracle Big Data SQL3.1 リリースハイライト
1. Expanded Deployments
– DatabaseとHadoopの組み合わせパターンが増えました
2. Ethernet Option for Connections to the Exadata Database Machine
– Exadataとの接続にEthernet 接続も可能となりました
3. Simplified Deployment on Oracle Database Servers -Oracle Grid Infrastructure is now Optional
– Database側のグリッド構成が必須でなくなりました
4. Unified Platform Support in the Oracle Big Data SQL Installer
– BDSのインストーラが、BDAとDIY環境で統合されました
5. New Features to Simplify ILM - Oracle Database Tablespaces in HDFS
– DBのテーブルスペースをHDFS上に配置できるようになりました。ただし、Read-Onlyです
6. Enhancements in Oracle Shell for Hadoop Loaders（OHSH） 1.2
– DBとHadoopの統合シェルコマンドである、Oracle Shell for Hadoop Loadersが拡張されました
7. Enhancements to Copy To Hadoop
– OHSHでdirectcopyというオプションが追加され、DBのpumpデータを直接HDFSに着地させることができるようになりました
8. Installation Instructions Moved to Oracle Big Data SQL Installation Guide
– インストールガイドが独立しました
35
主なUpdate（マニュアルより）
Oracle
Big Data SQL

1.Expanded Deployments
36
Big Data SQL適用パターンが拡大、さらに多くのお客様にHadoopとDBの統合活用を提供
Engineered Systems
XB
Oracle Cloud
Commodity Servers Mixed Deployment
Engineered Systems
Mixed Deployment
* Coming Soon!
詳細な対応バージョン等は、 Compatibility Matrixを参照ください
Oracle
Big Data SQL

5.New Features to Simplify ILM
- Oracle Database Tablespaces in HDFS
37
より多くのデータを安価に、セキュアに、SQLで分析可能に
Oracle Big Data SQL
Rolling 13
monthsMonth 14-n
Oracle Big Data SQL 3.0 w/ DB12c
• HadoopフォーマットでHDFSにデータ保持
• Big Data SQLによりスキャンや絞込み処理
をHadoop側にオフロード可能
Oracle Big Data 3.1NEW w/ DB12c
• OracleフォーマットでHDFSにデータ保持
• dbfをネイティブに取り扱うことが可能
パフォーマンスがさらに向上
New capability in 3.1
Data Stored in Oracle format
Oracle
Big Data SQL

38
2つのパターンを実現。HDFS上のデータをOracle側で実表としても定義可能に
• 1. Viewによる統合(従来の方式) • 2. ハイブリッドテーブル
HDFS With BDS
HDFS
With BDS
DATABASE
VIEW
DATABASE
実表
実表外部表
HDFS
DATABASE
Oracle
Big Data SQL

39
2つの統合方式：HDFS上のデータをOracle側で実表としても定義可能に
Oracle
Big Data SQL
…JAN 2014 FEB 2014 MAR 2014 OCT 2017 NOV 2017 DEC 2017
HDFS
Orders
Database
OCT 2017 NOV 2017 DEC 2017
JAN 2014 FEB 2014 MAR 2014
1 全てのパーティションが実表にある3
ハイブリッドな
パーティションテーブル
実表のレイアウトは変更なし
＝アプリに影響なし
2 ホットではない、パーティションをHDFSに移動

OracleBig Data SQL詳細情報
• マニュアル
– Oracle Big Data SQL Online Documentation Library Release3.1
• ご参考資料
– Oracle Database 12c Release 2 コアテク・セミナー(2016/10）資料、6．Big Data
40
Oracle
Big Data SQL

Oracle Big Data Appliance＋Asakusa Framework
41
＋

Oracle Big Data Appliance ＋ Asakusa Framework
バッチ処理も、分析も。エンタープライズのHadoop活用をさらに推進
42
Oracle Big Data Appliance
・高性能・高信頼なHadoop環境
・導入、運用コストの削減
・独自高速化機能、Big Data SQL
をはじめとする分析機能
＋
エンタープライズでの豊富な実績
Asakusa Framework
・ノーチラス社が提供
・分散バッチ開発フレームワーク
・Hadoop上のバッチ開発
（MapReduce/Spark）を容易かつ高速化
・Oracle機能のための拡張機能
＋
エンタープライズでの豊富な実績
＋
エンタープライズのお客様にお届けする価値
導入の短期化、コストとリスクの低減1
運用、追加開発の短期化、コストとリスクの低減2
バッチ処理の高速化と、新たなビッグデータ分析を両立3

Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 43Proprietary & Confidential
Asakusa Frameworkとは
 Asakusa DSL から Hadoop / Spark アプリを生成
 データフロー設計から、そのまま実装が可能
 Hadoop / SparkのAPI知識は不要
 ソースコードを変更せず、Hadoop / Spark両方で動作する
Batch JobFlow ProcessFlowPart
Job
#1
Job
#2
Job
#3
Job
#4
1. ……………
1.1. ………
1.2. ………
2. ……………
2.1. ………
2.2. ………
2.a. ………
3. …………
4. …………
Batch DSL Flow DSL Operator DSL
 三層DSLによるシンプルなJavaプログラムの組合せ
DSL
コンパイラ
Asakusa DSL
MR
#1
MR
#2
Hadoop / Spark App
各層でのテスト記述・自動化が
可能
高品質なアプリケーション開発
を行える
従来のバッチ処理と
同じ設計・処理モデル
学習コストが低い
Hadoop / Spark 上で業務バッチ処理を実現するための開発フレームワーク

Copyright © 2016 Nautilus Technologies, Inc. All rights reserved.
NAUTILUS 44Proprietary & Confidential
 Asakusa Frameworkは、構造化設計に基づいたDSLを持っており、従来の
バッチと同じ感覚で、設計・実装が可能
 アプリケーション開発者は並列／分散処理やHadoop/Spark APIを意識しなく
て済む
Asakusa Frameworkの開発容易性
COBOL Asakusa Framework
JCL
コピー句
データ構造定義
コピー句
フローDSL
DMDL
DMDL
最小限の
プログラム処理
最小限の
コピー句
（Operator）
（Operator）
DMDL
限られた関数で
Javaによる実装
設
計
手
法
は
共
通
プログラム処理のINと
OUTのデータ構造を定
義
リランを意識した処
理の組み立て
異常時の運用やリアンを容易に
するためチェックポイントを意
識した設計

エンタープライズのすべてのHadoop活用に対応
Oracle Big Data Appliance＋Asakusa Framework
• 複雑なスクラッチHadoop開発の効率化
– Asakusa Frameworkを利用した分散処理開発の難易度低下（工数削減）
– Oracle Big Data Appliance を使った基盤構築/導入のハードル低下
– ログ分析以外の多種多様な利用シーンへの適用
• より高速なバッチ処理の実現
– Asakusa Frameworkによる最適化＋ Oracle Perfect Balance
• Oracle DBとの親和性
– Oracle Big Data SQLとの連携
– データの用途による使い分け
• TCOの向上
– Oracle BDAの分析用途以外への適用
– 分析は夜間稼働が少なく、その非稼働時間を利用し、業務系バッチを同一基盤で実施、バッチサーバコス
ト集約
45
事前最適化されたBig Data Applianceと、業務処理開発を容易にするAsakusa Framework
により、エンタープライズのすべてのHadoop活用を、より迅速に、より低リスクで実現

高性能なバッチ処理
46
・Asakusa Framework と Oracle Perfect Balance の連携によるアプリケーションの最適実行
Asakusa Frameworkによる
MapReduce処理の最適化
Oracle Perfect Balanceによる
Reduce処理の高速化
MapReduceの数が
最小になるように最適化データの偏りによる
Reducerの負荷を
平準化
Asakusa Perfect
Balance
Acceleration
Reduce処理にOracle Perfect
Balanceを利用
（ユーザーコードの変更なし）
Oracle Perfect Balance

RDBMSとの親和性
47
・Asakusa Framework の入力として、Oracle DB上のデータも利用可能
・Asakusaでの処理実行後に、Oracle Big Data SQL連携のための、外部表DDL文を作成
Oracle Big Data Appliance Exadata Database
DB
Data Reservoir (HDFS)
BI Tools
Enterprise
Applications
Adhoc
SQL
業務ユーザー
Oracle Big Data
SQL
外部表経由でHadoop上
のデータにアクセス
Asakusa DirectIO
for BDS DDL
企業内データ
複雑なバッチ処理
Asakusa Windgate
for Oracle
DMDL

＋ Micro Focus Visual COBOL
48
＋

Oracle Big Data Appliance ＋ Asakusa Framework ＋ Micro Focus Visual COBOL
Hadoopによるメインフレームモダナイゼーション
49
・汎用的な部分や新たな開発は、Asakusaを使って、Hadoop上の分散処理に書き換え
・既存COBOL資産はMicro Focus社のVisual COBOLを使ってJVMクラスに変換し、
Asakusaを使ってHadoop上の分散処理へ無理なく変換
PoCの結果(*)
・対従来システム
188倍高速化
・対従来リホスト
27倍高速化
(*)Micro Focus社実施、PoC結果より
・IBM z13 2965-N10
・Oracle Big Data Appliance X5-2 （旧型）6ノード構成
・営業店（エリア）別、月別保険料算出集計
サンプルプログラム
・保険料算出はCOBOLを動かし、ジョブ全体制御は
Asakusaで記述、集計もAsakusaで記述
・対象データ20GBでの数値
・2016/11/22 COBOLフォーラム2016発表
Re-Host
Re-Write
・並列分散のメリットを活用し
高速化したい
・新たな開発ニーズへの対応
・スキル、ライセンスの課題
・一から書き直しは多大な
工数とリスクが発生
・既存資産も活用したい
・10進数対応などへの対応要
現行メインフレーム
COBOL
(JVM クラス)
MapReduce
シェル等
Hadoop上で
並列分散処理
Hadoopを使った
新たなモダナイゼーション

Oracle Big Data Appliance ＋ Asakusa Framework ＋ Micro Focus Visual COBOL
Hadoopによるメインフレームモダナイゼーション
50
詳細構成
50
事前最適化されたビッグデータ活
用 Hadoop プラットフォーム
Oracle Big Data Appliance (BDA)
を導入して並列分散処理による高
速化を図る
ソート並びに集計のような汎用的
なロジックは MapReduce で置き
換え
一般的に組み上げが困難と言われ
る MapReduce のロジックはノー
チラス・テクノロジーズ Asakusa
Framework で、平易に開発・移行
Micro Focus Visual COBOL に搭
載された COBOL for JVM の機能
を活用し、既存の COBOLプログ
ラム資産を書き換えることなく
JVM クラスへ変換
→ MapReduce の
ロジックへ組み込み
→ Micro Focus の固有の技術！
COBOL
(JVM クラス)
MapReduce
シェル等
Hadoop上で
並列分散処理
Hadoopを使った
新たなモダナイゼーション

Microfocus社の検証結果はこちらにて公開中
• http://www.microfocus.co.jp/resources/whitepaper/pdf/white_paper_082.pdf

Agenda
Oracle
Big Data Discovery

Oracle Big Data Discovery
53
データ分析前の1000本ノックをいかにアジャイルに迅速に繰り返すか
大量にあるデータのうち、どの
データを使えばいいかわからない
（データの把握、データの理解）
属性の関係性有無など、データを
どう使えばいいのかわからない
（変数の選択、把握）
後工程の分析に必要なデータ加
工がむずかしい
（データの加工）
データの理解
データの準備
Hadoopによるビッグデータ活用で生じる新たな課題
データ分析の80%もの
工数と時間が費やされる
20%に削減するソリューション
Oracle
Big Data Discovery

54
直感的なUI画面でHadoop上のビッグデータ活用の生産性を向上
1.Hadoop上のデータ
を可視化、タグ付け
2.データの値特性、
品質、分析価値
有無を可視化
3.データの因果関係、
説明変数のシミュ
レーションと把握
4.次の分析のために
データ加工
Oracle
Big Data Discovery

Oracle R Advanced
Analytics for Hadoop
・RとHadoopを活用した分析の
ためのソフトウェア
・R言語のみでデータマイニング
の分散並列処理が可能
・HDFS上のデータへR言語から
アクセス
・Spark対応
Oracle Big Data
Spatial and Graph
（Spatial Analytics）
・豊富な空間演算関数
・近傍情報、ジオフェンス判定
・位置情報への付帯情報の付加
・空間データ、ラスタ（画像）
データの加工・準備
Oracle Big Data
Spatial and Graph
（Graph Analytics）
・プロパティグラフ
・標準のグラフ分析関数
・ソーシャルメディア分析
・IoT
・サイバーセキュリティ
55
Oracle’s Big Data Advanced Analytics Solutions
Hadoop上でHadoop上のデータを使ってビッグデータ分析を実現
Hadoop上で、ビッグデー
タ分析をしたい
Oracle’s Big Data
Advanced Analytics
さらに

Oracle Advanced Analytics
Option
・Oracle Data Mining
データベース内部でマイニング
処理可能
SQL Developer/Oracle Data Minerに
よるGUIによる開発
・Oracle R Enterprise
データベース内でRと同等の統計機
能を提供
Rのメモリサイズの制約を排し、大
規模データセットを扱うことが可能
Oracle Spatial and Graph
Option （Spatial Analytics）
・Oracle DB上で空間データを扱うた
めのデータ型、関数を提供
線形参照システム、空間索引機能、
座標系変換機能など
SQLで空間データの検索、分析が
可能
・ExadataやPartition、パラレルクエ
リなどOracle DB機能も併用し、分
析処理を高速化
Oracle Spatial and Graph
Option（Graph Analytics）
・ネットワークグラフ
ノードとエッジで関係性を表現
ネットワークデータモデルへのプロ
シージャを活用した容易な移行性
・RDFセマンティックグラフ
SQLによるアクセスが可能（内部関
数としてSPARQLを記述)
リレーショナルデータから、RDFモデ
ルに変換可能
56
Oracle Databaseを包括的な高度な分析プラットフォームへ進化（In-Database Analytics）
データベース上でも、
データ分析をしたい
Oracle’s Big Data
Advanced Analytics
もちろん
Exadataはもちろんのこと、Oracle DB機能も活用可能なため、
大規模データを高速にセキュアに分析可能

SQLのみならず、機械学習、R言語をHadoopとOracleDB上で
57
R言語でデータ分析を
したい
Oracle’s Big Data
Advanced Analytics
Oracle Database Server
with Advanced Analytics Option
R
Hadoop Cluster
Big Data
SQL
Oracle R Enterprise
(ORE)
R Client
SQL Developer
SQLアプリケーション
SQL Client
Oracle ExadataBig Data Appliance
SQL
R
Oracle R Advanced
R Client
センサーデータ、
ログデータ、etc
マスターデータ、
トランザクションデータ、etc

Oracle R Advanced Analytics for Hadoop
Hive, 並列分散処理、MapReduce：Hadoopのデータ分析全てのフェーズをRで
Hadoopの分析フェーズ全てをR言語で
1. HDFS上のデータへのR言語からのアクセス
2. Hiveを利用したデータ処理をRから利用可能
3. RからOracle提供の関数を利用し、データマイニングを分散並列処理
(MapReduceの開発不要)
1. 回帰分析、クラスタリング、主因子分析、相関分析、協調フィルタリング・・・
2. MapReduceを書かずにHadoopの並列分散処理の性能を享受できる
4. MapReduceをR言語で記述
5. Oracle DatabaseとHadoopの間のデータの移動をRから指示
58
したい
Oracle’s Big Data
Advanced Analytics

Hadoop Cluster
with Oracle R Advanced Analytics for Hadoop
Oracle R Advanced Analytics for Hadoop
Hive, 並列分散処理、MapReduce：Hadoopのデータ分析全てのフェーズをRで
R Client
HQL , Data Prep, Joins and View creation
HQL
R
1.HDFS上のデータへの
R言語からのアクセス
2.Hiveを利用したデータ加工を
Rから利用可能
3.独自関数をRで利用し、データ
分析を並列分散処理
（MapReduce,Spark開発不要）
MLP Neural Nets*, GLM*, LM, PCA,
k-Means, NMF, LMF (*Spark base)
4.MapReduceをRで記述
Open-source R packages via Map-Reduce
5.Oracle DBとHadoop間
のデータの移動をRから指示
59
したい
Oracle’s Big Data
Advanced Analytics

Agenda
Oracle
Data Integrator

Oracle Data Integrator
Oracle Data Integrator Application Adapters for Hadoop
Oracle Data Integrator Advanced Big Data Option
• ファイル/RDBMSからHiveへのロード
• Hive を利用したデータの検証と変換
• FileもしくはHiveからOracleへのロード
62
Map Reduceによるデータ加工やETL処理、DBへのデータロードをGUIで定義可能
Hadoop Cluster
f(x) MapReduce
Data Load
Oracle Database
Application Adapters for Hadoop
• 追加オプションでSparkやPigのコードを
生成する事が可能
• Hadoopの最新技術を活用した、
高速なインメモリ処理がGUIで定義可能に
Oracle
Data Integrator

Oracle Data Integrator Application Adapters for Hadoop
Oracle Data Integrator Advanced Big Data Option
63
GUIの画面で論理的なデータフローを、物理的なフローに変換可能
Logical
Design
Physical
Design
Oracle
MySQL
Hive
Sqoop
Sqoop
IKM
LKM
LKM
Oracle
Hive
MySQL
Hive
Oracle
Data Integrator

Agenda
HadoopとRDBMSを密連携させる

HadoopとRDBMSの密連携ソリューション
65
①両者間のデータ
移動をもっと早く
Oracle Big Data Connectors
Hadoop上のデータをOracle DBへ
高速ロード（15TB/時間）
②HadoopからDB
のデータを使う
Oracle Table Access for
Hadoop and Spark
データの移動の必要なく、Hadoop
からOracle DBのデータにアクセス
③ライフサイクル
を見越したデータ
管理をする
Copying Oracle Tables to Hadoop
Oracle DB上の過去データを
Hadoopに安価に保持
④他システムとも
密に連携する
Oracle’s
Big Data Integration Solutions
データ連携、メタデータ管理、データ
ガバナンス：ヘテロな環境にも対応
BDA（Hadoop）
and others
Exadata（RDBMS）
①
③
②
④
④

Agenda
両者間のデータ移動
をもっと早く
Oracle
Big Data Connectors

Oracle Big Data Connectors
R分析やRDBMSとのデータ連携など、Hadoop上のデータのさらなる活用を実現
R Analytics
Oracle R Advanced
Analyticson Hadoop
Knowledge Modules
XML/XQuery
Oracle XQuery on
Hadoop
XQueryR Client
Data Load
Oracle Loader for
Hadoop
Data Access
Oracle SQL Connector
for HDFS
•HDFSからOracle Databaseへ高速にデータをロード
•Oracle DatabaseからHDFSへ外部表としてSQLでアクセス
•HadoopからOracle Databaseへのロード処理をGUIで作成実行
•XMLファイルの加工・分析に有効なXQueryをMap/ReduceのJobに変換、実行
•HDFS 上のデータに対する R 言語処理を実現
67
もっと早く
Oracle
Big Data Connectors
Many versions
10g Release 2
11g Release 2
12c
On any OS platform

Oracle Loader for Hadoop （Oracle Big Data Connectors 機能）
68
Hadoop上のデータを並列処理でOracle DBに高速データロード
• Hadoop上のデータを並列処理で
Oracle DBに高速データロード
– BDA-Exadataでの検証
– 4.4 TB/hour (Hadoop process + load)
– 15 TB/hour load time
• Hadoop側でフォーマット変換するため、
Oracle DBへの負荷を最小化
• 自動ロードバランスによる
データロード処理時間の短縮
• ケルベロス認証のサポートによる
セキュアなデータ連携
• 定常的なデータ移動に最適
JSON
Log
files
Hive
Text ParquetAvro Sequence
files
Compresse
d
files
And more …
もっと早く
Oracle
Big Data Connectors
Many versions
10g Release 2
11g Release 2
12c
On any OS platform

69
パーティション対応したData PumpをMapReduceで作成し、Direct Pathでロード
もっと早く
Oracle
Big Data Connectors
HDFS上の対応フォーマット
形式摘要
Hive Hiveテーブルからの読み取り
テキスト(可変長、正規表現) HDFS上のデリミタ区切りのファイルもしくは、フォーマット
を正規表現で記述可能なファイルからの読み取り
任意のフォーマット InputFormatを独自に実装可能
データベースへのロード方式
方式摘要
OCI Direct Path ロードに最適化されたDirect Path Loadモードを利用する
ため高速
データベースバッファを経由せず、直接データブロックを
生成するため高速
JDBC JDBCによる接続、ロード。
Offline ロードに最適化されたファイル(Data PumpもしくはCSV)を
HDFS上に生成
高速化を支える仕組み
•通常のJDBCインタフェースの他に、
Oracle DBへのロードに最適化された
Direct Path Loadを利用することが可能
• Oracle DatabaseのPartitionごとに並列に
ロード処理を行うことが可能なため高速
•データのサンプリングを行うことにより、ロー
ド処理を行うReducerの数を適切に割り当て
ることで、処理完了までの時間を短縮

70
パーティション対応したData PumpをMapReduceで作成し、Direct Pathでロード
もっと早く
Oracle
Big Data Connectors
Apache log
files
Parse and transform
into Oracle data types
Load into
database table
Apache Logファイルの転送例

71
自動ロードバランスによるデータロード処理時間の短縮
もっと早く
Oracle
Big Data Connectors
時間
Reduce1
Reduce2
Reduce3
Reduce4
※ maxSamplesPctとmaxLoadFactorと loadCIの組み合わせによっては、統計的に条件を満たせないこともある。
その場合には、サンプリングに基づいたロードバランスを実施しない。一般的にはデフォルト値が効果的。
以下のパラメータを使い、サンプリングの精度を設定可能
•データの偏りをサンプリングで事前検知
•パーティションごとにデータに偏りがある場合、割り当てる
Reducerの数を調整し、最適なロードバランスを実現
Partitionごとにロードを行う場合でも、Partition
間のデータの偏りをサンプリングで検知して、
割り当てるReducerの数を調整する。
結果、各Reducerの処理量が平準化され、トー
タルの処理時間の短縮が実現される。
パラメータパラメータの意味
enableSampling サンプリングを行うかどうか
maxSamplesPct 元データのうち最大どれだけの割合のデータをサンプリングするかを指定
(default:0.01)
maxLoadFactor どのreducerも、ここで設定した割合以上のオーバーロードが起きない
(default:0.05)
loadCI 統計的に、ここで指定した確率でmaxLoadFactor以内のオーバーロードに収まる
(1から有意水準を引いた値)(default:0.95)

Oracle SQL Connector for HDFS （Oracle Big Data Connectors 機能）
72
Oracle Databaseから、SQLでHDFS上のファイルに外部表としてアクセス
もっと早く
Oracle
Big Data Connectors
Many versions
10g Release 2
11g Release 2
12c
On any OS platform
HiveText
Compresse
d
files
OSCH
• Oracle Databaseの外部表としてHDFS上
のファイルをSQLで扱うことが可能
• Oracle Databaseが持つ、並列処理の仕
組み(パラレルクエリ、パラレルDML)を
活用し、高速なOracle Databaseへの
ロードが可能
• 固定長、デリミタ区切りのファイルの他
に Data Pumpファイル（ Oracle Loader
for Hadoopのofflineモードで生成され
たロード用のファイル）、Hiveのパーティ
ション表にも対応

73
もっと早く
Oracle
Big Data Connectors
外部表
データを含むファイル
2. ファイルからデータを読み込み
※ファイルは、Oracle Database
Serverからアクセスできる位置に
ある必要がある
課題
HDFSは(通常) 直接OSにマ
ウントすることができない
ため、HDFS上のファイル
は、このままでは外部表と
して扱うことができない
Databaseサーバ 1.クエリ発行
外部表とHadoopで活用の課題

74
もっと早く
Oracle
Big Data Connectors
動作概要
HDFS
クライアント
OSCH
バイナリ
Databaseサーバ
Hadoopクラスタ
Location File
HDFS上のファイ
ルのPathが指定さ
れている
hdfs://localhost:54310/da
ta/s2/sales.csv
2. Location Fileで、HDFS
上の対象ファイルのパスを
確認し、OSCHを呼び出し
3. HDFSのAPIを利用し
てデータを取得
1.クエリ発行
外部表

75
Oracle Big Data Connectorsの性能
もっと早く
Oracle
Big Data Connectors
最大12TB/時のロード性能 DBサーバーのCPU時間は50分の1
Big Data ApplianceとExadata X2-8を利用して計測
詳細は、以下のホワイトペーパーをご参照ください
http://www.oracle.com/technetwork/bdc/hadoop-loader/connectors-hdfs-wp-1674035.pdf
※ Oracle Loader for Hadoopでは、Exadata X2-8の2台の
データベースサーバーのうち一台のみ利用
Oracle SQL Connector for
HDFS
HDFS(Data Pump)
HDFS(CSV)

Agenda
Hadoopから
DBのデータを使う
Oracle
Table Access for
Hadoop and Spark

Oracle Table Access for Hadoop and Spark（Oracle Big Data Appliance機
能）
Hive、Sark SQL、ImpalaといったHadoopからOracle Databaseのデータにアクセス
Big Data Appliance
Cloudera Hadoop
Oracle Database
Hadoopから
DBのデータを使う
Oracle Table Access for
Hadoop and Spark
HCatalog
StorageHandler
JDBC
• Oracle DBからのデータの
移動の必要なく、Hive SQL,
Spark SQLからOracle DBのデー
タにアクセス可能
• Hadoopからのデータ
アクセスを並列化し、高速
かつセキュアに実現
77

Agenda
ライフサイクルを
見越したデータ管理
をする
to Hadoop

Copying Oracle Tables to Hadoop
（Oracle Big Data SQL機能）
データライフサイクルを見越した低コストでのデータ管理
Big Data Appliance
Cloudera Hadoop
Exadata
Oracle Database
Copy
Partition to
Hadoop
Oracle Big Data SQL
直近12ヶ月
分のデータ
13ヶ月目
以降のデータ
ライフサイクルを見越し
たデータ管理をする
to Hadoop
• ビジネス上重要なデータを
Oracle Databaseに保持
• 過去データをHadoop上に
安価に保持
– Hadoop上でデータ分析を実施
– アーカイブデータによる非定形な
クエリの実施
• 既存アプリケーションに改修の
必要なく、全てのデータにSQL
でクエリ可能
SQL
79

Agenda
他システムと密に
連携する
Oracle’s
Big Data Integration
Solutions

Oracle’s Big Data Integration Solution
データ連携、メタデータ管理、データガバナンス：ヘテロな環境にも対応可能
81
連携する
Oracle’s Big Data
Integration Solutions
Oracle Data Governance FoundationOracle Enterprise Data Quality
Oracle Enterprise Metadata Management with Business Glossary
Staging
Sqoop
HDFS
Hive
Flume
ETL Offload / Transformation
Data StreamingKafka (MPP Pub/Sub)
Storm and Trident
Spark Streaming
HBase
Discovery Sandbox/s
R
UnstructuredStructured
Oracle GoldenGate
Oracle Data
Preparation

Oracle GoldenGate for Big Data
82
連携する
Oracle’s Big Data
Capture
Trail
Route
Deliver
Pump
New DB/
HW/OS/APP
Zero Downtime Upgrades
& Data Migration
Fully Active
Distributed
DB
High Availability
& Disaster Recovery
Application
Offloading
Query & Report Offloading
Big Data, DW
& Marts
Real-time BI, Hadoop Data
Staging, Data Ingestion
Event Driven Architecture,
SOA/JMS, Coherence
Message Bus
& Data Grid
Data Synchronization
Across the Enterprise
Global Data
Centers
Real-time Analytics
& Massive Parallelization
Data
Streaming
GoldenGate
Real-time
Data Delivery

Oracle Data Integrator によるBig Data対応
単一の論理デザイン(Mapping)で全てのテクノロジーに対応
83
HCat
Agent
Transformation
Engines
Runtime
Environments
Future
Tools
Future Runtime
Engines
Logical Design
Oozie
Future
Languages
Big
Data
SQL
Sqoop
OLH
OSCH
Hive
Spark
Pig
Data Access
• あらゆるデータソースに対するネイティブ接続
– Data Locality
– 最適な性能とネットワーク負荷削減
• 専用中間サーバー構成が不要
– 基盤コストとメンテナンス負荷を削減
• 論理デザインと物理デザインの分離
– シンプルな開発
– 相互再利用性
連携する
Oracle’s Big Data

Agenda
Hadoop活用の障壁を
下げる
HadoopとRDBMSを
密連携させる
ビッグデータ環境をセ
キュアなクラウド環境
で実行する
Oracle Big Data Cloud

Oracle Cloud 基本戦略
85
On-Premises
DEVELOP AND DEPLOY ANYWHERE
Public Cloud
同じ「アーキテクチャ」
同じ「オラクル製品」
同じ「知識・ノウハウ」
Cloud at Customer

広がるビッグデータ活用環境の選択肢
86
お客様データセンター
購入
お客様による管理
専有環境
Big Data Appliance
サブスクリプション
オラクルが管理
専有環境
近日リリース予定
Big Data Cloud
Machine
Oracle Cloud
専有環境
Big Data
Cloud Service
Big Data
Cloud Service
– Compute Edition
Oracle Cloud
フルマネージド
共有環境

Oracle Big Data Cloud Service
エンタープライズ向けビッグデータ活用環境をクラウドで
87
Big Data
Cloud Service
・データ蓄積可能な、高パフォーマンスなお客様専用環境
・月額定額料金、クエリ実行に課金なし
・すぐに構築、柔軟なスケールアップも可能
1.多様なデータを
専用環境上に
すぐに蓄積可能
・Cloudera HadoopのエコシステムやSparkも利用可能
・オラクルのビッグデータ分析ツールを包含
（R言語、空間分析、グラフ分析、画像分析）
・データロード、データ加工を実現するETLツール包含
2.ビッグデータ分析・
活用ツールを含有
・Oracle Exadata CSとの高速連携
クラウド上でビッグデータマネジメント基盤を実現
・Oracle Big Data SQL CS により、
SQLで高速かつセキュアにアクセス可能
・SaaSやPaaSなど他クラウドとの密連携
3.他クラウドとの
密連携

高パフォーマンスな専用環境をすぐに活用可能
88
• 専用環境
– ハイパフォーマンスを実現するための専用環境
– Hadoopエンタープライズ実績の豊富なCloudera搭載
• 可用性
– 3ノード（96 OCPUs、144TB）から
– 必要に応じて、１ノードからスケールアップ可能
• 数クリックで構築
– 複雑で面倒なHadoop環境を数クリックで構築
• セキュア
– ケルベロス認証やApache Sentryといったセキュアな
Hadoop クラスタ環境を数クリックで構築
Big Data
Cloud Service
1.多様なデータを専用
環境上にすぐに蓄積可能

複雑で面倒なHadoop環境を数クリックで構築
89
view
2
• オラクルのCloud管理画面である
My Servicesから全てのHadoop
インスタンスを、一つの画面で管理
• Cloudera Manager Enterpriseから
各Hadoopクラスタを管理

ビッグデータ活用に最適な、柔軟性の高いクラウドのサービス
90
Month 1 Month 2 Month 3 Month 4
1時間単位で増減可能
OCPUs/メモリ
0
定額固定部分
– リソース見積が比較的容易な、定常的なバッチ処理
– 追加課金を気にせず試行錯誤を繰り返す、分析
– クラウドで数時間で構築、構築・運用工数削減
一時的拡張部分
– 期末や月末のピーク負荷対応
– 一時的に負荷が高くなるビッグデータ分析
– １時間単位で拡張、利用後はシャットダウン
•常に高パフォーマンスなお客様専有環境
•InfiniBandによる高速接続

ビッグデータ活用のための製品も含有
91
• Big Data (Hadoop, Spark) as a Service
：Hadoopの最新技術を活用可能
– Cloudera Enterprise (Data Hub Edition) 5.X
• Cloudera Impala
• HBase (as well as support for Accumulo)
• Cloudera Search
• Apache Spark
– Cloudera Manager
• オラクルのビッグデータ製品も含有
– Oracle R Distribution
– Oracle Big Data Connectors
– Oracle Data Integrator and Big Data Extensions
– Oracle Big Data Spatial & Graph
Big Data
Cloud Service

92
Oracle R Advanced
・RとHadoopを活用した分析の
ためのソフトウェア
・R言語のみでデータマイニング
の分散並列処理が可能
・HDFS上のデータへR言語から
アクセス
・Spark対応
Oracle Big Data
Spatial and Graph
（Spatial Analytics）
・豊富な空間演算関数
・近傍情報、ジオフェンス判定
・位置情報への付帯情報の付加
・空間データ、ラスタ（画像）
データの加工・準備
Oracle Big Data
Spatial and Graph
（Graph Analytics）
・プロパティグラフ
・標準のグラフ分析関数
・ソーシャルメディア分析
・IoT
・サイバーセキュリティ
オラクルのビッグデータ分析ツールを活用可能

Map Reduceによるデータ加工やETL処理、DBへのデータロードをGUIで定義可能
93
• ファイル/RDBMSからHiveへのロード
• Hive を利用したデータの検証と変換
• FileもしくはHiveからOracleへのロード
• 追加オプションでSparkやPigのコードを
生成する事が可能
• Hadoopの最新技術を活用した、高速な
インメモリ処理がGUIで定義可能に
Hadoop Cluster
f(x) MapReduce
Data Load
Oracle Database
Application Adapters for Hadoop
Oracle Data Integrator Application Adapters for Hadoop（Oracle Big Data Connectors内製品）
Oracle Data Integrator and Big Data Extensions

他Oracle Cloudとのデータ連携により、クラウド上で仮想DWHを構築
94
3.他クラウドとの密連携
• Oracle Storage Cloudとの高速データ連携
• Oracle Database Service Exadata Service との
40Gb/s Infiniband での高速データ連携
• SaaS,PaaS,IoT Cloudなど、他のOracle Cloud
とのデータ連携
• Oracle Big Data SQL Cloud Service により、
クラウド上のビッグデータマネジメント基盤上
のデータにSQLでアクセス可能

近日リリース予定
Oracle Big Data SQL Cloud Service
ビッグデータの活用をよりシンプルに、しかも迅速に、そしてセキュアに
95
既存のアプリ、ツール、スキル
そのままで全てのデータが活用可能

ユースケース製造業
製造業におけるトレーサビリティ、原因分析、予兆分析
96
• 生産条件データをHadoopへ、ERPデータはRDBMSへ
• SQLの標準関数であるパターンマッチングを活用
• 類似生産条件が発生した製品、該当ロット、顧客先、
担当営業、担当サービス員の特定
– 不具合が起きる前の点検・交換サービスによる
顧客満足度の向上
– サービス員作業計画作成、二度手間の省略、
非計画サポートの削減
• 新たなアラートしきい値の設定
– 将来の歩留り向上
– 問題発生前の予兆、早期発見
製造業での活用例
ロット特定/
作業指示
類似パターン
の発見
既存アプリケーション
BOM 製造/
MES
サービス出荷機器ログ MES
Hadoop RDBMS
ロット特定
関連する
生産条件

• Big Data Cloud Service上のデータを可視化
• データの理解、データの加工を直感的に可能
• データ加工後は、 Big Data Cloud Serviceの
アナリティクス製品を活用し、さらに詳細な
ビッグデータ分析を実現
• 他のOracle Cloud上のデータも活用可能
Big Data Discovery Cloud Service
Big Data Discovery
Cloud Service
97

98
購入
専有環境
Big Data Appliance
専有環境
Big Data Cloud
Machine
Oracle Cloud
専有環境
Big Data
Cloud Service
Big Data
Cloud Service
– Compute Edition
Oracle Cloud
共有環境

Oracle Big Data Cloud Machine
99
特徴
• オラクルがハードウェアを所有
• Hadoopのクラウド環境をお客様データセンター内に
• Oracle Big Data Cloud Serviceと同じ構成
– Oracle が管理、事前テスト済
– スモールスタート、シームレスに拡張可能
• オラクルが Big Data Infrastructure を管理
– お客様は Cloud Tools を利用して、
Hadoop クラスタのデプロイ/管理を実施
利点
• 高パフォーマンス
• セキュアな環境
• 包括的なソフトウェアを含有

100
購入
専有環境
Big Data Appliance
専有環境
Big Data Cloud
Machine
Oracle Cloud
専有環境
Big Data
Cloud Service
Big Data
Cloud Service
– Compute Edition
Oracle Cloud
共有環境

Copyright © 2016 Oracle and/or its affiliates. All rights reserved. | 101
Oracle Big Data Cloudに加わった新たなサービス
Compute Edition
– フルマネージドなHadoop（Spark）環境
• オラクルが監視、パッチ適用を実施
• REST APIs経由でサービス利用
– 最小構成から、Elasticなスケーラビリティ
• 最小2 OCPUから利用可能
Oracle Event Hub Cloud Service
– クラウドでのApache Kafka環境
• ストリーミングデータ処理
• 高速ストリーミング分析
– フルマネージドなApache Kafka環境
• オラクルが監視、パッチ適用を実施
• REST APIs経由でサービス利用
– 最小構成から、Elasticなスケーラビリィ
Storage Cloud, Database Cloudと組み合わせた新たなデータ活用を実現

• 主な用途
– 一時的なクラスタ利用
– 特定の処理や分析利用
– クラスタは必要な時のみ拡張
• 実現する要件
– 柔軟性
• 最小構成から任意のノード数で柔軟に拡張可能
– シンプル
• フルマネージド
• REST APIs経由でアクセスを提供
• 特徴
– フルマネージドな環境
– Elasticに拡張可能
• 主な用途
– 長期間のクラスタ利用
– データ蓄積をしながら、分析や処理もおこなう
– ミックスワークロード利用
• 実現する要件
– パフォーマンス
• 専有環境のため、様々なワークロードを高パフォーマンス
で高い可用性
– 環境管理が自由
• ワークロード実施のためのチューニングが利用可能
• 特徴
– Clouderaのエコシステムがフル活用
– お客様専有環境
102
2つのOracle Big Data Cloud Serviceの比較
Oracle Big Data Cloud Service Oracle Big Data Cloud Service
–Computing Edition

Oracle IoT/Big Data and Analytics Cloud Solution
103
Data Factory
データの取得・処理
Data Management
データの蓄積
Data Analytics
データの分析
Action
アクション
Data Factory
Data Factory
Data Factory
Data Factory
IoT
GoldenGate
Big Data
Preparation
Big Data Database
Marketing WebSite
Application
NoSQL
Storage
ERP
IoT Analytics
ストリー
ミング
バッチ/セミストリーミング
Data Factory
R
on Hadoop (**)
Big Data
Discovery
Spark
on Hadoop (**)
Spatial and Graph
on Hadoop (**)
BI
R
in Database(*)
Spatial and Graph
in Database (*)
SQL
Big Data SQL
and other Paas,SaaS
Data Lab
試行錯誤と検証
Data
Integration
(*) Database Cloud Service EE Extreme Performanceに含みます (**) Big Data Cloud Service に含みます
Event Hub
Big Data
Compute
Mobile
Machine
Learning (*)
Data
Visualization

Agenda
Appendix

Appendix: 関連情報のご案内
• 2016/10実施の「 Oracle Database 12c Release 2 コアテク・セミナー」資料
Oracle, 12.2, コアテク
詳細は「Oracle, 12.2, コアテク」で検索
– Big Data
– Spatial and Graph
など技術資料公開中
もしくは下記リンクへ
http://www.oracle.com/technetwork/jp/ondemand/od12c-
coretech-oct2016-3348781-ja.html
105

• 各種SlideShareで公開しております
– Hadoopソリューション
• OracleのHadoopソリューションご紹介
• Oracle Big Data Cloud Serviceのご紹介
• Oracle Big Data SQL 3.1ご紹介
• Oracle Cloudで始める、DBエンジニアのためのHadoop超入門（db tech showcase2016)
• OracleとHadoop連携の勘所（Oracle DBA ＆Developers Day2016資料）
– 機械学習ソリューション
• Oracle Data Miner チュートリアル
（Data Miner のセットアップ、1.表データの加工とモデル構築、2.分類モデルによる予測）
• Oracle R Enterprise（Oracle R Enterprise のセットアップ、Oracle R Enterprise の使い方）
– その他豊富なクラウドサービス
Slideshare oracle4engineer詳細は「Slideshare, oracle4engineer」で検索
106

• 各種、公開しております
– Cloud.Oracle.comページ
• Big Data Cloud Service
（https://cloud.oracle.com/ja_JP/big-data）
• Big Data Cloud Service – Computing Edition
（https://cloud.oracle.com/ja_JP/big-data-compute-edition）
• Event Hub Cloud Service
（https://cloud.oracle.com/ja_JP/event-hub）
107

• 事前設定済のオラクルビッグデータ製品の最新バージョンを
インストール作業の必要なく、すぐに利用可能
• OTNサイトから無料でダウンロード
• サンプルデータ込、自己学習のための動画、
デモスクリプトも公開
• RDBMS、Hadoop、NoSQL、R、Spatial, Graph、
興味のある製品から、ビッグデータ活用の全体フローまで
お好きな製品をローカルの仮想マシン環境上で
• 自己学習環境としてぜひお試しください
*自己学習用のサポート対象外製品です
*使用にあたっては、 License Agreementをよくお読みになり、同意の上、ご利用ください
*OTN Communityのフォーラムにも技術ディスカッションのスレッドがございます
https://community.oracle.com/community/database/big_data
オラクルのビッグデータ製品が、仮想マシン環境上ですぐに無料でお試しできます！
Oracle Big Data Lite Virtual Machine のご紹介
ダウンロード先：http://www.oracle.com/technetwork/database/bigdata-appliance/oracle-bigdatalite-2104726.html

• Oracle Enterprise Linux 6.7
• Oracle Database 12c Release 1 Enterprise Edition
(12.1.0.2)
– Oracle Multitenant, Oracle Advanced Analytics, Oracle OLAP,
Oracle Partitioning, Oracle Spatial and Graph, and more
• Oracle Big Data SQL
• Cloudera Distribution including Apache Hadoop
(CDH5.5.1)
• Cloudera Manager (5.5.1)
• Oracle Big Data Discovery 1.1
• Oracle Big Data Connectors 4.4
– Oracle SQL Connector for HDFS 3.4.0
– Oracle Loader for Hadoop 3.5.0
– Oracle Data Integrator 12c
– Oracle R Advanced Analytics for Hadoop 2.5.1
– Oracle XQuery for Hadoop 4.2.1
含まれる製品（Version 4.4.0）
• Oracle NoSQL Database Enterprise Edition 12cR1
(3.5.2)
• Oracle Big Data Spatial and Graph 1.1.2
• Oracle JDeveloper 12c (12.1.3)
• Oracle SQL Developer and Data Modeler 4.1.3
with Oracle REST Data Services 3.0.3
• Oracle Data Integrator 12cR1 (12.2.1)
• Oracle GoldenGate 12c (12.2.0.1)
• Oracle R Distribution 3.2.0
• Oracle Perfect Balance 2.6.0
• Oracle CopyTo Hadoop
http://www.oracle.com/technetwork/database/bigdata-appliance/oracle-bigdatalite-2104726.html

110
1. Google “Big Data Lite”
2. Download the VM
3. Do the Tutorial

Hands-on Labs 自己学習用おすすめコース
Training Collateral 説明
Data Manipulation with Hive and
Pig
まずはここから
HiveやPigの基本的な操作が学べます
Analyze All Your Data with Oracle
Big Data SQL
Oracle DBからHadoopに透過的なSQLアクセスを行うシナリオ。
Hadoopがよく分かってなくとも、DBの知識だけでなんとかなります。
Tame Big Data with Oracle Data
Integration
HiveやSqoopはなんとなくわかってる人向け
GUIでETLプロセスを定義できます。
Oracle R Enterprise v 1.4 - Tutorial
Series
最近注目のRを始めてみたい方向け
etc
111

Oracle Big Data Lite Virtual Machine 利用方法
Oracle VM VirtualBoxのセットアップ
• Oracle VM VirtualBoxインストールファイルのダウンロード
– http://www.oracle.com/technetwork/server-storage/virtualbox/downloads/index.html
• 上記のリンクから、次のソフトウェアのダウンロード/インストールをお願い致します。
– Oracle VM VirtualBox
– Oracle VM VirtualBox Extension Pack
以下のリンクの手順書、P15-18も参考に
http://www.oracle.com/technetwork/jp/database/enterprise-edition/documentation/sionvbox-
db12101onol6u4-2080482-ja.pdf
112

Oracle Big Data Lite Virtual Machine 利用方法
Oracle Big Data Liteセットアップ方法
• 仮想イメージのダウンロード
– http://www.oracle.com/technetwork/database/bigdata-appliance/oracle-bigdatalite-2104726.html
• ダウンロード後の手順
1. 「Download Oracle Big Data Lite Virtual Machine」の「Accept License Agreement」をクリック
2. 「BigDataLite440.7z.00*」を全てダウンロード
3. 「BigDataLite440.7z.001」のみを7-zipで解凍
⇒BigDataLite440.ovaというファイルが出来上がります
4. 事前にインストールした「Oracle VM VirtualBox」を起動
5. 「ファイル>>仮想アプライアンスのインポート」より、③で作成されたBigDataLite421.ovaというファイルを指
定
6. インポートした仮想マシンを指定し、起動
7. 起動後、user名/passwordは、oracle/welcome1でログイン
113

オラクルのビッグデータ製品をすぐに無料で学習できます！
Oracle Learning Libraryのご紹介
Oracle Big Data Administration Series
1. Introduction to the Hadoop Ecosystem
2. Introduction to the Oracle BDA
3. Oracle BDA: Pre-Installation Steps
4. Working With Mammoth
5. Introduction to Cloudera Manager
6. Introduction to Oracle Enterprise Manager BDA Plug-in
7. Securing the Oracle BDA
8. Getting Started With Oracle Big Data Connectors
9. Working With Oracle XQuery for Hadoop
10. Using Oracle R Advanced Analytics for Hadoop
座学によるオンライントレーニングでHadoopの基礎から学べます

コース
内容
このコースでは、講義と演習を通じて Oracle R
Enterprise の R インタフェースや SQL インタ
フェースを用いて膨大なデータセットから予測
モデルを作成する方法を体系的に学習すること
ができます。
前提
条件
• 統計分析に対する基礎知識
• R 言語によるプログラミング経験 (推奨)
日程
(2017年2月現在)
２日間
Oracle ではじめる統計入門
Oracle Database 12c:
データ・マイニング手法
Oracle R Enterprise
エッセンシャルズ
コース
内容
このコースでは、Oracle Data Mining を使用した
データの予測分析機能の活用方法を説明します。
データ・マイニングのプロセスを理解するとと
もに、Oracle Data Mining で使用できるデータ・
マイニング・アルゴリズムを学習することがで
きます。
前提
条件
• SQL 言語および Oracle Database 設計と管理の実務的な知識
日程
(2017年2月現在)
２日間
コース
内容
このセミナーでは、Oracle 製品ユーザを対象に
平均や度数分布や標準偏差、および時系列分析
など統計に関する基礎知識からOracle Database
で提供される分析関数を活用したデータ分析の
基礎を学習します。※ セミナー形式で実施しま
す。実機演習はありません。
前提
条件
• SQL, PL/SQL の基礎知識 (推奨)
• Oracle Database 管理知識 (推奨)
日程
(2017年2月現在)
１日間
Learn Oracle from Oracle
Oracle University データ分析クラスのご紹介
オラクルユニバーシティでは、Oracle Database を包括的かつ高度な分析プラットフォームへと拡張する Oracle Data Mining と Oracle R Enterprise を学
習できる研修コースを提供中です。統計分析の基礎知識からデータのモデル化方法まで、じっくり・しっかり学習することができます。
はじめてでも安心！分析関連の基礎知識から ODM / ORE の使った分析方法まで学習することができます
 分析関連の基礎知識
 統計の基礎知識
- 平均、度数分布、標準偏差
 分類 – Logistic Regression, Decision Trees, Naïve
Bayes, Support Vector Machines
 回帰 - Linear Regression, Support Vector Machine
 異常検出 - One Class SVM
 クラスタリング - Hierarchical k-Means, Hierarchical
O-Cluster, Expectation-Maximization Clustering
 相関ルール - Apriori
 分析プラットフォーム / ライブラリの使い方
 Oracle Data Miner を使用したデータ予測分析機能の実装方法
 ORE を使用した予測モデルの作成方法
115

Oracle Big Data Fundamentals
オラクルユニバーシティでは、Oracle Big Data Appliance を使用して、データの取得、処理、蓄積、分析を行う
いを学習することができる研修コースを提供しています。Oracleのビッグデータ・ソリューションでできることを
わかりやすい講義と演習を通してじっくり・しっかり学習することができます。
コース
概要
このコースでは、Oracle のビッグデータ・ソリューリョンを活用した、データの取得、データの処理、データの蓄積、分析データの準備、データの分析までのビッグデータ分析を
行う方法を学習します。Oracle Big Data Appliance で提供される各種技術を使用して Hadoop や NoSQL などに格納された非構造化データや Oracle Database に格納された構
造化データを分析する方法を知ることができます。【ご注意】このコースは英語テキストを使用します。
学習項目
ビッグデータとは
Oracle のビッグデータ・ソリューション
Hadoop エコシステム
HDFS CLI、FlumeおよびOracle NoSQL Database を使用したビッグデータの取得
Hadoop Distributed File System (HDFS) の使い方
MapReduce、YARN、Hive、Pig、Oracle XQuery for Hadoop, Spark によるデータの処理
Scoop、Oracle Big Data Connectors、Oracle Data Integrator および Oracle GoldenGate を使用した
データの準備
Oracle Big Data SQL、Oracle Advanced Analytics、Oracle Bid Data Discovery を使用したデータの分
析
Oracle Big Data Appliance の管理
対象者 • データベース管理者 • アプリケーション開発者
前提条件 • Hadoop システムの基礎知識 • Oracle Database の基礎知識 (推奨)
日程
(2017年2月現在) ５日間
Learn Oracle from Oracle
Oracle University Big Data関連クラスのご紹介
116

オラクルのHadoopソリューションご紹介

オラクルのHadoopソリューションご紹介

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie オラクルのHadoopソリューションご紹介

Ähnlich wie オラクルのHadoopソリューションご紹介 (20)

Mehr von オラクルエンジニア通信

Mehr von オラクルエンジニア通信 (20)

オラクルのHadoopソリューションご紹介