5. Mobility Technologies Co., Ltd.
Model-Centric AIとData-Centric AI
5
Model-Centric AI
■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する
■ データを固定し、コード/モデルを繰り返し改良していく
Data-Centric AI
■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する
■ コード/モデルを固定し、データを繰り返し改良していく
現在のパラダイム
新しいパラダイム
6. Mobility Technologies Co., Ltd.
Andrew Ng
■ xxxx 年 xx月 すごい経歴(略
■ 2017年12月 Landing AIというスタートアップを立ち上げ
■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ
■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演
■ 2021年06月 Data-Centirc AI Competition開催
■ 2021年12月 NeurIPSでData-Centric AI Workshop開催
Data-Centric AIの提唱者
6
https://en.wikipedia.org/wiki/Andrew_Ng
7. Mobility Technologies Co., Ltd.
■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか
Model-CentricとData-Centricを比較
■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、
Data-Centricでは大きな改善が得られた
Model-Centric vs. Data-Centric
7
鉄製品の欠陥検査
ソーラーパネルの欠
陥検査
表面検査
Baseline 76.2% 75.68% 85.05%
Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%)
Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%)
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
8. Mobility Technologies Co., Ltd.
Data-Centricアプローチ
8
イグアナをBBOXで囲む
アノテータA アノテータB
アノテータC
■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す
■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するのでは
なくシステマティックに行う
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
9. Mobility Technologies Co., Ltd.
1. 複数のアノテータに同一のサンプル画像を提示
2. アノテータ間のラベルの一貫性を定量化
3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し
4. 1. - 3. を収束するまで反復
一貫したラベルを得るための手法例
9
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
10. Mobility Technologies Co., Ltd.
データが少ないほど品質が重要
10
■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少ない場
合はその品質が極めて重要になる
■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ
■ ノイズを除去する
■ 追加で500枚を学習データに加える(データセットサイズを2倍にする)
データ量:少
データ品質:低
データ量:多
データ品質:低
データ量:少
データ品質:高
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
11. Mobility Technologies Co., Ltd.
従来のソフトウェア
機械学習ソフトウェア
従来のソフトウェアと機械学習ソフトウェアの違い
11
スコープ定義 コーディング デプロイ
スコープ定義 学習 デプロイ
データ収集
DevOps
MLOps
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
12. Mobility Technologies Co., Ltd.
MLOpsの役割
12
スコープ定義 学習 デプロイ
データ収集
MLOps
機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する
Q. どのようにデータを定義
し、集めればよいか?
Q. モデルの性能改善のた
めにどのようにデータを変
更すればよいか?
Q. コンセプト/データドリフト
を検知するためにどのよう
なデータをトラックすればよ
いか?
MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
13. Mobility Technologies Co., Ltd.
Good Data is:
■ 定義が一貫している(ラベル y の定義に曖昧さがない)
■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている)
■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリフトやコン
セプトドリフトをカバーしている)
■ サイズが適切である
Big DataからGood Dataへ
13
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
14. Mobility Technologies Co., Ltd.
まとめ
14
AI System = Code + Data
Model-Centric AI
性能を改善するためにどのようにモ
デル(コード)を変更するか
Data-Centric AI
性能を改善するためにどのようにシ
ステマティックにデータを変更するか
■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体を通じて
高品質なデータを保証すること
■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツール
が重要となる
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube