3. 인간 지식 처리를 위한 연구
Knowledge
Engineering
Artificial Semantic
Intelligence Web
4. 인간 지식 처리를 위한 연구
Knowledge engineering은 어떤 도메인에서 특정 목적을 위해 컴퓨
터가 업무를 처리할 수 있도록 모델을 구성할 때 온톨로지와 로직을
활용하는 과정 - John Sowa
Artificial Intelligence은 컴퓨터를 통해 지능정 행동을 수행하도록
하는 연구로, agent가 어떻게 행동을 할 것인가를 결정하는 과정에 지
식 표현과 지식 이해 과정이 수반됨 – Brachman and Levesque
Semantic Web은 웹 표준 하에서 컴퓨터가 데이터의 의미를 이해하고
처리하는 것이 가능한 데이터의 웹 – Tony
Knowledge representation은 해석될 수 있는 기호(symbolic form)
로 지식을 형식화하는 것을 의미 – Klein and Methlie
5. 인공 지능 (AI) ?
AI : The study and design of intelligent agents
인텔리전트 에이전트는 환경을 감지해서, 스스로 행동함으로
기회를 최적화, 자신의 목표 달성할 수 있는 자동 시스템
Systems that think like humans Systems that think rationally
Systems that act like humans Systems that act rationally
• Knowledge Representation
• Reasoning
• Learning
• Planning
• Natural Language Processing
• Social Intelligence
• Machine perception and Vision
6. 지식 표현 기계와 인간의 협력?
자연 언어
글로 쓰여진 사람의 말 : “지구는 타원 궤도로 태양을 돌고 있다”
(Natural Language)
시각 언어
사람
그림, 구조도, 흐름도, 설계도 등 시각적으로 지식을 표현
(Visual Language)
주석, 태깅
개체에 연관된 키워드, 기호, 이미지 등을 부착해 지식을 표현
(Tagging)
기호 언어
수학 등을 포함해 기호로 표현된 지식 : x2/a2 + y2/b2 = 1
(Symbolic Language)
의사 결정 나무
복잡한 의사 결정을 위해 구성된 나무 모양의 그래프 구조
(Decision Tree)
규칙
인간 지식을 여러 규칙들의 조건부 결합으로 표현
(Rules)
데이터베이스
개체와 관계로 구성된 테이블 형태의 지식 표현 체계
(Database System)
논리 언어
논리 기호, 연산을 통한 지식 표현 : Woman ≡ Person ∩ Female
(Logical Language)
프레임 언어
값 혹은 타 프레임의 포인터를 저장한 슬롯들로 지식 표현
(Frame Language)
기계
시맨틱 네트워크
개념간의 의미적 관계를 그래프 구조로 구성한 지식 표현
(Semantic Network)
통계적 지식
확률과 통계에 기반한 지식 표현, 기계 학습 기술 접목 가능
(Statistical Knowledge)
7. 지식의 표현
자연 언어
“기업에 종사하는 종업원은 사람들이고, 기업과 종업원은 모두 법적 존재이다.
기업은 직원들을 위해 여행 예약을 할 수 있다. 여행은 한국 내 도시, 혹 미국의
도시를 오고 가는 비행기 혹은 기차를 통해 가능하다. 기업들과 출장지는 도시에
위치하고 있다. 솔트룩스는 홍길동을 위해 서울과 뉴욕 왕복 항공편인 OZ510을
예약하였다.”
규칙 언어
(규칙) 만약 누군가가 날고 있다면, 여행중인 것이다.
(규칙) 만약 누군가의 여행이 한 회사에서 예약되었다면, 그는 그 회사의 종업원이다.
(규칙 추가) 만약 동일 국가의 근거리 여행이라면, 종업원은 기차를 이용해야 한다.
(추론) 비행 예약이 되어 있는 홍길동은 솔트룩스의 종업원이다
(추론) OZ510은 미국과 한국을 오가는 비행편이다.
8. 지식의 표현
법적 존재 법적 존재
위치
법적 존재 이름 이름 (필수)
고유번호 고유번호 (필수)
법적 존재
kindOf
DISJOINT
사람 기업 startFrom 사람 기업
기업 성별 여행업종 도시
성별 ⊆ {남,녀} 업종
사람사람 기업 books
나이 주소지 endsIn 나이 > 25 주소지 ⊂ 서울
온톨로지(Ontology) subclssOf
subclssOf
subclssOf
instanceOf
instanceOf
kindOf
instanceOf
종업원 종업원
instanceOf
종업원 직급 직급 ≠ 임원
비행기 기차 한국 도시 미국 도시
종업원
instanceOf
instanceOf
#4831 #4831
instanceOf
솔트룩스 솔트룩스
instanceOf
솔트룩스 C98765 C98765
instanceOf
instnaceOf
instanceOf
솔트룩스 #3502 소프트웨어 #3502 소프트웨어
서울 삼성동 서울 삼성동
홍길동 홍길동
홍길동 P12345 서울
P12345
participatesIn 남자 남자
홍길동 37 OZ510 37
과장 과장 뉴욕
(a) 시맨틱 네트워크 (b) (a) + 프레임(프로퍼티) (c) (b) + 논리 제약
9. Why is Siri more attractive?
Because Siri acts like real human agent including continuous
conversation and recommending alternatives.
Other Apple
Functions
Agent Siri
Continuous
Conversation
Weak Strong
Recommending
Alternatives
Weak Strong
Semantic Match Weak Strong
Semantic
Disambiguation
Weak Strong
Semantics make it possible in Siri!
11. 추론 Reasoning
추론? : 기존 사실들로부터 새로운 사실을 도출하거나
결론에 도달하는 과정
• Deductive reasoning
Premise 1: All humans are mortal.
Premise 2: Socrates is a human.
Conclusion: Socrates is mortal.
Ontology and Rules
• Inductive reasoning
Premise: The sun has risen in the east every morning up until now.
Conclusion: The sun will also rise in the east tomorrow.
• Abductive reasoning Machine Learning
• Analogical reasoning
13. 학습 Learning
학습(Learning)
• 주어진 여건에 대한 행동이 되풀이
되는 경험으로 인해 생기는 그 여
건에 대한 행동 변화
• 지식의 습득과 기존 지식으로부터
추론된 결과의 재학습 능력 필요
• 궁극적으로 컴퓨터가 새로운 것을
배우고 환경에 적응하는 것
영화, 인류멸망보고서 중
14. 빅 데이터 기계 학습
Black Box Test-data
(learning machine)
Training data
Model
Model
Prediction
• Support vector machines
• Inductive logic programming • Clustering
• Decision tree learning • Bayesian networks
• Association rule learning • Reinforcement learning
• Artificial neural networks • Representation learning
• Genetic programming • Sparse Dictionary Learning
15. 계획 Plan/Planning
• 계획(Plan) 목표까지 경로에 있는 아크 연산자들을 하나의 순서로 만든 것
• 계획 수립(Planning) 다양한 순서를 찾아내고, 최적 순서를 확보하는 것
• 투영(Projecting) 어떤 행동 순서의 결과로 나타나는 상태의 순서를 예측
• 계획 시스템 제약조건하에서 목표를 달성 위해 행동을 설계하는 시스템
- 만일 새로운 정보가 생기면 계획되었던 일련의 과업들을 변경시킬 수 있는 유연성을 가져야 함
- 현재까지의 추론 과정을 되돌아 가고, 더 좋은 해결안을 위해 현 추론 결과를 취소할 수 있음
(Nils J.Nilsson 1998)
16. 계획 수립 Rube Goldberg Machine?
Rube Goldberg의 연필 깎는 기계
Open window (A) and fly kite (B). String (C) lifts small door (D) allowing
moths (E) to escape and eat red flannel shirt (F). As weight of shirt becomes
less, shoe (G) steps on switch (H) which heats electric iron (I) and burns hole
in pants (J). Smoke (K) enters hole in tree (L), smoking out opossum (M)
which jumps into basket (N), pulling rope (O) and lifting cage (P), allowing
woodpecker (Q) to chew wood from pencil (R), exposing lead. Emergency
knife (S) is always handy in case opossum or the woodpecker gets sick and
can't work.
18. View Points for Siri-like Service
Human Interaction
Linked Services
Natural Language Understanding / Generation
Search & Reasoning (incl. computation)
Knowledge Base
Knowledge Acquisition and Modeling
Unstructured Big Data Structured Big Data
19. Context Driven Mobile Service
SENSOR / NETWORK CONTEXT MANAGER CONTEXT
QoC Inferred
Context Model
Context Rules
Context
CONTEXT OWNER Filter
Dynamic
Context
User Device Collector
SMART MOBILE SERVICE
Service Service Service
Discovery Personalization Adaptation
Smart Service
20. Virtual Personal Assistance?
A virtual personal assistant is a SW system that
• Helps the user find or do something (focus on tasks, rather
than information)
• Understands the user’s intent (interpreting language) and
context (location, schedule, history)
• Works on the user’s behalf, orchestrating multiple services
and information sources to help complete the task
In other words, an assistant helps me do things by understanding
me and working for me.
(Tom Gruber, 2010)
21. Intelligent Agent?
Intelligent Agent is an autonomous entity
which observes through sensors and acts
upon an environment using actuators.
IA directs its activity towards achieving
goals.
Intelligent agents may also learn or use
knowledge to achieve their goals.
- Russell & Norvig
24. Siri?
Siri is an intelligent software assistant and
knowledge navigator functioning as a
personal assistant application for iOS.
Siri uses a natural language UI to
• answer questions
• make recommendations
• perform actions with web services.
Siri adapts to the user's individual
preferences over time and personalizes
results
25. Why Siri is different from others before…
Task focus. Siri is very focused on a bounded set of specific
human tasks, like finding something to do, going out with
friends, and getting around town.
Structured data focus. The kinds of tasks that Siri is
particularly good at involve semi-structured data, usually
on tasks involving multiple criteria and drawing from
multiple sources.
Architecture focus. Siri is built from deep experience in
integrating multiple advanced technologies into a platform
designed expressly for virtual assistants. The CALO project
taught Siri a lot about what works and doesn’t when
applying AI to build a virtual assistant.
26. What exactly can you ask Siri to do?
1. Does Things for you
focus on task completion
2. Gets What you Say
intent understanding via conversation
3. Gets to Know You
learns and applies personal information
• Ask for a reminder. • Ask to set an alarm.
• Ask to send a text. • Ask for directions.
• Ask about the weather. • Ask about stocks.
• Ask to set a meeting. • Ask to set the timer.
• Ask to send an email. • Ask Siri about Siri.
• Ask for a number.
• Ask for information from Yelp, Wolfram|Alpha, or Wikipedia
27. History of Siri
Siri is using the results of over 40 years of research funded by DARPA via
SRI International’s Artificial Intelligence Center through CALO
project (2003~2008).
Siri technology has come a long way with dialog and natural language
understanding, machine learning, evidential and probabilistic
reasoning, ontology and knowledge representation, planning,
reasoning and service delegation.
Siri was founded in 2007 (spin-off from SRI international) by Dag Kittlaus
(CEO), Adam Cheyer (VP Engineering), and Tom Gruber (CTO/VP
Design).
$150 million – DARPA funds (4.5 years)
$8.5 million - series A (2009)
$15.5 million - series B
$200 million - purchased by apple (2010)
28. Technology of Siri
Personal
Conversation Service
Context
Interface Delegation
Awareness
dialog and natural language understanding
machine learning
evidential and probabilistic reasoning
ontology and knowledge representation
planning, reasoning
service delegation
35. What happened in Apple Siri?
Active Ontology is a brain to understand user’s intention
and make conversation under the semantics
• Heterogeneous data integration
• Managing short and long term personal memory
• Improving speech recognition quality
• Semantic disambiguation
• Dialog generation and management
37. The Jeopardy! Challenge
A compelling and notable way to drive and measure the technology
of automatic Question Answering along 5 Key Dimensions
Broad/Open $200
Domain If you're standing, it's the di
rection you should look to c
heck out the wainscoting.
Complex
Language $1000
Of the 4 countries in the wo
rld that the U.S. does not h
High ave diplomatic relations wit
Precision h, the one that’s farthest no
rth
Accurate $800
In cell division, mitosis spl
Confidence its the nucleus & cytokine
sis splits this liquid cushio
High ning the nucleus
Speed
39. The Big Idea
Evidence-Based Reasoning over Natural Language Content
Deep Analysis of clues/questions AND content
Search for many possible answers based on different
interpretations of question
Find, analyze and score EVIDENCE from many different
sources (not just one document) for each answer using many
advanced NLP and reasoning algorithms
Combine evidence and compute a confidence value for each
possibility using statistical machine learning
Rank answers based on confidence
If top answer is above a threshold – buzz in else keep quiet
42. Through training Watson Evaluates and Selects
documents worth analyzing for a given task.
For Jeopardy! Watson has analyzed
and stored the equivalent of about 1
million books (e.g., encyclopedias,
dictionaries, news articles, reference
texts, plays, etc)
Too much irrelevant
content requires unnecessary compute power
48. Deep QA Process
One Jeopardy! question can take 2 hours on a single 2.6Ghz Core
2880-Core IBM Power750’s using UIMA-AS, Watson is answering in 2-6 sec.
Learned Models
help combine and
weigh the Evidence
Evidence Balance
Sources & Combine
Answer Models Models
Sources
Question Evidence Evidence Models Models
Candidate Retrieval Scoring
Primary 1000’s of Models Models
Search Answer Pieces of Evidence 100,000’s Scores from
Generation
100’s Possible many Deep Analysis
Answers Algorithms
Multiple 100’s
Interpretations sources
Question &
Question Hypothesis Hypothesis and Evidence Final Confidence
Topic Analy Synthesis
Decomposition Generation Scoring Merging&Ranking
sis
Hypothesis Hypothesis and Merging & Answer & Co
Generation Evidence Scoring Ranking nfidence
52. Wolfram|Alpha Computation Knowledge Engine
• 5 years R&D from 2009
• Computes answers to natural language questions
• Integrates disconnected trusted data sources
• Sophisticated automated algorithm and visualization selection
• General and domain-specific linguistic and presentation development
53. Capability & Data Curation
• 10+ trillion of pieces of data
• 50,000+ types of algorithms and models
• linguistic capabilities for 1000+ domains
• Built with Mathematica
• Any systematic data can be curated
• Human-driven curation includes tools, processes, and methodologies
• Thousands of domains curated falling into about 50-100 domain models
• Ontology is at a meta level
• Hierarchical knowledge included with entity classes, attributes
• Relates things at computation time
54. Infrastructures
• Mathematica 7 : 2500 built-in functions
• Super Computer Clusters
- DCS(Dell Data Center Solutions)
and R Systems Cluster
- World 44th powerful super computer
- Clustered 5 super computer
- Windows HPC server 2008, Windows Computer Cluster Server
- Platform LSF, Altair PBS, Sun Grid
59. Smart Curation?
Search & Discover Filter & Organize Publish & Share
Feeding, Hybrid Classification, Auto-Publishing,
Crawling, Automatic Clustering Personalization
Wrapping,
Open API
HTML5,
Learning App, PDF
Machine Learning,
Recommendation
Digital Magazine
Bookmarklet, Facebook/Twitter
File upload, Mail Sharing
Clip/Re-Clip,
Camera Real-time Chatting
Love/Comment
60. 소셜 데이터 수집
• 클라우드에 기반한 대용량 분산/병렬처리, 1일 500만건 수집
• 클라우드 스토리지에 데이터 저장과 실시간 인덱싱 수행
• 450 Cores, 1.5TB Ram, 200TB HDD
• 원시 소셜 데이터 : 총 5억 건, 2.5TB
• 수집 속도 : 500만 건 / 일
• 수집 방식 : Hybrid Model (크롤링 + Open API + Agent)
• 저장 구조 : 클라우드(NoSQL+DFS), 데이터 3중화
1일 수집, 인덱싱 로그 수집 데이터 구성
미투
뉴스 데이
1% 18%
트위터
57%
블로그
24%
61. 소셜 토픽의 추출
• Google PageRank 개념이 적용된 TextRank를 발전, 소셜 토픽을 추출
• Social co-occurrence 분석 통해 특성 벡터의 품질 향상과 실시간 처리
• Graph system G = (V, E)에 대해 각 vertex Vi의 중요도 S(vi)를 정의,
• Social Topic간 Co-occurrence 거리를 Weigh w로 할 때, 중요도 WS(Vi) 정의,
62. 소셜 데이터의 분류
• SVM 기반 학습 모델과 VSM 기반의 규칙 모델 통합
• 대규모 실시간 소셜 아티클 분류를 위해 병렬, 분산처리
소셜 데이터
아티클7 아티클20
아티클51
아티클1
학습기반 분류
(SVM)
실시간
병렬,
분산처리
규칙기반 분류
(VSM+RULE)
피드백
학습
…
A 분류체계 B 분류체계 C 분류체계
63. 소셜 이슈 학습
• 소셜 아티클의 실시간 군집을 통한 사회적 이슈 도출
• 주제별 사회적 관심 트랜드 분석과 예측, 추론
𝑊𝑔 Wfunc : Skewed Distrib.
Social Article Retrieval = 𝐷𝐹 + 𝑊𝑆
+ 𝑀𝑒𝑎𝑛 𝑇𝐹
∗ 𝑊𝐹𝑢𝑐(𝐷𝐹)
Global Features Selection
Hierarchical
Word clustering
Article clustering
(cosine similarity)
Cluster Labeling
Clusters
Ranking/Grouping
64. 사용자 관심 학습과 추천
쓰면 쓸수록 똑똑해지는 소셜 매거진
사용자 생성 매거진 학습 아티클 자동추천(ziny 추천) 사용자 피드백(Clip, Love)
약 5억 건
매거진 별 SP Fast Similarity Calculation Social Feature-
Feature vector 생성 on Vector Space Model Vector Index
70. BOTTARI Mobile App
Personalized Android Mobile App
Real-time Recommendation Service
Originally developed in CogFrame proj.
Improved to work on LarKC Platform
Based on Location-based Social Media
Analysis (incl. Sentiment Analysis)
Applying Hybrid (Stream) Reasoning
71. BOTTARI 보따리
• 트위터 등 소셜 빅 데이터에 대한 실시간 분석 (트랜드, 평판)
• AR이 적용된 Android App. / 시맨틱웹첼린지 그랑프리
72. 미래,예측하는 것이 아닌
만들어 가는 것...
Communicating Knowledge 72
73. 기술 혁신 > 낭비 하도록 만들기
(matthew Komorwski, 2010)
Transistors in a CPU
지난 30년간
1/1억 1천만 배
100만 배
Enterprise Strategy Group, 2010
74. 앞으로 10년 후의 왓슨?
<IBM Power 750>
- 10 full racks
- 2880 CPU cores
- 15 TB RAM
- 80 teraflops / sec
- 10 GE ethernet
저장 가격 1/100,
반도체 집적도 X100
75. “유일한 성공 방법은, 미래를 예측하는 것이 아니라
이미 시작된 변화를 이해, 그 시간차를 이용하는 것!"
Peter Drucker