라이선스 - 닥치고 Linked Data

Report
Linked Open Data를 가능하게 하는 도구들
2014. 1. 24.
이규철
충남대학교 컴퓨터공학과
[email protected]
발표 순서
Ⅰ
Linked Open Data : Web of Data
Ⅱ
CKAN & OGPL
III
LATC & LOD2
Ⅳ
Wrap-up
2/55
Linked Open Data : Web of Data
데이터베이스의 진화 [Fujitsu 2012]
4/55
Linked Data : 차세대 진화
5/55
Linked Data : DB Silo들을 연계
6/55
CKAN & OGPL
CKAN
(Comprehensive Knowledge Archive Network)
모든 형태의 데이터, 콘텐츠 공개 및 접근을 가능하게 하는 오
픈소스 데이터 포털 플랫폼
OKF(Open Knowledge Foundation) 산하의 프로젝트 결과물로 OKF는
2004년 설립된 비영리 단체
목표
데이터의 게시, 공유, 검색, 사용을 가능하게 하는 도구를 제공하여
정부나 회사의 데이터를 공개함으로써 누구든지 이용 가능하게 함
라이선스
Affero GPL 3.0
8/55
CKAN 적용사례
총 70개의 정부 데이터 포탈 및 데이터 커뮤니티를 구성
9/55
CKAN 기능 및 구조
10/55
CKAN Features
11/55
CKAN Features(계속)
12/55
OGPL(Open Government Platform)
인도와 미국의 공동 프로젝트 결과물로 데이터를 공개, 공유함으
로써 정부의 투명성을 보장하고 시민의 참여를 장려하는 오픈 소
스 플랫폼
Future roadmap of OGPL
CKAN + Drupal7
13/55
Drupal
개인 또는 커뮤니티가 웹사이트의 다양한 자료들을 손쉽게
관리, 조직, 출판할 수 있도록 다양한 기능을 제공하는 오픈
소스 CMS(Content Management System)
대표적 오픈소스 CMS : Drupal, WordPress, XpressEngine 등
오픈 소스 CMS의 특징
상용 CMS는 정해진 방식대로 활용해야 하는 반면, 오픈 소스 CMS는
개발자가 원하는 대로 변형이 가능함
상용 CMS = 변신합체로봇
오픈 소스 CMS = 레고
14/55
Drupal 구성
코어 모듈
웹 사이트 제작 플랫폼
기여 모듈
코어 모듈과 결합하여 추가 기능을 부여하는 모듈
15/55
Drupal 적용사례
미국 백악관
미국 정부 사이트의 24%, 교육 기관 사이트의 26%, 세계 100
대 대학의 71% 가 Drupal을 사용
16/55
LATC & LOD2
LATC
LATC (Linked Open Data Around-The-Clock)는 EU FP7의 후
원을 받는 프로젝트
2010년 9월 ~ 2012년 8월까지 총 2년간 진행
목표
LOD 데이터 셋 사이의 데이터 링크의 정확성과 품질, 수의 증가
LOD 게시와 소비의 지원
라이선스
Apache license 2.0
18/55
24/7 Interlinking Platform
LOD Cloud에서 데이터 셋간의 RDF 링크를 생성하기 위해 제
공되는 솔루션
기능
데이터간의 링크 생성
LOD Cloud로 부터 데이터 셋 검색
CKAN 데이터 셋 검색
링크 품질 측정
최근 24/7 Interlinking Platform은 LOD2의 Linking 단계를 위
한 도구에 포함
19/55
24/7 Interlinking Platform 구조
20/55
LOD2
LOD2는 EU FP7 의 후원을 받는 대규모 통합 프로젝트
목표
데이터의 일관성과 품질향상
관계형 데이터와 RDF 데이터 관리의 격차 해소
데이터 게시자, 사용자를 위한 LOD의 진입 장벽 낮춤
2010년 9월 ~ 2014년 8월까지 총 4년간 진행
유럽 11개국의 15개의 파트너로 구성되어 있음
21/55
LOD2 Stack
라이프 사이클 관리를 위한 통합 도구로 LOD의 게시, 관리,
소비를 위한 일련의 절차
22/55
LOD2 Stack 라이프 사이클 도구의 라이선스
도구
라이선스
도구
라이선스
도구
라이선스
Virtuoso Sponger
GPL 2.0
Virtuoso 7
RDF Store
GPL 2.0
LATC SILK
Apache 2.0
DBpedia
Spotlight
Apache 2.0
OntoWiki
GPL 2.0
DL-Learner
GPL 2.0
Poolparty
Proprietary
License
RDF Author
GPL 2.0
ORE
GPL 2.0
D2R
Apache 2.0
LIMES
X
LODrefine
BSD
SparQLed
GPL 2.0
SILK
Apache 2.0
SIG.MA
GPL 3.0
23/55
Extraction : Virtuoso Sponger
텍스트, XML, RDB 등의 포맷으로부터 RDF 형태의 문서를 추
출함
Virtuoso Sponger
다양한 데이터 형식을 RDF로 변환해주는 미들웨어

RDB, XHTML, XML, RDFa, CSV 등을 지원
SOAP, REST 인터페이스를 통해 데이터에 직접적으로 접근할 수 있
는 HTTP 프록시 서비스를 제공
SPARQL Endpoint 지원
24/55
Extraction : Virtuoso Sponger(계속)
25/55
Extraction : D2R
관계형 데이터베이스의 콘텐츠를 LOD 형식으로 변환
D2R server
Linked data view, HTML view, SPARQL Endpoint 기능 제공
RDB 데이터를 RDF 또는 HTML 형식으로 변환하여 보여줌
D2RQ Engine
별도의 Triple Store 없이 RDB에서 RDF 기반의 접근을 제공함

RDB에 RDF 기반의 접근을 제공하기 위해 R2RML을 사용
SPARQL Query, RDF dump 기능 제공
26/55
Extraction : D2R(계속)
27/55
R2RML
관계형 데이터베이스의 데이터를 RDF 형식으로 변환 할 수
있도록하는 매핑 언어
2012년 9월 W3C 표준으로 제정
28/55
Storage / Querying : Virtuoso RDF Store
RDF 형식의 데이터를 저장하고, 저장된 데이터를 SPARQL
을 통해 검색할 수 있도록 함
Virtuoso
특정 플랫폼에 상관없는 통합 데이터 관리, 접근, 통합 솔루션을 제공
하는 멀티 모델 데이터 서버
29/55
Storage / Querying : Virtuoso RDF Store(계속)
30/55
Manual revision / authoring : OntoWiki
시맨틱 콘텐츠를 제작, 수정하는 것을 제공하는 인터페이스
OntoWiki
인스턴스 데이터들의 시각적 표현을 제공함
시맨틱 콘텐츠를 제작할 수 있도록 하며 RDF의 내용을 편집할 수 있
는 편집 모드를 제공함
31/55
Manual revision / authoring : OntoWiki(계속)
1.
2.
3.
4.
5.
6.
Selection of a knowledge base
Selection of a class
Selection of additional properties to be shown as columns in the list
Further restriction of the resources in the list
Selection of a resource redirects the user to a generic resource details view
Representation of RDF triples in the user interface as resource attribute value notation
32/55
Interlinking / Fusing : SILK
실제로는 같은 객체이나 서로 다른 URI를 가진 자원들을 발
견하여 연결함
SILK
서로 다른 두 개의 데이터 셋에서 데이터 항목 간의 관계를 발견하는 도
구
데이터 셋 간의 연결을 위한 절차를 웹 애플리케이션으로 제공하여
발견 및 연결을 기능을 사용하기 쉽게 제공함
33/55
Interlinking / Fusing : SILK(계속)
연결을 수행 할 2개의 Dataset
Property 값 비교를 위한 규칙 생성
Class의 특정 Property를 지정 : name
연결할 대상이 되는 Class를 지정
34/55
Interlinking / Fusing : SILK(계속)
Property(name) 값이 일치하는 경우의 결과 리스트
35/55
LATC SILK와 SILK의 비교
LATC SILK
LATC에서 SILK에 부가적인 기능을 추가하여 만든 Interlinking 도구
SILK 기능
Workbench
Console
Console API
Runtime
LATC SILK에 추가된 기능
Data Source Inventory
Metadata Store
Sindice Crawler & Indexer
36/55
Classification / Enrichment : DL-Learner
상위레벨 온톨로지와의 연결 및 통합을 통해 Linked data의
폭넓은 검색 및 활용을 제공함
DL-Learner
인스턴스 데이터의 Description Logic을 학습하는 도구
특정 클래스에 대한 상위클래스에 대한 정보와 그 클래스와 비슷한
인스턴스 검색, 인스턴스 분류 등을 제공하기 위함
37/55
Classification / Enrichment : DL-Learner(계속)
Father를 학습하는 예
배경지식을 가진 Description Logic에 Father에 관한 인스턴스 정보를
전달


Positive example : Father
negative example : NOT Father
전달 받은 인스턴스 정보를 통해 Father Class가 가지는 Description
Logic을 결론으로 도출
배경 지식
결론 도출 :
Male AND EXISTS hasChild.T
Father의 인스턴스 정
보
38/55
Quality Analysis : ORE
Quality Analysis
Linked Data의 품질을 평가하기 위한 기술
ORE (Ontology Repair and Enrichment)
구성된 온톨로지에서 잘못 작성된 개념을 수정하거나 새로운 개념
을 추가함으로써 온톨로지 품질을 향상시킴
Ontology Enrichment

DL-Learner를 사용하여 기존 클래스와 상위 클래스 사이의 관계를 학습함
Ontology Debugging

학습한 관계와 다른 논리적인 오류를 발견하고 그것을 수정함
39/55
Quality Analysis : ORE(계속)
40/55
Evolution / Repair : Zemanta LODrefine
Linked data를 정제하고, 문제점 발견될 시 자동으로 복구하
는 방법을 제안함
Zemanta LODrefine
OpenRefine의 장점을 가져와 Linked Data에 적합하게 작동하도록 만
든 도구
DBPedia 데이터 셋과 연결하여 데이터를 확장할 수 있고 Crowdsourcing
서비스를 통한 데이터 확장을 지원함
41/55
Evolution / Repair : Zemanta LODrefine(계속)
보유하고 있는 기존 정보에 대해 Extension을 수행
기존 정보
DBpedia와 Extension을 통해
추가적으로 얻은 정보
42/55
Search / Browsing Exploration : SIG.MA
RDF로 만들어진 데이터를 Web을 통해 검색할 수 있도록 함
SIG.MA
Web의 데이터를 Mashup하여 구조화된 데이터 형태(RDF, RDFa)로
제공함
RDF 데이터를 검색할 수 있도록 Query를 지원함
43/55
Search / Browsing Exploration : SIG.MA(계속)
Web에 존재하는 Tim Berners Lee와
관련된 RDF link를 발견하여 결과로 제공함
특정 Web Site의 결과만 볼 수 있도록approve, reject 기능을 제공함
44/55
Wrap-up
Linked Open Data 도구를 잘 사용하면 ?
데이터 연계
데이터의 가치 향상
공유 및 연결을 통한
데이터의 가치 향상
전문적인 지식이 없어
도
누구나 쉽게
관련 데이터를 찾음
플랫폼 활용
시너지 효과 발생
다양한 지식정보 서비
스
플랫폼으로 활용
지식화된 서비스를
통해 더 많은 창의적인
서비스창출
46/55
향후 발전 방향: 빅데이터 분석에 LOD를 활용
빅데이터 분석을 통해 생성된 데이터를 LOD로 구축하고 기
존의 LOD와 연계하여 지식화된 맞춤형 서비스를 구축
빅
데
이
터
저
장
시
스
템
H
A
D
O
O
p
47/55
빅데이터 분석에 LOD를 활용한 예시
교통 사고
통계

특정 지점에서 1년에 10회 이상 교통 사고 발생
•
사고 다발 지점 지정
빅데이터 분석

지난 3년간 특정 조건(날씨, 교통량, 속력 등)일 때 사고가 빈발
•
•
특정 조건에 따라 교통 사고 가능성을 측정하여 사고주의 지역 예측
사고주의 지역 진입 시 알림(보행자 및 운전자)
빅데이터 지식화

지난 3년간 특정 조건일 때 사고를 일으킨 자동차에 장착된 차량제어
장치와 그 제조회사를 찾아내어 문제 장치를 진단
•
사고가 발생한 차량의 제동거리를 비교하여 제동장치의 문제를 진단
48/55
LOD의 증가로 인한 변화
Linked Data
Big Linked Data
Master
Cloud
Single Machine
Slave
49
Hadoop & MR을 통한 Big LOD 처리시 문제점
RDF는 Subject, Object 의 지속적인 연결로 인하여 많은 Join
연산이 발생함
Hadoop & MapReduce 는 Join 연산이 존재하지 않음
Multi-Query 시 상당한 I/O, Network Traffic 발생의 원인이 되며 상당
한 성능 저하가 발생함
50/55
CNU DB Lab의 연구 방향
Indexing
Table Index for indexing RDF triples
Partitioning
RDF schema based hybrid partitioning, using vertical partitioning and
horizontal partitioning to store related triples into the same machine
Query Processing and Optimization
Reducing the number of MR cycles in SPARQL query execution
51/55
감사합니다
Questions

similar documents