Graph Data Management Lab, School of Computer Science GDM@FUDAN http://gdm.fudan.edu.c 中中中中中中中中中中 中中中 中中 :
Dec 31, 2015
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
中文知识图谱平台规划
报告人:徐波
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 2
前言
已有工作回顾
设计思路
工作规划
时间进度规划
目录
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 3
前言• 近年来,随着社会的进步,科技的发展,人们对于知识获取方式的需求也发生了巨大的变化
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 4
知识获取方式
在搜索引擎中通过关键字查找相应网页
查阅书籍文献
让计算机真正理解用户的需求,并返回结果
传统方法
关键字搜索
知识搜索
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023
语义搜索当我们拥有丰富背景知识,就能更好的回答问题
我们需要的是语义搜索而不是关键字搜索!!
Entity Attribute Value
奥巴马 生日 ****
克林顿 生日 ****
美国总统奥巴马Is a
刘德华华仔
synonym
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023
电子阅读• 深度阅读
– 对于不大理解的词语,不再需要依靠其他途径如字典、互联网来帮助理解
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023
这一切,都离不开系统后台庞大的知识数据库,也就是我们所说的知识图谱
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 8
前言
已有工作回顾
设计思路
工作规划
时间进度规划
目录
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 9
已有工作回顾
数据层 技术层 应用层
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 10
丰富的数据储备
百科类网站 输入法词库
新浪微博及 POI
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 11
无处不在的技术之【爬虫】Multi-Job
Redundancy
BalancePriority
Diversity
1.ID自增:百度百科2.超链接:互动百科3.调用 API:新浪微博4.猜哈希:新浪 POI
爬虫策略
1.需要登录2.更换 IP3.识别验证码4.分布式
反反爬虫
基于云的防屏蔽爬虫系统
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 12
无处不在的技术之【解析】解析语言
C
C#
Python
Java
方法
正则表达式
正则表达式
lxml
正则表达式 /HTMLParser
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 13
无处不在的技术之【知识抽取】• 三元组形式
– (subject,predicte,object)
• 从正文中抽取更多的知识– Pattern learning– Bootstrapping
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 14
无处不在的技术之【 IsA关系】
Ak74突击步枪
突击步枪 步枪 枪械 武器
典型的第四代战机包括美国的 F-15E、F-18战机、日本的F-2战斗机、俄罗斯的米格 -35战斗机、欧洲的台风战斗机、法国的阵风战斗机、瑞典的 JAS-39战斗机等等
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 15
无处不在的技术之【 Linkage聚类】
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 16
应用之【搜索引擎】• 支持搜索类型
– Entity– Entity + Attribute
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 17
应用之【可视化】• 对知识库中实体进行可视化展示
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 18
应用之【中文分词】• 利用中文知识图谱中的海量实体进行分词
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 19
应用之【电子阅读】
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 20
应用之【电信客户细分】• 通过对电信用户的上网 URL进行分类,确定用户的兴趣,对客户进行细分
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 21
应用之【舆情监控】
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 22
目录
总体框架
构成模块详解设计思路
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 23
总体框架
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 24
构成模块
数据获取与存储 数据集成 应用接口 应用
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 25
知识图谱构建
知识图谱构建
网络资源
数据获取1. 防屏蔽分布式爬虫2. Social Crawling3. Entity crawling
实体 /概念抽取
列表抽取
属性抽取
实体识别
分类体系融合
开放关系抽取
数据源选择
IsA 关系抽取
数据获取与存储
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 26
大图数据管理• RDF• SPARQL
大图数据管理大图划分
图再划分
分布式缓存
Linked data 查询处理
带冗余划分
数据获取与存储
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 27
领域知识库
互联网领域知识库
领域知识库
军事领域知识库
图书出版领域知识库
医疗领域知识库
……
数据集成
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 28
集成 Linked Open Data
• 数据融合问题
中文知识图谱
面向知识图谱的集成数据开放平台
Probase+Probase DBpedia Yago
Yago2Knowitall……
Freebase
数据集成
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 29
语义分析
基于知识图谱的语义分析
语义消歧
Word embe-dding
实体指代
语义扩展
实体概念化
……
应用接口
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 30
知识互联
知识互
联 实体链接
类别映射
实体映射
关系映射
跨语言实体映射
……
应用接口
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 31
应用
应用 QA 微博应用分析 深度阅读 服务匹配 名片识别 ……数据集成
应用
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 32
目录
工作计划
界面美化
API接口
自然语言理解
Linked Data
扩大实体关系
数据融合
质量评估
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 33
重要度 NO.1:界面美化
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 34
重要度 NO.1:界面美化( 2)
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 35
重要度 NO.2: API接口• 应用的激增
–内部应用–外部应用
• 反爬虫的需要
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 36
重要度 NO.2: API接口( 2)• API文档• SDK下载• 授权认证
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 37
重要度 NO.3:自然语言理解
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 38
重要度 NO.4: Linked Data
• 数据保存成 RDF格式• 运用 SPARQL语言进行查询• 分布式查询
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 39
重要度 NO.5:扩大实体关系• 扩大数据源• 从文本中抽取额外知识
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 40
重要度 NO.6:数据融合• 实体融合• 关系融合
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 41
重要度 NO.7:质量评估• 验证实体及关系质量
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 42
目录
时间进度规划
界面美化
API接口
自然语言理解
Linked Data
扩大实体关系
数据融合
质量评估
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 43
时间进度规划( 1)任务 子任务 Deadline Task Object Participator Leader Priority
界面美化 2013-10-26 美化中文知识图谱界面
高端大气上档次
1
API接口
接口规范 2013-10-26 给出相应的接口规范
搜索引擎接口规范
分词接口规范
可视化接口规范
2
SDK编写 2013-11-26提供给其他人使用的
SDK
提供常用版本接口规范
2
授权验证 2013-11-26 对访问接口进行授权
对不同级别的用户设置不同的访问权限
2
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 44
时间进度规划( 2)任务 子任务 Deadline Task Object Participator Leader Priority
自然语言理解
2013-11-26将自然语言转化为数据库搜索语言
能识别简单问句
3
Linked Data
RDF 2013-10-26 转成 RDF格式存储
数据符合RDF规范
4
SPARQL查询 2013-11-26 提供 SPARQL语句查询
采用现有工具实现查询
4
分布式查询 2013-12-26 分布式SPARQL查询
设置分布策略,提供分布查询
4
Graph Data Management Lab, School of Computer ScienceGDM@FUDAN http://gdm.fudan.edu.cn
04/19/2023 中文知识图谱平台规划 45
时间进度规划( 3)任务 子任务 Deadline Task Object Participator Leader Priority
扩大实体关系
扩大实体 2013-10-26 扩大知识库实体数量
20M entities 1
扩大关系 2013-10-26 扩大知识库关系数量 扩大一倍 1
扩大数据源 2013-11-26 从其他数据源中增加知识
5
数据融合
实体融合 2013-12-26 融合实体 融合准确 6
关系融合 2013-12-26 融合关系 融合准确 6
质量评估 2013-12-26 评估知识库质量 评估准备 7