藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议:...
Post on 30-Oct-2019
30 Views
Preview:
Transcript
藏文信息处理研究刍议:
下一步做什么及怎么做?
1
孙茂松
清华大学计算机科学与技术系sms@tsinghua.edu.cn
首届全国藏文信息处理研讨会,
2014年8月16日,青海师范大学
2
• 制定广为接受的藏文相关加工标准规范
+ 文法研究历史悠长、基础深厚:文法根本三十颂、字性组织法。《实用藏文文法教程》
+ 已有不少相关工作积累
+ 容易取得共识
• 开放藏文词法分析相关加工语料库
+ 以开放促高质量资源建设
• 组织藏文词法分析相关公开评测
+ 以评测促高性能分析算法研究
• 开放(开源)藏文词法分析软件
一、巩固、光大藏文词法分析成果
3
• 多方面的需求
+ 信息处理
+ 社会文化交流
+ 基础教育
+ 语言学和认知相关研究
• 中小学藏文课本与网络文本相结合,
语料库统计为主与专家感性判断为辅相结合
+ 藏文分级词汇表
• 进一步地,研制藏汉常用词对照表
二、研制藏文常用词频率词典
4
• 正当其时
+ 藏文词法分析基本成熟
+ 藏文网络资源规模尚不大:藏文网站180余个,除境外网站和访问不顺畅的网站外,约104个(国家社科
基金项目《中国少数民族互联网发展状况研究》报告)
三、研发藏文搜索引擎
5
• 藏文网站类型
三、研发藏文搜索引擎
6
• 有了词法分析扎实的基础,相关技术水到渠成
• 藏文关键词抽取
+ 关键词云图
• 藏文文本分类
+ 80%以上的分类准确率应无问题
四、研发藏文关键词抽取及文本分类技术
7
• 藏文网站语种情况
五、研发藏文跨语言检索系统
8
• 新词语自动识别
• 热点词语自动识别
• 动态隐含话题模型
• 基于话题链的事件
序列分析
• 信息可视化
• 情感计算
六、研制藏文舆情分析系统
9
• 如何快速建立藏文大规模词语关联(本体库)?
• 途径之一: Word2Vec
For the Web, From the Web ……
Word2Vec
七、构造大规模藏文词语关联(本体库)
10
七、构造大规模藏文词语关联(本体库)
11
七、构造大规模藏文词语关联(本体库)
七、构造大规模藏文词语关联(本体库)
最短路径: 冈仁波齐峰 -> 西藏地理->冈底斯山脉
• 途径之二: 维基百科
七、构造大规模藏文词语关联(本体库)
分类: 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 扎什伦布寺: [佛教圣地, 格鲁派, 国家4A级旅游景区, 藏传佛教寺院] 最短路径: 冈仁波齐峰 -> 佛教圣地 -> 扎什伦布寺
七、构造大规模藏文词语关联(本体库)
分类: 松赞干布: [唐朝郡王, 唐朝驸马, 藏传佛教, 吐蕃赞普, 西藏历史, 人物神] 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 最短路径: 松赞干布 -> 藏传佛教 -> 藏区 -> 西藏 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 藏区 -> 藏区地理 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 西藏宗教 -> 西藏 -> 西藏地理 -> 冈仁波齐峰
八、藏文分析从词法层走向句法语义层
15
V + 𝑁 → 𝑁𝑃 V + 𝑁 → 𝑉𝑃
V + 𝑁 → 𝑉𝑃 572棵句法树!
美女学者朱怀真研究西维因残留提取方法。
八、藏文分析从词法层走向句法语义层
17
我们要研究学习的方法。 今天我们研究这类问题的另一种解决方法…。 近闻美国和日本正在研究用Na2SO3吸收法作为治理SO2污染的一种新方法。 ……… 教育研究领域积累了种种研究方法,诸如调查法、观察研究、访谈法、…… 调查研究的方法 研究性学习方法
争取突破高水平论文(ACL)!
八、藏文分析从词法层走向句法语义层
18
八、藏文分析从词法层走向句法语义层
顺便提及……
19
“第十 三届全国计算语言学会议(CCL 2014)及第二届
基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2014) “Knowledge Graph Workshop” * 分词国际标准简介
20
谢谢!
扎西德勒!
top related