Hello World!• 计算机科学博三,⾃自然语⾔言处理、语⾳音韵律分析
• 爱好六朝历史、拉美⽂文学
1.何为诗歌
⼀一枝红杏出墙来
⾃自挂东南枝
感觉⾃自⼰己萌萌哒
诗?
• “梨花体”
• 五⾔言报告:五⾔言还是⽆无⾔言?
• 《穿过⼤大半个中国去睡你》
诗!• “昔我往矣,杨柳依依” (《诗经·⼩小雅·采薇》)
• “讦谟定命, 远遒⾠辰告” (《诗经∙⼤大雅∙抑》)
• “遥夜泛清瑟,⻄西⻛风⽣生翠梦”(许浑《早秋》)
• “⼤大家之作,其⾔言情也必沁⼈人⼼心脾,其写景也必豁⼈人⽿耳⺫⽬目,其辞脱⼝口⽽而出⽆无矫揉装束之态,以其所⻅见者真,所知者深也。”(⺩王国维《⼈人间词话》)
同⾳音⽂文1• 赵元任:施⽒氏⾷食狮史
• ”⽯石室诗⼠士施⽒氏,嗜狮,誓⾷食⼗十狮。”
• 杨义先:同⾳音⽂文的机器⽣生成
• ⼦子⼦子⼦子⼦子⼦子⼦子⼦子⼦子⼦子⼦子⼦子⼦子(ねこのここねこ、ししのここじし)
同⾳音⽂文2• 曹操漕草草艚糙操曹嘈嘈曹操漕槽槽艚糙操曹嘈嘈曹操操漕艚糙槽糙草糙曹操嘈嘈草螬操操
• 曹操漕草,草艚糙,操曹嘈嘈。曹操漕槽,槽艚糙,操曹嘈嘈。曹操操漕,艚糙、槽糙、草糙……。曹操嘈嘈:草螬!操,操!
璇玑图
外圈任取⼀一字开始,左旋右旋→能得五⾔言绝句三⼗十⾸首; 圈内⼗十字交叉的⼗十三个字,顺读、横读、逆读→可得七⾔言绝句四⾸首; 以中间的“⽼老”字为枢纽,左右上下旋读→可得诗若干⾸首; 若将所有⼆二⼗十九字任取⼀一字随意回旋,取其押韵→还能得诗若干⾸首。
回⽂文诗• 客上天然居→居然天上客
• ⼈人中柳如是→是如柳中⼈人
• 《春》诗:莺啼岸柳弄春晴夜⽉月明。
• 《夏》诗:⾹香莲碧⽔水动⻛风凉夏⽇日⻓长。
• 《秋》诗:秋江楚雁宿沙洲浅⽔水流。
• 《冬》诗:红炉透炭炙寒⻛风御隆冬。
诗?!
• 我们是否需要定义诗歌?
• 仅为欣赏:不需要
• 学习写作(⼈人、机):必须!
• 例:语义、语法、诗性
2.诗歌的语⾔言—以唐诗为例
• 格律:体裁、平仄、对仗
• 词汇:先秦、六朝、⼝口语
• 修辞:炼字、⽐比喻、典故
2.1 唐诗格律简介
• 诗韵:平⽔水韵、今/古体诗、换韵(⾸首句⽤用邻韵)
• 平仄:四声⼋八病、变格、对/黏
• 对仗:律诗、绝句、今/古体诗
2.1.1 诗韵(脉络)
• (魏)李登《声类》
• 《切韵》→《唐韵》→《⼲⼴广韵》(现存最早;206韵)→(唐)许敬宗 平⽔水韵……→(清)《佩⽂文诗韵》(106韵)
• 例:天对地,⾬雨对⻛风,⼤大陆对⻓长空。⼭山花对海树,⾚赤⽇日对苍穹。……(《笠翁对韵》上平声:⼀一东)
2.1.1 诗韵(通则)• 今体诗(律诗、绝句):
• 依平⽔水韵*,且限平声韵。(*⾸首句邻韵不计,否则出韵)
• ⼀一韵到底。
• 古体诗:
• 平⽔水韵、邻韵合⽤用;平声韵或上去声韵。
• ⼀一韵到底或者(多次)换韵。
2.1.2 平仄(1/5)• 四声:
• (古汉语) 平(平)、 上(仄)、去(仄)、⼊入(仄)
• (现代汉语)阴平、阳平、上声、去声
• ⻄西南话:⼊入声⼀一律转成阳平(例:沃、质、发、⽉月)
• ⼋八病:
• 平头、上尾、蜂腰、鹤膝、⼤大韵、⼩小韵、傍纽、正纽
• “善⽤用四声,则讽咏⽽而流靡;能达⼋八体,则陆离⽽而华洁”
2.1.2 平仄(2/5)• 四个句型
• ZZPPZ,PZPPZ→OZPPZ ①
• PPZZP ②
• PPPZZ,ZPPZZ→OPPZZ ③
• ZZZPP, PZZPP → OZZPP ④
2.1.2 平仄(3/5)• 四种平仄格式
• 例:五⾔言律诗,仄起平收式:
• 仄仄平平仄平平仄仄平
• 平平平仄仄仄仄仄平平
• 仄仄平平仄平平仄仄平
• 平平平仄仄仄仄仄平平
2.1.2 平仄(4/5)
• 平仄的变格:“⼀一三(五)不论,⼆二四(六)分明”
• 仄平脚第⼀一句:七⾔言的第三字,五⾔言的第⼀一字必须⽤用平声,否则“犯孤平”,即:
• 七⾔言:OZPPZZP
• 五⾔言:PPZZP
2.1.2 平仄(5/5)• 律诗:⼋八句四联
• 上下句:对 — 同⼀一联的出句、对句平仄相反
• 前后联:黏 — 后联出句第⼆二字须与前联对句第⼆二字的平仄相同
• 绝句的对联同律诗
• *拗句、拗平、拗救
2.1.3 对仗(1/2)• 颜⾊色对:⽇日出江花红胜⽕火,春来江⽔水绿如蓝(蓝草)。
• ⽅方位对:寂寞空庭春欲晚,梨花满地不开⻔门。
• 数⺫⽬目对:两只⻩黄鹂鸣翠柳,⼀一⾏行⽩白鹭上⻘青天。
• 宽对:树⾊色随关迥,河声⼊入海遥。
• 借对:少年曾任侠,晚节更为儒。(年节?节操?)
• 流⽔水对:海上⽣生明⽉月,天涯共此时。
• 双声对:秋露⾹香佳菊,春⻛风馥丽兰。
• 叠韵对:筑居仙⾶飘渺,旅⾷食客峥嵘。
• 回⽂文对:隋亲由得意,得意遂情亲;新情终会故,会故亦经新。
2.1.3 对仗(2/2)• 今体诗:出句对句不能同字;必须平对仄,仄对平,否则失对。古体诗对仗⽐比较⾃自由。
• 律诗中对仗可以多到三联,尾联⼀一般不⽤用对仗;绝句若有对仗,⼀一般都在⾸首联。
• ⻓长律除了⾸首尾两联外,都需要对仗。
• “⼯工有馀⽽而味不⾜足,如⼈人形有馀⽽而韵不⾜足,诗岂专在声病对偶⽽而已。”
2.2 唐诗的词汇
• 春阳潜沮洳,濯濯吐深秀。
• 重碧拈春酒,轻红擘荔枝。
• 谢公最⼩小偏怜⼥女,⾃自嫁黔娄百事乖。
2.3 唐诗的修辞
• “笔落惊⻛风⾬雨,诗成泣⿁鬼神”(杜甫)— “晓看红湿处,花重锦官城”
• “吟安⼀一个字,拈断数茎须”(卢延让)— “狐冲官道过,狗触店⻔门开”
• “两句三年得,⼀一吟双泪流”(贾岛)— “⻦鸟宿池边树,僧敲⽉月下⻔门”
计算语⾔言学?• 索绪尔:语⾔言学好⽐比⼀一个⼏几何系统,它 可以归结为⼀一些待证的定理
• 布⻰龙菲尔德:数学只不过是语⾔言所能到达的最⾼高境界
• 阿达玛:语⾔言学是数学和⼈人⽂文科学之间的桥梁
• 例:研究俄语字⺟母序列内部的关系
• 《欧根·奥涅⾦金》与HMM
理性主义何时归?• 1950s:经验主义(⾹香农)
• 1970s:理性主义(乔姆斯基,Marvin Minsky)
• 1990s:经验主义(⻉贝尔实验室)
• 2010s:回归到理性主义 了吗?
来源:(Kenneth Church, 2011)
钟摆摆得太远
吃我乔姆斯基层级体系啦! 神经⺴⽹网络?呵呵 “资助⼈人⼯工智能简直蠢!”
第⼆二季⼈人⼯工智能寒冬(1987~1993)……
ALPAC报告 第⼀一季⼈人⼯工智能寒冬(1974~1980)……
3. 诗歌的机器⽣生成• 机器现场作诗
• 系统模块:数据库;情感/⻛风格分析;⽂文本计算与⽣生成;⾃自动评价
• 诗歌系统举例
• 早期诗歌系统
• 基于模板的诗歌系统
• 基于遗传算法的诗歌系统
• 基于统计翻译模型的诗歌系统
• ⼩小结
3.1 写诗demo•(平起五绝)多情⽔水⽉月牵,依旧若浮烟;萧飒天长久,天涯绣⽊木兰
•(仄起五绝)回⾸首暗⽆无边,燕然流泪泉;当年追往事,多苦涕⾐衣沾。•(仄起五律)
•⾬雨落待明年,孤房清且安;花落空怅望,久坐难追攀;罢笑孤帆影,思君乱紫烟;红妆留不住,忽忆侍轩辕。
•现场作诗:由观众提供任⼀一个⼋八位数,机器将⽣生成⼀一⾸首五⾔言绝句或五⾔言律诗
3.1415926
0.6180339
1893122619140317
出诗表
3.2 系统模块
• 数据库:熟语料库。
• 情感/⻛风格分析;
• ⽂文本计算与⽣生成:潜在语义分析,相似度计算等。
• ⾃自动评价:难题。
3.3 早期诗词系统
• 代表:Word Salada
• 其他在线实⽤用系统
3.4 基于模板的系统
朦胧诗速成法,来源:(周昌乐,2012)
3.5 遗传算法点绛唇
⼈人静⻛风清,兰⼼心蕙性盼如许。 夜寒疏⾬雨,临⽔水闻娇语。 佳⼈人多情,千⾥里独回⾸首。
别离后,泪痕⾐衣袖,惜梦回依旧。
寂寞深闺,柔肠⼀一⼨寸愁千缕。 惜春春去,⼏几点催花⾬雨。 倚遍阑干,只是⽆无情绪。
⼈人何处,连天衰草,望断归来路。
点绛唇
清平乐登临多少,⼊入夜催秋草。
憔悴⽥田园添缠绕,携⼿手光阴欢笑。 ⾦金菊零落离魂,春⻛风相近⻩黄昏。 为我悲秋斜倚,此⽣生天⽓气重⻔门。
清平乐相逢缥缈,窗外⼜又拂晓。
⻓长忆清弦弄浅笑,只恨⼈人间花少。 ⻩黄菊不待清尊,相思⾶飘落⽆无痕。 ⻛风⾬雨重阳⼜又过,登⾼高多少⻩黄昏。
⻄西江⽉月⽩白发早欺霜鬓,暗灯常伴秋窗。 ⼣夕晖慵懒上东墙,寒⻦鸟枝头犹唱。 独雁也思归队,游⼈人何⽇日回乡? 有诗有酒过重阳,确是前年那样。
⻄西江⽉月饮酒开怀酣畅,洞箫笑语尊前。 欲看尽岁岁年年,悠然轻云⼀一⽚片。 赏美景开新酿,⼈人⽣生堪笑欢颜。 故⼈人何处向天边,醉⾥里时光渐渐。
3.5.1 遗传算法(理论)• 遗传算法: ⽣生物的进化过程主要是通过染⾊色体之间的交叉和变异来完成的。遗传算法是⼈人⼯工智能领中⽤用于解决最优化的⼀一种搜索启发式算法。
• “袋⿏鼠跳问题”
• “物竞”—适应度函数,直接影响迭代终⽌止
• “天择”—选择函数(例:轮盘赌算法)
3.5.1 遗传算法(复习)• 同源染⾊色体联会的过程中,⾮非姐妹染⾊色单体(分别来⾃自⽗父⺟母双⽅方)之间常常发⽣生交叉,并且相互交换⼀一部分染⾊色体。
• 事实上,⼆二进制编码的基因交换过程也⾮非常类似这个过程――随机把其中⼏几个位于同⼀一位置的编码进⾏行交换,产⽣生新的个体。
3.5.2 遗传算法(实例)• 初始: 登临多少,⼊入夜催秋草.憔悴⽥田园添缠绕,携⼿手光阴欢笑. ⾦金菊零落离魂,春⻛风相近⻩黄昏.为我悲秋斜倚,此⽣生天⽓气重⻔门. (《清平乐》)
• 进化后: 相逢缥缈,窗外⼜又拂晓.⻓长忆清弦弄浅笑,只恨⼈人间花少. ⻩黄菊不待清尊,相思⾶飘落⽆无痕.⻛风⾬雨重阳⼜又过,登⾼高多少⻩黄昏. (《清平乐》)
3.6 基于机器翻译的系统• 统计机器翻译(SMT)
来源:(张⼤大鲲,孙乐. 2014)
3.6.1 微软对联系统• Jiang and Zhou (2008):使⽤用基于短语的SMT系统,把上联“翻译”成下联;He et
al. (2012) 扩展到绝句。
• 诗句打分:词法权重+语⾔言模型
• 诗句解码:基于短语的解码器
• 诗句初筛:语⾔言学规则
• 诗句选优:⽀支持向量机排序
3.6.2 特征学习
学习 多层次的表⽰示 (Lee et al. ICML 2009; Lee et al. NIPS 2009 )
3.6.3 递归神经⺴⽹网络RNN
(前向)神经⺴⽹网络 递归神经⺴⽹网络
3.6.4 RNNLM诗歌系统• 对内容选择和表达⽅方式联合建模
• 递归神经⺴⽹网络语⾔言模型:对⽂文字、语义、连贯性建模
• 诗歌质量评价:混淆度、BLEU分数、⼈人⼯工评测
3.7 优缺点⼩小结优点 不⾜足
模板 诗歌质量好 缺乏灵活性;依赖模板质量
GA 诗歌质量好,通⽤用性⾼高 运⾏行效率不⾼高
SMT-based 诗歌质量好,内容⻛风格较统⼀一 运⾏行效率
• 研究发现, 规矩越多的⽂文学体裁,就越适合于计算机发挥其特⻓长。
Beyond NLG
• 神来之笔:⼭山抹微云
• 时⼈人⼝口语:痴⼥女饥咬我
• 反弹琵琶:可怜夜半虚前席,不问苍⽣生问⿁鬼神
争论• Vadimir Vapnik vs. Larry Jackel:原理何时破解
• Yann Lecun vs. Gary Marcus:银⾊色⼦子弹?
参考⽂文献(1/2)• Church, Kenneth. "A pendulum swung too far." Linguistic Issues in Language Technology 6 (2011).
• 周昌乐,汉语诗歌的机器创作(清华⼤大学讲座),2012
• 周昌乐, 游维, and 丁晓君. "⼀一种宋词⾃自动⽣生成的遗传算法及其机器实现." Journal of Software 21.3 (2010): 427-437.
• Debate between Yann LeCun and Gary Marcus: https://plus.google.com/+YannLeCunPhD/posts/JRnZwMbK7BR
• Facebook⼈人⼯工智能实验室主任的深度学习之路. http://m.csdn.net/article/2014-08-19/2821276
• 吴军,数学之美与浪潮之巅. http://www.hcii-lab.net/lianwen/Collected%20Articles/%E6%95%B0%E5%AD%A6%E4%B9%8B%E7%BE%8E%E4%B8%8E%E6%B5%AA%E6%BD%AE%E4%B9%8B%E5%B7%85.pdf
• Zhou, Ming, Long Jiang, and Jing He. "Generating Chinese Couplets and Quatrain Using a Statistical Approach." PACLIC. 2009.
• Zhang, Xingxing, and Mirella Lapata. "Chinese poetry generation with recurrent neural networks." Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014.
• 微软对联在线系统:http://duilian.msra.cn/
参考⽂文献(2/2)
• ⺩王国维,《⼈人间词话》.http://v.book.ifeng.com/book/ts/22188.htm
• ⻰龙榆⽣生, 《唐宋词格律》.http://longyusheng.org/cipai/
• ⺩王⼒力,《诗词格律概要》.http://www.99csw.com/book/1822/
• 李渔,《笠翁对韵》.http://www.wcai.net/poetry/shilucipu/liyu.htm
• 蒋绍愚,《唐诗语⾔言研究》.中州古籍出版社,1990年。