Jan 03, 2016
主要内容1. 汉字字形自动生成研究现状2. 汉字字形描述和笔画生成3. 汉字的特征点及权值4. 汉字笔画的生成算法5. 结束语
字库生成过程
字稿设计 扫描处理 数字化拟合
修字 质检 完成字库
商品化和测试
以字库生成为目的的汉字生成 和英文字库比较,
汉字数量大,字库设计比较难。因此,使用不同的部件拼字、或者使用笔画变形、或者通过改变笔画的粗细等来生成汉字,但到快速开发新字库的目的。
自动化生成汉字字库是一项长期而艰巨的工作。中文信息处理截至到今天已经有三十年左右的发展历史了,使用计算机自动生成汉字字形始终是人们的一个梦想。
部件拼字法• 美国伯利克大学的 CDL 用部件或笔画去描述汉字的组成。不超过 50 个笔划类
型的笔划集就足以构造几乎所有现行印刷体汉字,目前 CDL 已能对超过 4 万个汉字的描述,这包括所有基本多文种平面( BMP )汉字和超过 1 万两千个扩展集( EXT-B )汉字。
部件拼字法• 香港浸会大学的 Han Glyph, 实现了用四十多个部件组成常用汉字
笔画变形法
【参考文献 2 】张明敏
【参考文献 3 】字形衍生
系列字生成法
传统方法的不足• 1. 对部件和笔画的依赖性大。• 2. 生成字形的变化空间不大。• 3. 缺少对笔画结构的控制,后期仍需要人
力去修改。
基于笔元的字形生成方法• 汉字进一步抽象的探讨• 轮廓抽象为骨架,骨架能否抽象为点?• 笔元描述方法——一种点到点的描述方法
汉字字形点到点的描述
Nlp&CC2013 中国重庆
汉字点到点描述的几何基础
v1v3v4
v2 v5v6v11
v13v12
v15
v14v10
v9v8
v7v16
笔元的变换是字形生成的关键
笔元变换的数学基础
汉子字形的特征点• 字形特征点:汉子字形的特征点 T 是汉字
书写过程中 3 类端点集合(开始点 (Ds) ,过程点 (Dz) ,结束点 (De) )
• 每一个笔画可以描述为 T(Ds,Dz1,Dz2,….Dzn,De)
字形特征点的权值• 字形特征点的权值,由汉字的特征点在书
写或形成过程的特征点的名称编号 n 、书写方向 r 、空间位置 q 和状态 s 等四个部分组成。 Dj(n,r,q,s)
• 特征向量: V1V2 为特征点 V1 和 V2 的特征向量。
权向量• 权向量:是字形生成过程中,根据生成的
需要在特征向量之外定义的向量。权向量的始点位于 V1 和 V2 组成的直线上,分别向V1V2 两边延伸。
Nlp&CC2013 中国重庆
• 定比分点法:为表示特征点位置的变化,以动点 m 为分界点的前后两部分分线段长度的比值来表示特征点位置变化状态。
1
2
| || |mVmV
特征函数的构建
)](),(),(),(),([)( 11 tqtqtrtrtTtT iiiiiii 笔 元 特征点 特征点数 n 特征表达式 Q
横 V1 V2 2 {(V1,(0, V2)}
竖 V1 V2 2 {(V1,(270, V2)}
撇 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}
捺 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}
点 V1 V2 2 {(V1,( T ( t ) 1, V2)}
折 V1 V2 … Vi i {(V1,( T ( t ) 1,,(V2,( T ( t ) 2,,V3… )))}
简单的点笔画的生成算法(以点笔画为例)• 算法步骤:• Step 1: 设定 V1 ( x1,y1 )为笔画的始点,
V2 ( x2,y2 )为笔画的终点;• Step 2: 调用相应的 GDI 绘图指令或选定特定的
数字墨水绘制技术;• Step 3: 设定起始点、结束点的状态;• Step 4: 设定线的粗细;• Step 5: 计算 T(t)1 值;• Step 6: 根据 T(t ) 1 值,从 V1 向 V2 画线;
基于 B样条曲线的点笔画的生成 • 由于 Bezier曲线受到曲线顶点的影响,使得对曲线进行局部修改非常困难,而在汉字生成过程中,对曲线的局部修改是随时要进行的,因此我们选择使用 B样条曲线来生成,
根据B样条曲线的分段特性,一个笔画的轮廓可用多条 B样条曲线来生成,参照权向量的定义,本算法采用 5条二次 B样条曲线来生成一个点笔画的轮廓,
关键算法步骤• 特征函数的初始化。创建五个特征点对
象 T1, T2, T3, T4, T5 表示绘制 5条二次 B样条曲线的控制点 ; 一个 double 类型的变量 k1 表示特征向量的斜率。一个 float 类型变量 a 表示 V1 V2 的定比分点,另外四个 float 类型变量 k2 , k3分别表示两个权向量与特征向量的夹角,b , c 表示两个权向量的模。
生成样例
• 不同比值下点的生成。
实验 对比
谢谢
Nlp&CC2013 中国重庆