不可避免很难避免

Report
拼写校对及联合解码报告
赵安邦
2013年1月
目录
 研究背景
 具体方法
 框架
 人工规则拼写校对
 自动规则拼写校对
 联合解码
 实验及分析
 维语
 蒙语
目录
 研究背景
 具体方法
 框架
 人工规则拼写校对
 自动规则拼写校对
 联合解码
 实验及分析
 维语
 蒙语
研究背景
疑点
• 在我们的测试集上BLEU值是0.401,未登录词不太多
• 在客户的使用中却大量出现未登录词
分析
• 我们的语料中元音上很多有点
• 客户的语料中元音上几乎没有点
实验
• 把训练测试集所有的元音上点去掉,BLEU提高到0.4104
• 在客户使用中,未登录词大大减少
研究背景
元音
脱点
• 如körüshti可能写成korushti。
音变
• mektep(学校,词干)+im(第一人称单数,词缀)
=mektipim(我的学校)
(弱化现象)
• burun(鼻子,词干)+i(第三人称单数,词缀)=burni
(他的鼻子)
(脱落现象)
笔误
• tögütüsh写成tügütüsh
研究背景
 维语中大量存在拼写不规范不一致的情况。
 很多拼写错误是有明确原因的,可以寻找规律解决。
 校正这些拼写错误后再翻译可以大大减少未登录词,
进而提高BLEU值。
 拼写错误在蒙语中也大量存在。
目录
 研究背景
 具体方法
 判断是否是未登录词
 拼写校对规则生成
 联合解码
 实验及分析
 维语
 蒙语
框架
 核心思想:利用拼写校对模块产生候选,解码时
对多个候选进行联合解码。
解码时判
断是否是
未登录词
对未登录
词产生拼
写校对候
选,存入
lattice结构
对lattice
结构进行
联合解码
框架
判断是否是未登录词
 在解码器读入的短语表中查找是否有这个单词,规
则表存在一个trie树中,只需要查找第一层,复杂
度O(lgn)。
拼写校对规则生成
 人工规则
总结出现拼写错误的三个原因,根据这些原因和语言
学知识人工写规则。
拼写校对规则生成
nenliyang
nenlyang/NP
nenliyang
nenlyang
l-l y-y
i-null
li-l iy-liy-ly nliy-nly ….
拼写校对规则生成
 问题
这样抽取规则会抽取出过多的规则
 解决
设置规则最大长度为3
设置频度阈值
 效果
限制规则数量在1000条左右
拼写校对候选生成
 抽取出规则后,遍历规则产生对未登录词的所有应
该规则可能产生的拼写校对候选。
 如果应用自动抽取规则,则可能产生的候选会特别
多,则限制一个词最多只能使用一次规则进行变形。
联合解码
 Chiero使用CYK进行解码,而拼写校对模块只是对
每个词产生多个候选,可以很简单地结合到CYK解
码中。
 实际做的时候,只需要在开始解码前,把多个候选
保存在第一层的span中即可。
联合解码
 原始CYK第一层
<S>
awstirraliyening sherqiy
qisimidiki
brispan
</S>
qisimidiki
qismitiki
qismidiki
qismidikea
qisnidikea
brispan
</S>
 联合解码中CYK的第一层
<S>
awstirraliyening sherqiy
awawstiraliyening
awstiraliyening
awsdiraliyening
awstiraniyening
目录
 研究背景
 具体方法
 判断是否是未登录词
 拼写校对规则生成
 联合解码
 实验及分析
 维语
 蒙语
联合解码
 测试语料
测试语料使用实验室内部评测用的语料。新闻语料是CWMT2011的700
句测试集。口语是内部测试使用的500句测试集。
 解码器版本
ICT-Chiero 3.0
维语
 BLEU值测试
标准chiero
+拼写校对联合解码
(人工规则)
+拼写校对联合解码
(自动规则)
书面语
0.5079
0.5409
0.5209
口语
0.1643
0.1872
0.1843
 未登录词测试结果
标准chiero
+拼写校对联合解码
(人工规则)
+拼写校对联合解码
(自动规则)
书面语
3806
481
350
口语
1864
328
175
蒙语
蒙语新闻
标准Chiero
+拼写校对
0.0792
0.0878

similar documents