|
专业翻译机构--丽都翻译公司-因为专业 所以卓越 2017-08-22 15:01:26 作者:作者:任高举[1] 吐尔根·伊布拉音[1] 艾山·吾买尔[1] 来源:《新疆大学学报:自然科学版》 CAS 2010年第3期 文字大小:[大][中][小] |
基于短语 的统计机器翻译以短语作为翻译的基本单位 .对于一个源语言句子 ,翻译模型将其划分为多个连续的词语串 (即短语 ),然后将每一个源语言短语翻译 为 目标语言短语 ,最后把这些翻译短语组合成 目标语言句子[.短语抽取 (PhraseExtraction)是基于短语 的统计机器翻译中短语翻译模型训练的关键步骤,能否从双语句子对齐的语料 中准确地且尽可能多地抽取双语短语翻译对 ,直接影响翻译模型的质量 ,从而也影响基于短语 的统计机器翻译系统的效能 .针对这个 问题 ,研究者提出了很多方法 :f21提 出了4种不同的短语翻译对抽取方法 ,并且把各种不 同方法抽取的翻译对加在一个统计翻译系统 中;[31提出了对齐模板方法 ,将单词映射到词类 中;『41提出了并不基于Viterbi词对齐模型的新 的短语对齐方法 ,把短语对齐作为一个句子分割任务 ;f5]提 出了一种不需要词对齐的短语抽取算法 ;[6】提出一种基于松弛尺度的短语抽取方法 ,对不能完全相容的短语对 ,结合词性标注信息和词典信息来判断是否进行抽取 ;[7】在Och算法基础上提出了解决局部连续短语抽取的方法 ,能够在原有算法 的基础上抽取出更多 的准确对齐信息 .在这些方法中 ,大部分基于词对齐 ,也有的不要求词对齐 ,还有的考虑 了非连续短语的抽取 ,其中Och的基于词对齐短语抽取算法[。J是使用最多的 .本文所做的工作是对Och短语抽取算法进行改进 ,以抽取 出更合理的汉维短语对 .本文其它部分安排如下 :第2部分介绍基准系统 ;第3部分详细介绍短语抽取算法及其改进 ;第4部分是实验结果及其分析 |
|
|