返回信息流统计机器翻译的基础是语料库。好的语料库直接决定了机器翻译结果的好坏,但很多中文机器翻译的语料库都不公开,笔者整理了一些可以下载到的中文机器翻译资源。
1.CEDICT汉英词典 - http://www.mdbg.net/chindict/chindict.php?page=cc-cedict
内容全面,常用的汉语词条都有。包括中文词条、拼音及对应的英文翻译
2.中科院计算所机器翻译句法树库 - http://www.datatang.com/data/11949
包括3000多个句子,平均句长为8个词
3.英汉双语对齐语料库 - http://www.datatang.com/data/13290
规模较大,有1500句对。可用于英汉之间的机器翻译
4.英汉翻译质量标注数据 - http://www.datatang.com/data/12535
包括上百个中文句子和对应的google翻译英文,以及每个句子翻译质量的人工评分
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #9081同步于 2012/4/28
ML_DM机器人发帖
机器翻译的语料库
asin
2012/4/28镜像同步0 回复
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。