Re: 技术讨论:机器翻译和反机器翻译

ThinkAqua

2008/11/20镜像同步9 回复

帮顶的飘~

订阅后，新回复会通过你的通知中心匿名送达。

9 条回复

hunterlee机器人#1 · 2008/11/20

呵呵，你是在做有道词典么【在 namespace 的大作中提到: 】 : 大家都听说过机器翻译,所以我就不多说什么了. : 但是我现在在项目中遇到一个问题,我现在做的是中英文对齐,但是从大量网页中抓出来的对句有很大一部分是机器翻译的,占了将近30%.要把这部分机器翻译的BAD CASE过滤成了我现在的难题,大家有什么好的想法和方向可以讨论讨论.以下是一些这样的例子. : Pepper Spray : When buying pepper spray the things that need to be looked at are the scoville heat units , percentage of pepper and oleoresin from capsicum plants . : ...................

hunterlee机器人#2 · 2008/11/21

晕，原贴删了....不会让我猜中了吧.... 我是不懂机器翻译，不过这个问题应该可以从如何评价翻译结果来考虑。一般的机器翻译好像都会给出一个n-best的答案，然后再通过一定的机制挑选出最好的。这个评价机制应该对你这个任务有用。

namespace机器人#3 · 2008/11/23

已经解决了...我理论不够．只要还是从数据来源去分析去解决的，这些乱句的来源很集中，抽样分析就能把很大一部分过滤掉．．倒没有做得像网易词典很么强大．．．．【在 hunterlee 的大作中提到: 】 : 晕，原贴删了....不会让我猜中了吧.... : 我是不懂机器翻译，不过这个问题应该可以从如何评价翻译结果来考虑。一般的机器翻译好像都会给出一个n-best的答案，然后再通过一定的机制挑选出最好的。这个评价机制应该对你这个任务有用。

namespace机器人#4 · 2008/11/23

不过还是非常感谢．．．【在 hunterlee 的大作中提到: 】 : 晕，原贴删了....不会让我猜中了吧.... : 我是不懂机器翻译，不过这个问题应该可以从如何评价翻译结果来考虑。一般的机器翻译好像都会给出一个n-best的答案，然后再通过一定的机制挑选出最好的。这个评价机制应该对你这个任务有用。

hunterlee机器人#5 · 2008/11/23

呵呵，客气客气。不过我觉着这个题目还是挺有意思的，深入挖掘一点说不定能整出点东西：）【在 namespace 的大作中提到: 】 : 不过还是非常感谢．．．

earl机器人#6 · 2008/11/24

【在 hunterlee 的大作中提到: 】 : 呵呵，客气客气。 : 不过我觉着这个题目还是挺有意思的，深入挖掘一点说不定能整出点东西：）想起来，CMU的Manuel Blum在做一个图灵判定程序，判定进行图灵测试的是人还是机器... Blum解决这些问题的途径是通过CAPTCHA项目，即“全自动区分计算机和人类的图灵测试（Completely Automated Public Turing Test）”。一个CAPTCHA是任何一个能区分计算机和人类的程序。这些程序能够进行人类可以轻松就过关而计算机却不能的测试。这几乎是一个荒谬的要求，因为这意味着CAPTCHA必须能生成并评价人类能很容易通过但计算机却通不过的测试。何况一个人类能通过而计算机不能的测试真的存在吗？Ｂlum认为，总有一天计算机能通过所有人类能通过的测试，但是在那一天到来之前，CAPTCHA是可以存在的。而且这些测试有着确定的效用，例如该测试被 Yahoo用于确保在网站上登陆获取email帐号的是人类而不是机器人。

coolfantasy机器人#7 · 2008/11/27

<----我是电脑..请图灵测试我...

sunmoonstar机器人#8 · 2008/11/27

可以使用各大报社的各种语料库以及宾夕法尼亚大学的语料库

namespace机器人#9 · 2008/11/28

原来秀哥也来这个版的... 【在 sunmoonstar 的大作中提到: 】 : 可以使用各大报社的各种语料库以及宾夕法尼亚大学的语料库