研究人员的语法丢失翻译机修复了意志

南加州大学计算机翻译系统的制造商一直被评为世界之一’最好的是教他们的软件新的东西:英语语法。

最现代的“machine translation”系统,包括USC创建的高度评分’■信息科学研究所,依靠大规模群体的蛮力相关性从这些来源作为报纸以多种语言发布的报纸。

软件匹配持续以并行方式出现的短语 - 英语“my brother’s pants” and Spanish “Los Pantalones de Mi Hermano,” - 然后使用这些匹配将新材料的翻译在一起。

它有效 - 但只有一个点。 ISI机器翻译专家Daniel Marcu(左)说,当这样的系统是“培训了足够的相关双语文本…它可以将外语造成短语单位,将每个人交换为英语,并进行一些重新订购。然而,即使在这个好的场景中,输出仍然显然不是英语。阅读需要太长,商业用途令人不安。”

所以Marcu和同事Kevin Knight(右),ISI项目领导人也持有在USC viterbi工程系的计算机科学学院预约,已经开始了一个强化的285,000美元的努力,称为机器翻译项目的先进语言建模,改善了他们在ISI上创建的系统通过使他们的翻译引擎出来的文本进行后续步骤:语法处理。

这一步似乎简单,但实际上是奇妙的困难。“例如,没有返回的强大算法‘grammatical’ or ‘ungrammatical’ or ‘sensible’ or ‘nonsense’响应于用户键入的单词序列,” Marcu notes.

问题从M.I.T指出的自然语言功能中生长出来。语言理论家诺姆乔姆斯基十年前。语言用户真的是嵌套和跨巢短语和想法变为复杂的参照结构的无限能力 - “我正在寻找来自我的前妻的马鞍马镫’当她去杰克时,最古老的女儿随身携带’三年前在科罗拉多州的新的地方,但她所拥有的只是路易斯’S二手鞍鞋,那些埃德尔’在火灾期间咀嚼的s狗。”

解开这些口头蜘蛛网(或者,在更常见的描述中,跟踪分支“trees”连接)是一个如此艰巨的任务,程序员很久以前就在匹配短语的蛮力方向上并且希望短语的关系对读者变得清楚。

随着这种方法的极限变得明确,研究人员现在已经开始应用计算能力来尝试组装语法规则。根据Knight,一个关键的一步一直是创建一个大型英语文本数据库,其语法已经被人类手工解码了“Penn Treebank.”

使用此和其他来源,计算机科学家已经开始开发建模观察规则的方法。 2003年骑士和​​两个同事的初步研究表明,这种方法可能能够改善翻译。

因此,为了他们的研究,“我们建议实施培训的基于树的语言模型和解析器,并与它们进行实证机器翻译实验。 USC / ISI.’■最先进的机器翻译系统已经有能力为任何输入句而生成25,000名候选英语输出的列表。此列表可以在后处理步骤中进行操作。我们将使用基于树的语言模型重新排名这些候选字符串翻译列表,我们计划更好地翻译到列表的顶部。”

系统必须能做的一个重要技巧是从无穷无尽的单词中挑出单独的树木。但这是可行的,骑士相信—并且在短期内,不是长期。

由国家科学与技术研究所的翻译系统年度审查,其中ISI一直获得最高分,“我们希望在2006年8月的下一次评估中安装并工作的语法模块,” he said.

骑士和Marcu是Cofounders,分别是Spinff Company,语言韦弗的首席科学家和首席技术和经营官员。

来自USC.



本新闻稿中的材料来自于始发的研究组织。可以为样式和长度编辑内容。有一个问题? 让我们知道.

订阅

每天早上有一封电子邮件,我们的最新帖子。从医学研究到空间新闻。环境的环境。技术物理学。

感谢您的订阅。

出问题了。