解决跨语言信息检索问题 对于搜索引擎的价值(2)

http://www.itjxue.com  2015-08-02 11:01  来源:未知  点击次数: 

Query翻译方式的最大缺点就是由于词语翻译的错误导致检索错误。那么我们有没有办法客服这个问题呢?对于自动而又精确的翻译,我们很容易会想到机器翻译。不过,如果直接使用机器翻译的结果,效果并不能达到我们的预期。这是因为,首先,机器翻译和跨语言信息检索的目标是不一样的。机器翻译是为了让翻译出的文字更可读,因而会在调整语序上下很多功夫,但是跨语言检索不需要语序,它只需要正确翻译的词语出现即可。在机器翻译中一些无意义的连接词(比如“there is”)是重要的,但是在跨语言检索中我们完全不需要它们。其次,机器翻译的目标是得到一个最可能的翻译结果,而在跨语言检索中,我们需要保留多种翻译的结果,来提高召回。在这里,也许你会想到,我们也可以把机器翻译的结果作为基础进行同义词扩展,这样不是就可以了么?这样做其实是有很大风险的:如果机器翻译把某个词翻错了,那么在此之上的所有扩展都会对检索结果造成恶劣的影响。

Query翻译的一般做法是这样的(如图2所示):对于一个query,首先我们对它进行切分,得到一个个词语。在切分的结果中,我们把其中的无意义词语(如“的”、“吗”等)都过滤掉。对于剩下的每一个有意义的词语,我们得到若干翻译候选词。然后在这些候选词语中,我们通过某种机制选择其中的一部分来生成跨语言检索的新query。举个例子:

比如有个英文的query:

“building information super highway”

我们要用它来检索中文的文档。我们可以通过翻译字典找到每个英文单词的中文候选词:

“building” -》 “建筑 / 建立”

“information” -》 “信息 / 消息 / 知识”

“super” -》 “上等的 / 超级的 / 特大的”

“highway” -》 “公路 / 大道 / 直接的途径”

英文query的原意是希望了解高速公路附近的房屋信息。根据这个需求,我们可以发现,在这些候选词里有些必须删除,比如building的翻译“建立”,因为它明显不符合query的原意;有些是可以保留的,比如highway的翻译“公路”和“大道”。而我们的核心目标就是通过一定的方法把不合理的翻译删除,然后将合理的翻译用于检索。

在这里我们介绍一种基于词共现的方法。

比如“building”和“information”这两个词,我们首先把它们的翻译组合写出来,得到6种可能翻译:

(建筑 信息),(建筑 消息),(建筑 知识),(建立 信息),(建立 消息),(建立 知识)

在这些组合中,有些我们一眼就可以看出它是符合检索需求的,比如(建筑 信息),有些则肯定不是,如(建立 消息)。那么如何让程序自动判断呢?其实很简单,我们只需要看看这些组合在中文文档中共同出现的次数即可。正确的翻译组合在文档中出现的频率往往较高,而错误的翻译组合则不常出现。这样,我们通过中文文档中词语的自然分布,就可以为翻译组合打分,把错误的翻译组合剔除掉。

基于共现的方法是最基本、最简单的一种方法。事实上近10多年来,学术界已经提出了很多更为复杂的算法来解决这个问题。由于篇幅有限,这里就不详细介绍了。有兴趣的读者可以读读加拿大蒙特利尔大学的聂建云教授的著作《Cross-Language Information Retrieval》,那里有更详尽的论述。

以上着重介绍的都是跨语言信息检索在技术上是怎么实现的。下面我想说下,我们为什么要进行跨语言检索呢?它对于搜索引擎有多大的价值呢?我总结了以下几点:

获取其他语言的相关资源

有些资源在中文中不存在,而在其他语言的网页中存在。比文章开头描述的XX用户,希望了解外国的舆论。在这种情况下,我们就需要通过跨语的搜索来满足用户的需求。

获取多种语言夹杂的资源

在互联网上并不是每个网页都只有一种语言。很多时候,一个网页中有多种语言的文字出现。如果只用一种语言的query去检索,可能无法召回这些页面。如果我们将跨语言检索的技术融入当中,就可以提高搜索的召回。

获取与文字语言无关的资源

有些资源是跟文字无关的,比如图片、视频、音频。而对这些资源的搜索往往会借助于文字。有了跨语言检索的技术,我们就可以将满足用户需求的、国外网站上的资源展现出来,来丰富搜索结果。

满足“查全”的需求

在搜索中,我们有的时候需要“查全”所有的相关信息。比如要搜一个专利,我们会希望把各个国家的相关专利都搜出来。在这种情况下,我们就需要跨语的检索,帮助我们达到这个目的。

当前,跨语言信息检索不仅在学术界正在热火朝天地开展,事实上,它早已走入了工业界,真正被应用到了实际搜索当中。早在2006年,Yahoo首先推出了跨语言搜索服务。随后在2007年,Google也相继进入了这一领域,展开了国际化的搜索。和百度相比,Yahoo和Google的确在国际化方面领先不少。其中一个重要原因是,他们都是从英文搜索起家的,而英文是世界上的最流行的通用语言,它到其它语言的翻译资源比较丰富,利于国际化的扩展。不过这没关系,我们比的是谁做的更好,而不是谁做的更早。如今,百度的国际化业务正在如火如荼地开展,相信不久的将来,它将会在搜索国际化进程中扮演举足轻重的角色。

“雄关漫漫真如铁,而今迈步从头越”,未来如何,让我们拭目以待吧!

作者:飞旋的世界

(责任编辑:IT教学网)

更多