研究人员开发出的技术可以使Google风格的排名速度提高5倍

斯坦福大学的计算机科学研究人员已经开发出了几种新技术,这些新技术可以使计算Google搜索引擎中使用的网页排名的速度提高五倍。加快Google的发展’的方法可以使计算针对个人的个性化页面排名变得现实’的兴趣或针对特定主题进行定制。

国家科学基金会 :研究人员开发了可将Google风格的网络排名计算速度提高五倍的技术

提速可能会使‘topic-sensitive’页面排名可行

弗吉尼亚州阿灵顿—斯坦福大学的计算机科学研究人员已经开发出了几种新技术,这些新技术可以使计算Google搜索引擎中使用的网页排名的速度提高五倍。加快Google的发展’的方法可以使计算针对个人的个性化页面排名变得现实’的兴趣或针对特定主题进行定制。

斯坦福大学的团队包括研究生Sepandar Kamvar和Taher Haveliwala,著名的数字分析师Gene Golub和计算机科学教授Christopher Manning。他们将在2003年5月20日至24日在匈牙利布达佩斯举行的第十二届年度万维网会议(WWW2003)上发表他们的第一篇论文。这项工作得到了支持基础研究的独立联邦机构国家科学基金会(NSF)的支持。以及科学与工程所有领域的教育。

为十亿个网页计算PageRank,这是Google搜索引擎背后的排名算法,可能需要几天的时间。 Google目前对30亿个网页进行排名和搜索。每个个性化或主题敏感的排名都需要进行单独的多日计算,但其收益将是花费在无关紧要的搜索结果上的时间减少。例如,在运动专用的Google网站中搜索以下内容“Giants” would give more 重要性 to pages about the New York or San Francisco 巨人 and less 重要性 to pages about Jack and the Beanstalk.

“这项工作很好地说明了NSF对基础计算机科学研究(包括应用数学和算法研究)的支持如何影响日常生活,”NSF计划官员Maria Zemankova说。在1990年代中期,NSF数字图书馆项目和NSF研究生奖学金也为斯坦福大学的研究生Larry Page和Sergey Brin提供了支持,同时他们开发了后来成为Google搜索引擎的产品。

为了加快PageRank的速度,斯坦福大学的研究小组开发了三项数值线性代数技术。首先,在WWW2003论文中,他们描述了所谓的“extrapolation”方法,这些方法对Web进行了一些假设’的链接结构’t true,但允许快速轻松地计算PageRank。因为假设不是’t true,PageRank不是’完全正确,但是’s close and can be refined using the original PageRank algorithm. The Stanford researchers have shown that their 外推法 techniques can speed up PageRank by 50 percent in realistic conditions and by up to 300 percent under less realistic conditions.

第二篇论文介绍了一种增强功能,称为“BlockRank,”依靠网络的功能’s link structure–斯坦福小组是第一个进行调查和利用的小组。即,它们显示任何给定网站上大约80%的页面指向同一站点上的其他页面。结果,他们可以计算许多单站点PageRank,以适当的方式将它们粘合在一起,并将其用作原始PageRank算法的起点。使用此技术,他们可以切实地将PageRank计算速度提高300%。

最后,该团队在第三篇论文中指出,某些页面的排名是在PageRank过程的早期计算出来的,而许多高评价页面的排名则需要更长的时间来计算。在一个叫做“Adaptive PageRank,”它们消除了与那些页面提前完成的页面相关的冗余计算。这样可以将PageRank计算速度提高多达50%。

“当我们使用所有这些方法时,可能会进一步提高速度,” Kamvar said. “我们的初步实验表明,结合使用这些方法可使PageRank的计算速度提高五倍。但是,仍然有几个问题需要解决。我们’更接近基于主题的PageRank而不是个性化排名。”

个性化排名的复杂性将要求更高的PageRank计算速度。另外,虽然更快的算法缩短了计算时间,但仍然存在存储问题。由于对数十亿个Web页进行一次PageRank计算得出的结果需要数GB的存储空间,因此为许多人保存个性化的PageRank将会迅速消耗大量存储空间。保存有限数量的主题特定的PageRank计算将更为实用。

计算和存储需求昂贵的原因在于PageRank如何生成导致Google排名的排名’的人气。与分别为每个页面评分的页面排名方法不同,PageRank将每个页面作为基础’s “importance” on the number and 重要性 of pages that link to the page.

因此,PageRank必须同时考虑所有页面,并且可以’轻易省略’可能与某个主题相关。这也意味着更快的方法不会影响Google向用户展示结果的速度’搜索,因为排名是预先计算的,而不是在请求搜索时计算的。

The Stanford team’s conference paper and technical reports on enhancing the PageRank algorithm, as well as the original paper describing the PageRank method, are available on the Stanford Database Group’s Publication Server (http://dbpubs.stanford.edu/).



本新闻稿中的材料来自原始研究组织。可以编辑内容的样式和长度。有一个问题? 让我们知道.

订阅

每天早上一封电子邮件,其中包含我们的最新帖子。从医学研究到太空新闻。环境转化为能源。物理技术。

谢谢您的订阅。

出问题了。