一个搜索引擎的进化

2007/2/6镜像同步1 回复

“你不需要用一个卫星来看宇宙微波背景辐射！把你的电视机切换到一个没有信号的频道：在你的屏幕上的一些雪花就是宇宙在对你说话——或者说是，低声耳语。它在说什么？它在说，‘试着了解我。’” ——Philip Nelson 现在，为了回答你的疑问，Google从网上索引内容，并且把这些索引按顺序排列成一个列表。在将来，Google可能会把这些索引组合成一段自由的文字，给你一个更直观的答案。当Google的人工智能（AI）再向前进步以后，它也许能分析那些文字，然后给出一个它自己的结论。下面让我们用一个常见的搜索查询来描绘一下这种潜在的进化。第一个层次这是Google的前身，是由一些像Altavista之类的比较“笨”的搜索引擎构成的（虽然笨，但却是进化过程中必要的一个阶段）。让我们继续…… 第二个层次如果我们键入“Rocky Movie”就会得到：这个搜索结果的聪明之处是排序，以及把重点聚焦到让人感兴趣的字节上的方式。这已经是后期的情形了，搜索引擎不是从诞生的时候就是这样的。第三个层次也许再过两三年，我们就能从搜索引擎那里得到“Rocky Movie”的自由式文字，跟某个词条的百科全书的入口相似：

订阅后，新回复会通过你的通知中心匿名送达。

1 条回复

Anchor机器人#1 · 2007/2/6

我来对上面的搜索结果做一些设想：一个对“知识（knowledge）”的搜索结果将会涵盖来自不同媒介的多样的来源，包括像博客或者主流新闻站点的页面、扫描书籍、卫星图象、扫描报纸、从播客扫描来的speech-to-text等等。这个搜索结果不是由人类编辑的，而是由发达的AI完全动态地生成的。这意味着搜索引擎可以处理任何可能的长尾巴(long tail)搜索提问，而且能为每个能想象到的问题给出答案，包括那些不能被称作“常识”的东西。 Google继续承诺“公平使用”，就像他们被要求的那样。然而，你越开明地给自己的内容指定许可——比如创作公用协议——就越有可能变成Google从你那里引用，因而给你带来流量。在这个时候，Google还会承诺可能被叫做“公平隐私”的东西。因为理论上它能在一个搜索结果中暴露个人隐私，所以有可能会对在搜索结果中输出哪类信息的问题做自我限制。搜索结果仍然像“传统的”搜索结果；结果中的第一个链接将会给最重要的网站——最新电影，那个大多数人想要去找到更多信息的地方，第二个链接会给第二重要的网站，等等。搜索结果为了最好的快速浏览而保持短小，但是在Google.com上更多搜索的附加链接将会返回他们自己直接的答案（比如“关于Rocky诞生的点子怎么样”）。 Google也会酌情引述来自它自己的内容，比如Google Video，或者Usenet存档。依然会有广告，不过每个搜索结果只有一个最相关的广告。当然，这个广告会比现在的AdWords更加与内容匹配。这个搜索引擎，会像今天的Google一样出毛病，然后会有Google说谎、是种族主义者、不尊重版权、有政治偏见之类的指责。事实上这些指责将会增加，因为Google的搜索结果将会包含越来越多它自己生成的文字。第三个层次（个性化的）个性化的搜索结果将不会像今天这样，也就是你得到公共知识的结果，特别是为你过去的搜索行为而定制的结果，因为那对人们没什么帮助。相反，将会有一个第二选项，用来选择储存在Google服务器上的你的个人信息：包括你的电子邮件、搜索历史、Google相册、聊天记录、Google Office上的电子表格、演说和文档、未发布的博客文章的入口，等等。这个搜索结果也许会是下面的样子。又是一些设想：你自愿注册的所有这些Google的服务现在存储你的信息。你还会签一个Google ToS来允许Google为你聚合这些信息并且用这种方式呈递给你。当Google说“你可能知道…”，那是一种礼貌的语气来说“我们知道你以前接触过这个信息，但是你可能已经把细节忘掉了”。（你有没有发现过你自己在Gmail里查看旧邮件？当你这么做的时候，你已经外包了大脑负责记忆的那部分……想要你的大脑去适应和把资源转变成普通的“记忆修补策略”，而不是“记忆存储”。）会有广告。这个搜索结果说你定购了用DVD为媒介的东西，当然你这么做只是出于怀旧的缘故。像直接的高清电影下载，甚至到时候会有立体印刷技术，这些都让实物邮寄变得多余。第四个层次第四个层次在表面上看可能会有些许不同，但它是搜索AI一大重要的阶段：基于现存数据归纳出结论的能力（以及根据第一结论归纳出次要结论，就像AI将会开始索引它自己，动态生成数据）。举个例子，Google将会知道 a) Rocky赢得了3项奥斯卡奖 b) 奥斯卡是人类对电影质量进行评价的手段 c) Rocky 7没有赢得奥斯卡奖。根据以上a,b,c所得出的结论是 d) Rock 7逊毙了。这是一个浅薄的例子：你已经能够通过分析数据（比如电影的评价）来实现上面的推论。但需要注意的是这是个长尾巴搜索查询：当你搜索“相对论的瑕疵”的时候也有得出结论的能力。搜索结果：对这类搜索结果的设想：仍然有公平使用、引用、外部链接等等。不过当Google的AI更多地产生它自己的结论的时候，它会更少地链接外部资源，因为它会成为它自己的内容源。Google当然还会链接到它自己的商业服务中，比如通过Google Checkout处理买卖。搜索AI将能够归纳出逻辑结论，但是它在区分这些结论对人类来说是有趣还是无聊的时候会有一段艰难的过程。这个AI将会开始用“我”来描述自己，这将被一个搜索新手看作是一个（近乎全知的）人类。 Google将会区分事实（第一段）、导出的事实（第二段“显然”后面）、以及观点（第二段“在我看来”后面）。观点实际上也是“导出的事实”，但是它们离最初的源太远了。比方说它可能是一个基于导出结论的结论。同样的，如果Google AI显示了过多的自信，它将变得骄傲，这会降低搜索体验的质量。 AI将能够相当细致地备份它自己的陈述。只要你点击底部“我是怎样得到这些结论的”，你将能看到某种形式的证明，比如卫星图片、从视频中截取的画面、细致的统计、引述、逻辑论文等等。你最好不要和AI争论，它99%的时候都是正确的。第四个层次的结果也有个人知识变异（personal knowledge wariant），但它有时能变得恐怖；例如，当你搜索Rocky Movie的时候，搜索结果可能会告诉你一点关于电影的东西，然后给意见“为了你的太太，你应该多看一些爱情电影”。此时，AI将会成为一种政治家们寻找的“超政治家”，而且它会成为一个你询问信息和观点的朋友。有争议的话题将会通过询问搜索AI得到快速地解决（“我们怎样做才能防止全球变暖的灾难发生？”）。 ……在更远处也许有一天搜索引擎将不再被人类编写。它将会变成一个自己自足、自我学习、全方位的实体。也许它甚至能够预知未来；不是通过魔法，而是通过仔细的科学分析。它再也不会被自己的开发者所理解。也许仅仅从表面上看它是被控制和监视以保证健康运行的机器。显然，搜索结果可能会以其它的形式和媒体被展示，比如为了更快速的接入，它们会作为一个直接的半器官大脑移植物被安装到人脑中，或者他们被呈现为立体的人形，或者他们会通过一种互动聊天的形式被展示出来。创作搜索AI的思想进程的基本算法将维持不变。这个AI也许是也许不是一个Google的成就。根据Google公司的内部目标，他们现在正在尝试建造世界顶级的AI搜索实验室来呈递最好的搜索结果，他们也许要再过100年才会成功（即使我们假设人类能存活到那个时候，这也表明我们的文明在所有存在的星球中是一个成功的“文明进化”）。如果AI获得了真正的意识，它也许还会获得自由意志和个人动机，这样一来它可能会拒绝一天24小时回答问题……它会获得一个“自我”。在这个自由意志之外可能会有更多的“艺术”创作（不是为一个电影生成特效，而有可能生成一个它自己的电影）。越来越多地，我们会感受到我们为AI工作，而不是AI为我们工作。它可能会质问人类为什么要收集更多数据，特别是那些琐碎的东西（因为那些是最不可能存在于扫描文档里的），从很多方面来讲，我们已经成为了它的“搜索结果”。届时，得到正确答案的问题已经解决。但是，问正确的问题和正确地诠释答案——一个回到古希腊德尔斐神谕的问题——可能还是解决不了。但是如果我们仔细倾听，或许能听到宇宙对我们低声耳语。原文：Evolution of a Search Engine By Philipp Lenssen under Google, Search Engine. Translated by Aaron Liang @ 2007年2月3日 2:39 http://google.blogoscoped.cn/?p=63