加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

微软vs谷歌语言模型会压倒搜索引擎吗?

发布时间:2023-02-01 13:42:03 所属栏目:业界 来源:转载
导读:   ChatGPT 无疑是人工智能领域近期最闪耀的一颗星。在背后投入重注与资源的微软已经开始计划用它来改进自家产品。甚至有小道消息称微软打算将 ChatGPT 嵌入到搜索引擎 Bing 里面,向占据
  ChatGPT 无疑是人工智能领域近期最闪耀的一颗星。在背后投入重注与资源的微软已经开始计划用它来改进自家产品。甚至有小道消息称微软打算将 ChatGPT 嵌入到搜索引擎 Bing 里面,向占据霸主地位二十多年的谷歌发起挑战。那么,微软会成功吗?在搜索和人工智能领域都有技术优势的谷歌会做何打算?文章来自编译。

  有传言称,微软悄然启动了一个有望在未来几年影响到科技领域格局的项目。正如 The Verge 的 Tom Warren 所写那样,这家软件巨头“据报道打算推出一版利用 ChatGPT 的 Bing 。”果真如此的话,搜索即将经历一场革命,这是二十年来的头一遭。
 
  在 OpenAI 发布 ChatGPT 过去了一个月之后,这个消息并不是很令人感到意外。ChatGPT 是一款强大的针对会话进行了优化的语言模型(LM),在我看来,这是目前全世界最好的聊天机器人了——尽管这个地位可能不会持续太久。
 
  在 ChatGPT 于 2022 年 11 月 30 日发布之后,人们很快意识到它的存在意味着 LM 有可能在短期内超越传统搜索引擎(SE)成为在线信息检索的主要手段。引申而言,这意味着谷歌在搜索领域长达二十年的霸主地位也许正变得岌岌可危。
 
  微软(非官方的)公告重新点燃了 LM 与 SE 之争,尽管没有人确切知道这件事后续将如何展开,但大家在一件事上几乎已经达成了共识;从某种程度来说,LM 和搜索在未来很可能会成为一个更大整体不可分割的部分。
 
  就像地心引力会将我们拉往地面一样,技术也会自发地朝着一个方向流动(正如热力学的规律一样):让我们的生活更加轻松。LM 更直观,与它们的交互对我们来说很自然。SE 要么改变要么等死的结果似乎不可避免。
 
  我知道,这种话听起来就像那种典型的一般不可证伪的预测。值得庆幸的是,有些未知我们是可以解释清楚的:比如 ChatGPT 会不会对谷歌构成真正威胁?微软能掀翻谷歌吗?这家搜索巨头能否做出充分反应?最终哪家公司会拔得头筹?LM 会取代或削弱搜索吗?还是作为搜索的补充?LM 会在哪些方面改进或削弱搜索?这一切将如何发生,什么时候会发生?
 
  我们可以试着回答其中的一些问题,并在此过程中了解 LM 与 SE 未来将如何互动,微软、谷歌以及 OpenAI 对这一切有何看法,还有就是我所认为的未来几个月/几年这出大戏会如何铺开。
 
  语言模型与搜索引擎

  ChatGPT 推出的那一天,Twitter 上有个叫 josh 的用户马上就说:“谷歌完蛋了。”其他人,比如 George Hotz 也同意这个说法——但并不是每个人都得出相同的结论。
 
  Gary Marcus 教授用经验证据反驳了 George Hotz 的观点,谷歌的 François Chollet 也指出了类似的问题:“搜索属于搜索问题,而不是生成问题。”
 
  流形内插很适合生成式任务(如创作诗歌或图像),但对搜索不管用(如信息获取)。确实是可以用大型语言模型替代搜索引擎,而且体验会好很多(只要你对获得的大多数信息都是编造出来的不在意的话,或者不需要溯源的话......)
 
  我同意 Marcus 和 Chollet 的观点。LM 本身并不适合胜过 SE。不过,SE 可以得到显著改进,以至于那些未集成基于 LM 的功能的 SE 会变得过时。
 
  如果我们接受这个假设的话,那么很容易就能看出,在 LM 与搜索的结合方面,最有优势的应该就是谷歌,而不是 OpenAI,或者微软。这两个领域单独拎出来谷歌的全球领先地位都是无可撼动的。尽管 OpenAI 很受欢迎,但 GPT-3、ChatGPT 以及所有类似模型都是基于谷歌的技术,而谷歌的 SE 则占据了 4/5 的市场份额。
 
  如果说这家公司并没有推出太多的人工智能产品,正如 Stability 的 Emad Mostaque 所言,那是因为它的“体制惰性”。在研究的深度和广度上,谷歌无疑是全球领先的人工智能公司。
 
  不过,就像很受欢迎的投资人 Balaji Srinivasan 所解释的那样,研究与生产是迥异的两种野兽:如果以 LM 为基础对自己的 SE 进行彻底重构的话,谷歌无法承担相关的风险。多年来,这家公司一直在推出新的搜索功能,但那些都是渐进式的变更,没有一个能像微软(以及 Perplexity、You 和 Neeva 等其他公司)似乎正在做的事情那样具有革命性。
 
  谷歌发表AI研究不会遇到内部阻力,但如果应用到商业的话,现有搜索业务短期内会受到冲击。
 
  我对 LM 与 SE 的看法可以总结如下:“搜索引擎的局限性要大得多,但更有利于搜索 web 这件事情……不过我并不认为[传统]搜索引擎能挺过 LM 的进攻。”这里的关键词——我在原文没有标出来——是“传统”。
 
  SE 会继续存在,但形态会非常不同,差别会大到你认不出来。LM 很可能就是原因。
 
  (把 LM 集成进 SE 是不是好主意这里我不会详细讨论。关于这一点,Gary Marcus 有一篇很棒的文章,《Is ChatGPT Really a “Code Red” for Google Search ?》,他说的我几乎完全认同)
 
  微软 vs 谷歌:划时代的科技之战

  微软对 OpenAI 投入了 10 亿美元,以及他们获得后者部分 AI 技术栈的独家许可,是微软对这一领域很感兴趣的明确信号。他们计划将 DALL-E 和 ChatGPT 集成到自己的服务中也就不足为奇了。正如 Tom Warren 所写的那样,增强的 Bing SE 可以“挑战谷歌的主导地位”。
 
  当然,其想法不是用 LM 取代 SE,而是对搜索进行补充。微软的一位发言人告诉彭博社,“对用户查询采取对话式、上下文式的回复可以提供超越链接的质量更高的答案,从而赢得搜索用户的青睐。”
 
  与谷歌不一样,微软非常清楚 LM 不如 SE 那么可靠。为了在与谷歌之战中赢得潜在优势,这家公司将被迫评估实现人们不能 100% 依赖的功能有何风险。微软正在“权衡……聊天机器人的准确性,我们的初始版本可能只会针对一小部分用户进行有限的测试。”听起来是个合理的开始。
 
  但是,如果有谁比微软还要了解 LM 可以做什么和不能做什么的话,那非谷歌莫属。早在 2021 年(这个时间要远早于 ChatGPT 甚至成为一个想法种子的时间)的一篇论文中,谷歌的研究人员就探讨了利用 LM 来“重新思考搜索”的问题。
 
  他们当时思考的是能不能这么做,以及更重要的是,是否应该这样做:
 
  典型的信息检索系统 [也就是传统 SE] 不直接回答信息需求,而是提供(希望是权威的)答案的引用。
 
  ……
 
  相比之下,预训练的语言模型能够直接生成可能对信息需求做出响应的文字,但目前的水平属于业余爱好者而不是领域专家——这些模型对这个世界缺乏真正的理解,而且很容易会产生幻觉,至关重要的是,它们没法通过参考受训的语料库中的支持文件来证明自己的言论是正确的。
 
  谷歌的最终结论是,使用类似于 ChatGPT 的系统来增强自己的搜索引擎会带来很高的“声誉风险”。谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)以及 AI 负责人 Jeff Dean 告诉 CNBC,“如果出问题的话,造成的成本会 [比 OpenAI ] 更高,因为人们必须相信他们从谷歌获得的答案。”
 
  2021 年 5 月,谷歌宣布推出了 LaMDA (但并未发布出去)。鉴于 LaMDA 与 ChatGPT 的可比性(如果不是像 Blake Lemoine 所声称的那样比 ChatGPT 更好的话),我们有理由质疑为什么谷歌没有利用 LaMDA 来避免像 OpenAI 这样的威胁。Balaji Srinivasan 预测这是因为该公司没有足够的“风险预算”,事实证明他是对的。
 
  像谷歌这样的大公司要为数十亿用户(而不是像 OpenAI 那样几百万的规模)提供像谷歌搜索这样的高可靠性服务,不能仅仅因为一个东西似乎会成为未来,因为人人都为之疯狂,就把一个不可信的、未经严格测试的新技术嵌入进来。
 
  但谷歌的高管不是傻子。他们知道,由一家规模小得多、对风险的厌恶程度要低得多的公司所有的 ChatGPT 确实是个威胁——尤其是当像微软这样的直接竞争对手拥有其大量股份时更是如此。这就是为什么他们宣布 ChatGPT 为“红色警戒”,正如《纽约时报》所报道的那样:
 
  ……由于一种有望重塑甚至取代传统搜索引擎的新型聊天机器人技术的出现,谷歌重要的搜索业务可能即将首次面临严重威胁。一位谷歌高管将这些努力描述为决定了谷歌未来的成败。
 
  ……
 
  谷歌必须介入竞争,否则这个行业可能就会在没有它的情况下继续前进……
 
  就目前的情况来看,谷歌面临着微软(在搜索领域是一个强大的直接竞争对手)和 OpenAI(后者拥有极具竞争力的人工智能技术,尽管预算要紧很多)的威胁。与此同时,对于 LM 因为内在的不可靠性会引起的声誉风险,以及风险厌恶程度较低的初创公司所构成的明显威胁,谷歌必须做出再三权衡。
 
  正如皮查伊所说的那样,谷歌“既要大胆,又必须负责任”,必须找到折衷方案。Dean 则总结道:“我们得把这件事情做对,这一点非常非常重要”。
 
  我对走势的预测

  鉴于目前的情况,我认为要想理解会发生什么以及如何发生,有三个关键点需要关注。首先,在把“声誉风险”报告为未来的主要障碍方面,谷歌究竟是在跟谁对抗?其次,用 LM 以及当前的 AI 安全/对齐(AI alignment,指引导人工智能系统的行为,使其符合设计者的利益和预期目标)技术有没有“做对”的可能性?第三,即使可以做到,并且公司认为应该这么做,有没有可能从中衍生出可行的商业模式?
 
  谷歌真正的敌人

  我在查看皮查伊和 Dean 关于 ChatGPT 威胁的观点时,注意到了一些怪异之处:他们似乎在暗示谷歌正在与 OpenAI 竞争。OpenAI 的技术确实被谷歌高管认定为“红色警戒”,但我认为 OpenAI 不会对谷歌构成威胁——这种思考方式是不对的。
 
  一方面,在技术研究与人工智能专业知识方面,OpenAI 是没法跟谷歌竞争的。哪怕只看绝对数字,谷歌的预算和人才也远远胜于 OpenAI。正如 Emad Mostaque 所认为的那样:
 
  认为ChatGPT会干掉谷歌的文章很可笑。谷歌拥有最好的全栈LLM团队与基础设施,还有自己的定制芯片。无论是创新、成本还是GTM都没人能跟谷歌比。机制惰性只是限制因素。
 
  但另一方面, OpenAI 并不想跟谷歌竞争。
 
  OpenAI 的声誉风险要远低于谷歌,因为它是一家历史相当短暂的小型公司,充其量只为几百万用户提供服务,而据估计,全球有超过 40 亿人在使用谷歌搜索,后者占据了惊人的 84% 的市场份额。
 
  不过,OpenAI 据称的使命是开发出有益的通用人工智能(AGI)。这个目标无疑要崇高得多,所以为什么要冒险到一个与其主要目标完全不重叠的领域,并跟一家更大的公司硬碰硬呢?
 
  即便 OpenAI 最终的目的是为了经济利润(不可否认,推翻谷歌会催生一个成功得不得了的赚钱机器),该公司也有不会与其长期目标相冲突的更好选择,比如建立付费订阅或付费使用模式,就像他们现在所做的那样(像GPT-3 和 DALL-E)。
 
  不管是从影响力、规模、预算还是最重要的目标来看,谷歌真正的竞争对手都是微软。但是,如果你是这么看的话,谷歌被迫面对更高声誉风险的观点就不攻自破。因为微软的用户规模与谷歌相当,微软也必须维护其精心打造的声誉——正如 2016 年它决定关闭带有种族主义偏见的聊天机器人 Tay 时所表明的那样。
 
  “声誉风险”论的支持证据之一是,微软在搜索市场的份额要比谷歌小得多,二者根本无法相提并论。但是,如果微软将 LM 与搜索相结合的尝试成功的话,他们的用户数量就会增加,因此声誉风险也会相应增加。
 
  微软有待回答的问题是,他们肯不肯做出将 ChatGPT 集成到 Bing 的决定——愿不愿意为了有机会推翻谷歌,推出能力更强的新服务去吸引用户,而冒声誉受损的风险?
 
  谷歌打算如何应对?
 
  “把事情做对”。这个目标听起来不错,但却不切实际

  Jeff Dean 的解释是,谷歌正在等待“把事情做对”的时机,这让我想起了我对某些观点给出的类似评价。有人认为应该将伦理原则嵌入到人工智能模型之中,以及认为应该打击虚假信息。虽然这些是很重要,但更多只能是希望,不具备现实可行性。属于说得好听,但做起来很难很难的事。
 
  在我看来,按照 Dean 的意思,把 LM 做对的唯一办法是重新定义、重新设计、彻底再造。如果按照 Gary Marcus 的说法,他们根本就没有足够的能力做到真实、可靠与中立,那任何临时性的护栏都没法遏制那种邪恶性,因为这种邪恶源自提供给 LM 的数据。
 
  也可能会这样,一旦有公司尝试将 SE 与 LM 结合起来,让前者显得可靠的所有关键特性都会因 LM 缺乏功能设计而中毒。关于这一点,Marcus 在对Perplexity、Neeva 以及 You 的分析中已经展示了大量证据。他的结论暂且搁置争议,让大家对未来还抱有希望:
 
  怎么说呢? Perplexity.ai 以及 you.com 的聊天其实探索了一个很有趣的想法:将典型的搜索引擎与大型语言模型结合在一起,也许可以加快更新的速度。但是,要想把典型的搜索与大型语言模型整合好,还有大量工作要做。
 
  另一个问题是当前最先进的 AI 对齐技术是否已经足够好,或者能否引导 AI 朝着正确的目标前进。Scott Alexander 写过一篇好文,讲的是 ChatGPT 使用的人工反馈的强化学习(RLHF)有何局限性,但这似乎是公司阻止 LM 行为缺陷的唯一方法了。
 
  对此 Alexander 并没有遮遮掩掩:“RLHF 效果不佳。”正如我之前说过的那样,“人很‘容易’就可以突破它的过滤器,而且 AI 很容易被提示注入(prompt injections,类似于 SQL 注入,指恶意用户哄骗 AI 做偏离原先用意的事情)。” 针对 RLHF 优化过的模型也可能会陷入到优先级冲突的循环之中。 Alexander 说,“惩罚无用的答案会让 AI 更容易给出错误的答案;惩罚错误的答案会导致人工智能更有可能给出令人不快的答案;诸如此类。”想让 LM 生成同时具备有用、真实和非冒犯性的回应也许是不可能的。
 
  此外,如果用 RLHF 对 LM 进行改进的效果是逐渐逼近的话,就像 Alexander 怀疑的那样,我们将永远也没法“做对”。不过,鉴于这是表现最好的方法,所以公司可能会没有动力花费时间和资源去研究另一个可能会(也可能不会)像 RLHF 一样有效的好点子。
 
  如果以上所有事实被证明都正确——也就是 LM 本质上不适合搜索,而我们可以用上的最好技术也很平庸的话——那么短期内就不会出现“做对”的时刻,这是 Jeff Dean 的愿望,也是谷歌的需要。
 
  谷歌将面临两难选择:一方面,他们可以让微软去牵这个头,为了最终重新定义搜索未来并成为该领域下一个霸主,去承担“声誉风险”。另一方面,他们可能会认为“把事情做对”这个目标过于雄心勃勃,选择采取一种平衡的做法,自己去承担声誉风险,一边推出不成熟的功能(比如“现在已经做得更好”的功能),一边采取公关举措(比方说“我们已尽了最大努力”)——从而在人工智能和搜索领域都保持着领先地位,并在接下来的几十年中幸存下来。
 
  如果最后要归结为谷歌必须在名声与生命之间做出选择的话,我想我们都知道会发生什么。
 
  LM 驱动的搜索会影响赚钱吗?

  但接下来还有最后一个挑战,如果其他一切都朝着有利于谷歌的方向发展的话,这个拦路虎仍不可避免。对微软来说也是如此。如果搜索是靠广告商业模式盈利的话,那怎么才能在不需要点击任何内容的情况下靠 LM 驱动的搜索盈利?
 
  如果是谷歌来牵这个头的话,又能否找到一种方法,围绕 LM 驱动的搜索建立起自己的护城河,同时围绕 LM+ 搜索设计出一个新颖可行的商业模式?二十年前,Google 的 PageRank 算法与广告模型是无与伦比的组合。谷歌能不能重新上演这一壮举呢?
 
  当然了,如果我们能享受到没有广告的互联网的话,那自然好。不过,替代方案是将搜索转变为付费服务。大家愿意接受如此反惯性的改变吗?
 
  我觉得另一种可能性(这可能只是个疯狂的假设)是微软可以决定将搜索商品化,让它变成一种非营利性的服务(没有广告,也没有任何其他形式的货币化),其唯一目标是在几年之内让谷歌从地图中消失。
 
  但是,还有其他问题可能会阻止微软做此尝试。正如 Marcus 在他的文章中解释的那样,目前的搜索比 LM 要便宜得多,而且速度也快得多。这意味着企业很敏感的利润会减少。微软在与谷歌竞争的同时会耗尽自己的资金,这会让双方都陷入困境,这似乎是一项非常冒险的商业操作。
 
  不管最终走势如何,很明显,二十年来几乎停滞不前的搜索领域即将迎来前所未有的拐点。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!