Exa:为AI搜索注入新活力,引领搜索变革

51次阅读

共计 2945 个字符,预计需要花费 8 分钟才能阅读完成。

近日,一则融资消息引起关注。位于加利福尼亚州旧金山的 Exa 实验室,于 7 月 16 日宣布成功融得 2200 万美元。此次融资由 Lightspeed Venture Partners 牵头,英伟达风险投资部门和 Y Combinator 也参与其中,目标是助力 Exa 快速发展,打造一款专门服务于人工智能的全新搜索引擎。

Exa 的创始人颇为年轻且思想超前。首席执行官 Will Bryk 年仅 27 岁,联合创始人 Jeff Wang 才 26 岁,他们在 ChatGPT 推出之前就创办了这家公司。Exa 公司位于旧金山,是 Cerebral Valley AI 社区的一部分,专注于人工智能、机器学习、自然语言处理和数据科学。

起初,Exa 构建了一个工具,能让人工智能模型进行类似网络搜索的操作,涵盖从互联网查找信息、帮助客户回答问题的人工智能聊天机器人,以及一些公司用于策划培训数据的功能。创始人花费 100 万美元购置 GPU,运用矢量数据库和嵌入技术(非基于经典 Transformer 的大型语言模型)建立机器学习模型,该模型被训练来本能地理解链接,而非单个的词或句子。

Exa 创始人 Will Bryk 介绍,其搜索引擎与普通搜索引擎不同。通常的 AI 搜索像变形金刚般猜单词,而 Exa 的搜索引擎猜链接,即用户浏览网页时可能点开的下一个网址。它通过看大家在网上分享的链接来训练搜索引擎,这是一种全新方式,有别于一般搜索引擎仅依据关键词查找内容。如同大型语言模型通过提供最有可能的下一个单词完成句子,Exa 的系统会提供最有可能的链接(可能是十个),且不会出现普通搜索引擎中的搜索引擎优化垃圾信息或人工智能生成的无用内容。

Jeff Wang 表示,公司最初目标并非服务人工智能,而是探索如何利用人工智能打造更好的搜索。Exa 此前有免费版本供任何人有限尝试使用,还有几个不同等级的付费服务。其产品托管在 AWS 上,除运行自己的 GPU 集群外,还能盈利。ChatGPT 爆火后,众多人工智能公司向 Exa 请求搜索引擎 API 版本并应用于自身模型,如今已有数千名开发者使用其产品,客户也日益增多,Exa 获得了极大关注。例如,Databricks 就是其大客户,用 Exa 为自己的模型培训计划寻找大型训练数据集。Exa 专注开发针对人工智能需求的技术,用户群体主要是 B 端、有 AI 搜索创业需求的团队,与谷歌、Perplexity 等公司不同。

创始人们对当前互联网环境不满,认为互联网本应方便找信息,却因争抢注意力变得商业化且扭曲。以谷歌搜索为例,有整个搜索引擎优化(SEO)行业,通过各种技巧让网页在搜索结果中排名靠前,导致简单问题的搜索结果充斥大量争抢排名的网站,而非真正有用的信息。

打开 Exa 官网,可见其搜索引擎不仅服务于 AI,个人也可使用。搜索“Exa 和 Perplexity 有何不同”,它不像其他 AI 搜索软件直接给答案,而是展示列表。左侧有固定类别的分类,可按 PDF、GitHub、公司、新闻、纸媒、推文、播客帖子等筛选信息源。点击“公司”类别,能看到来自各种公司网站的相关信息,如 9 个月前 Perplexity 官网的帮助文档,点进去有关于 Perplexity 的介绍,也可悬停标题查看右侧摘要并直接交流,下方还推荐相关问题。点击“新闻”显示各大媒体报道,点击“博客帖子”显示社区论坛博主思考,博主内容质量高,多为各垂直领域专家。Exa 还可按一天、一周、一个月、过去一年或任何时间筛选信息源发布时间,增加了域过滤器和短语过滤器。域过滤器限定搜索范围,提高搜索精确度和效率;短语过滤器处理和匹配特定词组或短语,确保搜索结果更精确匹配用户查询意图。不过,Exa 的缺点是不给直接答案,可能因报道少无法自己创造内容,技术思维较强,用户体验感不如谷歌、Perplexity。搜索简单问题时可能得不到准确答案,重新提问加上完整表达后才能过滤掉不相关内容。其索引能力强,能找出 9 年前、16 年前的内容,但部分内容质量欠佳,还有卖书、卖专栏的产品广告被索引出来。从个人使用感受看,Exa 是找资料利器,索引能力强、筛选条件多,适合技术人员,不适合小白用户,且能还原过程指标,把结论放在单篇文章上,但无法给出直接答案,部分信息源不准确。

Perplexity 则更友好,是为普通人设计的搜索引擎,提供问答式搜索体验,与 Exa 不同。Exa 主要为 AI 系统和开发者设计,定位为 AI 搜索的中间层,提供 API 服务,整合世界知识为 AI 系统提供数据;Perplexity 是端到端的搜索引擎,直接给用户提供摘要。Exa 使用 Embedding 技术理解语义,能搜索多种数据源;Perplexity 采用 GPT-4o API 和 Claude-3、Sonar Large (LLaMa 3) 等语言模型。Embedding 技术像魔法转换器,将词汇、图片等变成一串数字,便于计算机学习和使用;GPT-4o API 和 Claude- 3 是已开发好的语言模型,Perplexity 整合它们做写文章、回答问题、聊天的动作。所以,Exa 注重数据深度整合和技术处理,是为 AI 和开发者服务的高级搜索工具;Perplexity 注重便捷性,面向普通用户,两者不是一个赛道。

中国也有不少研究者讨论 Embedding 技术。百度智能云的文档深入探讨了其在推荐系统中的应用,包括更好地推荐用户和商品、序列推荐和知识图谱的应用,该技术将零散数据变成连续向量,提高推荐系统表现和准确度。还有技术博客作者详细说明其在 58 同城房产相关业务和推荐场景中的实际应用,李乾坤在 GitHub 博客上也描述了 Embedding 技术的原理及在自然语言处理中的应用,如 Word2Vec 和 GloVe 模型通过把单词变成高维向量捕捉语义关系。

国外风险机构 Lightspeed 投资 Exa 后,分享了关于未来智能体网络的想法。AI 智能体需获取最新且准确的信息完成任务,虽大型语言模型能记住很多数据,但数据易过时且难找到所需信息。检索增强生成技术帮助大型语言模型处理训练数据之外的信息,但多为私人或内部信息。理想情况下,AI 智能体应能通过 API 检索整个公共互联网信息,这需要新的智能体网络基础设施。然而,建设这样的网络面临技术和经济挑战,现有网络基础设施主要服务广告商,传统搜索引擎更关注广告点击和展示,导致“SEO”产业兴起,内容质量并非总是最重要。比如搜索“精通 Go 语言的软件工程师”,理想搜索引擎应给出工程师个人网站或社交媒体资料,而非讨论 Go 语言的网页。好的搜索引擎应理解“实体”概念,而不只是泛泛讨论话题。目前人类和 AI 使用相同搜索结果,这种“一刀切”方式不佳。Exa 是为 AI 智能体专门设计的基于嵌入技术的搜索引擎,获取并索引网络上的最新内容,通过“链接预测”模型,经搜索 API 把数据提供给基于大型语言模型的应用程序,该模型经专门调整,能更好理解搜索查询并从索引中返回相关链接,如同图书管理员能迅速找到用户最需要的书。有了 Exa,互联网变得又新又有趣,AI 需要新方式访问信息,Exa 正在执行和设计适用于 AI 和互联网信源革命的任务,它想给 AI 搜索引擎“洗个脑”,做中间部分,左手深度检索信源,右手投喂给大语言模型,让其更聪明、更高效。中国或许很快也会出现这样的公司,值得期待,这两位年轻人的创新想法为人们展现了新的机会点。

正文完
 0