AI爆火背后:这家公司因廉价劳动力赚得盆满钵满

20次阅读

共计 2701 个字符,预计需要花费 7 分钟才能阅读完成。

国内又有一位 AI 领域的重要人物宣布进军大模型领域创业。3 月 19 日晚,创新工场董事长兼 CEO 李开复在朋友圈发布消息称,其正在亲自筹备 Project AI 2.0,这是一个致力于打造 AI 2.0 全新平台和 AI-first 生产力应用的全球化公司。李开复觉得当前的人工智能应用,仅仅是 AI 2.0 能力的开端,在他的计划里,Project AI 2.0 不仅要做中文版 ChatGPT,更要引领全球人工智能浪潮。

李开复表示:“AI 2.0 带来的平台型机会比移动互联网大十倍,这也是中国首次迎来平台竞争的机会。新平台上所有用户入口和界面都将被重新编写,能够建立下一代平台的公司将会获得巨大优势和话语权。”

上周是人工智能领域极为疯狂的一周,从 GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,到周末晚李开复在朋友圈发布“英雄帖”,人工智能领域的重磅消息接连不断。

在大模型以及 ChatGPT 的消息刷屏,各 AI 领域的高手集结向国产大模型发起冲击之际,其实有一家公司在数月前 ChatGPT 火热之时就已经赚得盆满钵满。

站上风口,老天喂饭

从上周微软正式宣布将 Microsoft 365 服务全面接入聊天机器人技术 AI Copilot 开始,以海天瑞声为代表的数据标注企业涨幅就超过了 15%。如果把时间线拉长到今年 1 月份,海天瑞声的股价已从当时每股 60 元左右暴涨至每股近 200 元,股价翻了三倍多。

即便海天瑞声紧急发布公告进行风险提示:“自然语言业务对公司整体贡献大约在 10% 左右”“公司尚未与 OpenAI 开展合作,其 ChatGPT 的产品和服务尚未给公司带来业务收入”,但资本市场的热情依旧高涨,公司股价一直在高位徘徊。

资本市场对以海天瑞声为代表的数据标注企业的青睐不难理解,有投资人调侃道:“有实际产品就是不一样,AI 这三个月的热度超过了元宇宙三年积累的热度。”在 ChatGPT 火热之时,相关概念股自然也跟着水涨船高,更何况根据海天瑞声的招股书显示,其主要客户名单中有 Open AI 背后的投资公司微软。

也就是说海天瑞声虽然没有给 ChatGPT 母公司 Open AI 提供相关数据标注服务,但其在投资者互动平台表示微软一直是公司多年合作的头部客户,而且除了微软外,百度、腾讯、阿里、字节等国内有实力做中文大模型的互联网大厂几乎都是海天瑞声的重要客户。

海天瑞声相当幸运,虽然没有刻意追逐时代风口,但自 2005 年成立以来却多次搭上人工智能爆发的快车,实现了快速发展,当然,这和海天瑞声创始人贺琳的专业技术背景密切相关。

据公开资料显示,海天瑞声创始人贺琳出生于 1968 年,从北京大学毕业后一直在中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,先后参与了“汉语人机语音对话系统工程”、“汉语语音参数合成”等国家自然科学基金重点项目。

贺琳 35 岁创立海天瑞声是因为基础训练数据匮乏:“当时我觉得这是未来的一个方向,因为大家在工作中都会遇到这样的瓶颈。一些企业的研究员更想专注于做算法,但又缺乏数据。”

海天瑞声成立初期主要从事语音采集及利用方面的业务,显然,凭借贺琳的专业技术底蕴对采集的开源语音进行加工处理,海天瑞声也因此在智能语音方面积累了深厚的研究成果。

随着人工智能行业的迅猛发展,数据标注训练的市场需求开始出现,海天瑞声拓展了业务范围,在训练数据方面进行了技术研发,并在此期间拿下了微软、百度、三星等大客户。

“我们的许多客户都是全球性的大型科技公司和头部人工智能企业,他们的产品需要推广到世界各个角落,所以产品中的语种 / 语言功能也需要能够匹配其所布局的地方区域。”贺琳表示,随着人工智能行业的进一步发展,海天瑞声的业务量猛增,根据海天瑞声 2022 年半年报,其在国内市场占有率达 12.9%。

还能火多久?

贺琳曾对外表示:“数据是算法发展和演进的‘燃料’,算法、算力、数据这三个要素一定要相互作用,才能推动 AI 行业发展。”

AI 数据标注是训练 AI 大模型过程中不可或缺的一环,AI 数据的处理过程包括对数据的收集、原始数据的清洗以及对数据进行标注,数据标注通常被看作没有什么技术含量的“dirty work(脏活累活)”,因为数据标注仅仅是工人对文本、图像、视频进行分类划分,把数据转化为机器模型能够理解的信息。

早期的 AI 模型训练有一个流传很广的说法——“有多少人工,就有多少智能”。举个简单例子,一个 AI 模型想要学会识别狼和狗的图像,那么一种方法就是先用人工识别标注好的数据进行分类,喂给 AI 模型进行学习,AI 模型的能力越强,背后人工的付出就越多。

因而这项工作对劳动力要求不高,所以不少企业把这项工作外包给第三方。像 Open AI 就将部分数据标注工作外包给肯尼亚劳工,但因工作环境恶劣,薪水又低,从而被不少媒体报道批评。

Meta 首席人工智能科学家 Yann LeCun 就曾评论 ChatGPT 称:“(它)并不具有创新性,也不具有革命性……它只是个巧妙的组合”。

其实不仅是 Open AI,国内不少专门的数据标注公司也设在十八线的乡镇城市,国内媒体《三联生活周刊》就有一篇报道专门讲述了黄土高原县城里的一群宝妈成了 AI 训练师。就连海天瑞声也不例外,将其最基础的数据分类、标注公司外包给了第三方。

可以说,很长一段时间以来,AI 数据的处理和标注其实就是一个简单的人力“内卷”的生意。谁的人工更便宜,谁就能接到更多订单,谁的劳动力更多,谁就能接到更大的数据包标注工作。

然而,随着行业对 ChatGPT 研究的深入,发现传统的数据标注工作已难以支撑起 GPT- 4 这样的人工智能模型,GPT- 4 可以根据人工标注的反馈结果来不断优化自身模型,专业的标注、评估和反馈相当于 ChatGPT 进化过程中的奖励函数。

不少有志于自身打造中文世界大模型的公司已开始意识到这点,不再外包数据标注的工作。不少标注师的工作也从图像是猫还是狗变成了一些涉及意识形态和价值观判断的工作,在一些专业细分领域还涉及了行业的 Know-How,工作门槛已开始提高,普通标注师进行简单的图像、文字划分已难以完成这部分工作。

这些变化已开始对现在的 AI 数据标注行业造成冲击,虽然在人工智能快速发展的当下,部分初始阶段的普通数据标注需求依然存在,但数据标注公司想要长久发展,就需要在无监督(含自监督)、半监督的机器学习技术上有投入和积累,还需要不断提高数据标注师的素质能力,升级自己的人才梯队,而不是简单地外包给人力成本更低的第三方。

从“dirty work”到有一定技术门槛的工作,没有人能躺着挣钱,海天瑞声想要继续站在风口,必须开始行动起来了。

正文完
 0