共计 3795 个字符,预计需要花费 10 分钟才能阅读完成。
从前段时间的“三只羊”录音事件到“AI 雷军”,AI 的阴暗面再度引发热议。如今,“三只羊”事件真相大白,AI 雷军骂人的视频也基本被清理干净,然而大量真假难辨、颇具魔幻现实主义的 AI 生成内容却层出不穷。
不少人发现,抖音、快手、小红书等平台上的“抽象”内容日益增多,许多甚至违背自然规律和常识,有些内容还在道德和法律边缘试探。在时长仅数秒的短视频里,我们往往来不及判断其真假,就已顺手划到下一段视频,或随手转发给朋友。
在此过程中,一个老问题再次浮现——质量参差不齐的 AI 生成内容呈病毒式传播,互联网似乎难以摆脱“劣币驱逐良币”的命运。
诡异的 AIGC
在如今的互联网上,“眼见”和“耳听”未必为实。在 AI 的加持下,劣质内容已以各种形式渗透到互联网世界。
比如近期,在 Facebook 上搜索“虾耶稣”,会看到数十张类似的诡异组合图片。此外,Facebook 上还流传着大量怪异图片,如多头、巨胸的“农场女孩”,在泥泞河流中跋涉的女乘务员,或是截肢乞丐举着“今天是我的生日”牌子的图片。
类似内容在国内平台也屡见不鲜,比如“悟空”冲出电视搂着奶奶,骑着电视柜变成的电动二轮潇洒离去,只留“八戒”在画面里不知所措的视频。
在生成式 AI 的助力下,Deepfake 已发展到全新阶段。深度学习技术出现后,Deepfake 成为互联网内容世界的主流“病毒”。其雏形可追溯到上世纪 90 年代,当时研究人员尝试用 CGI 创建逼真人像,但因技术不成熟和社交网络不发达,未引起太多社会关注。
直到 2014 年,深度学习技术迎来关键转折点。Ian Goodfellow 及其团队引入生成对抗网络 (GAN) 的机器学习概念。GAN 可用于生成逼真数据、增强现有数据集,以及进行图像、语音等多种类型的数据转换和风格迁移。
Goodfellow 团队首次提出后,其他团队不断改进 GAN。2017 年,英伟达研究人员开发出“分阶段训练网络”(Progressive GANs),能生成高分辨率人脸图像。正是这种功能被不当利用,催生了如病毒般的 Deepfake 风潮。同年,一位名为“deepfakes”的 Reddit 用户开始用 GAN 制作逼真的情色视频。此后,基于 GAN 生成或操纵音视频的内容造假事件,都被统称为“Deepfake”。
如今,生成式 AI 让互联网上的 Deepfake 内容愈发隐蔽,生产成本也越来越低。例如在“三只羊”录音事件和恶搞雷军的 AI 视频中,网友只需在言域科技的 Reecho 睿声平台上传 5 至 8 秒语音素材,就能体验免费的声音克隆服务;支付 198 元即可解锁专业级声音克隆。
这种低成本、高效率的生产模式,让一些人靠 AI 生成内容的副业赚得盆满钵满。最近,外媒 Intelligencer 报道称,YouTube、TikTok 上,很多创作者在视频中教粉丝如何用 ChatGPT 开展副业。
Intelligencer 分析,像 Facebook 和 TikTok 这样的网站对内容需求巨大且不加选择,需要吸引用户的诱饵和广告商的地盘;另一方面,像 ChatGPT、Midjourney 等生成式 AI 应用在投资人大量资金支持下,将产品低成本或免费提供给消费者,以获取更多用户。
而在这些大平台的数十亿生意往来中,藏着普通人的财富密码。比如用 AI 生成一些食谱书,在亚马逊上卖给不知情的顾客,或是建立一个由大语言模型生成文章的网站,拉一些广告主简单包装,并试图让它们在谷歌新闻上排名靠前。
今年 6 月,国内一位男性互联网大厂技术员利用 AI 技术中的“一键去衣”功能,生成近 7000 张不良图片,每张以 1.5 元卖出,非法获利近 1 万元。此外,一种更便捷、直接的方式是,用类似“虾耶稣”这类堆叠敏感元素的粗糙内容吸引流量,从而获得平台奖金。
对于明显的犯罪内容,法律能够约束,但对于一些画风诡异、不触犯法律却令人不适的 AI 内容,人们只能寄希望于平台出手管理。
平台的反击
“AI 雷军”热度飙升后,抖音迅速清理了相关视频。一键删除无疑是平台治理违规内容的有效手段,但往往具有滞后性,平台采取行动时,相关内容产生的负面影响可能已难以挽回。
从长远看,内容平台也在尝试用监管和技术手段,更及时地预防、检测并处理隐患。以抖音为例,很多“AI 雷军”骂人视频和画风诡异的视频下方都有提示:“疑似使用了 AI 生成技术,请谨慎甄别。”
其实从去年开始,抖音就发布了一系列文件,包括《抖音关于人工智能生成内容标识的水印与元数据规范》《关于人工智能生成内容的平台规范暨行业倡议》《AI 生成虚拟人物治理公告》,全面封堵 AI 生成的违法内容。
目前,国内很多平台都针对 AIGC 内容出台了相应监管规范。除抖音外,B 站、快手、微信公众号、小红书等平台去年就发布了相关规范,要求创作者对 AI 创作内容做出显著标识。
今年 9 月 14 日,国家网信办正式发布《人工智能生成合成内容标识办法(征求意见稿)》,拟细化网络平台和用户的 AI 内容标识义务,避免公众混淆误解。其中要求提供生成合成服务的网络信息服务提供者,若提供相关法规提及的深度合成服务类型,必须对生成合成内容添加显式标识和不易被用户明显感知的隐式标识。
然而,要让数以亿计的创作者主动约束自身行为,谈何容易。更何况,很多时候创作者很难精准预判内容发布后的传播走向,可能在不经意间就陷入风口浪尖。
因此,一种不依赖用户主观能动性的手段——“用 AI 检测 AI”被频繁提及。2024 年 9 月,YouTube 在一篇博客中透露,正在开发新工具保护艺术家和创作者,使创作者、演员、音乐家、运动员等任何人都能检测 YouTube 上关于自己的 AI 生成内容,并进行管理。
YouTube 还在开发 Content ID 的新技术,将允许艺术家和音乐家发现和管理模仿他们歌声的 AI 生成内容。目前,YouTube 的合作伙伴正在完善这项技术,并计划于明年初推出试点计划。
Facebook 官网上也有关于 AI 配合内容审查的操作,官网博客称:“人工智能团队首先会构建一个机器学习模型,该模型可执行识别照片中的具体内容或分析帖子文本等操作。例如,他们可以构建人工智能模型,并利用此模型了解某项内容中是否包含裸露内容或血腥内容。然后,这些模型可以确定是否需要对相应内容采取行动,如将其从平台中移除或减少其传播。”
今年 2 月,Meta(Facebook 的母公司)也透露已开始在 Facebook、Instagram 和 Threads 上标记使用人工智能工具创建的图像,并对不披露 AI 生成视频或音频的用户进行惩罚。
相比之下,国内平台对 AI 生成虚假内容的检测似乎缺乏主动措施。此前有业内人士对媒体表示,由于自身成本及监管力度等综合原因,目前互联网平台对 AI 伪造内容的管理意愿不高。对于发布者未主动标识的 AI 生成内容,平台不会自动检测。
毕竟,在这场 AIGC 的角逐中,大厂们仍是主要参与者,更多精力投入在如何将新技术融入自身业务体系。例如去年 9 月,B 站多媒体实验室算法负责人成超在访谈中表示:“我们正在采用 AI 换脸制作个性化的直播虚拟礼物”,“采用 AI 换脸,我们能够整体替换掉主播人脸建模这一生产环节,并且 AI 换脸所渲染出来的微表情、妆容甚至比建模还具真实感。完整的个性化礼物制作周期与成本也被大幅压缩,在同样资源条件下,我们能够为用户提供更多更有意思的玩法和内容。”
AIGC 正在“摧毁”AI?
对于互联网上泛滥的 AI 生成内容,很多人担心 AI 会迅速污染互联网内容生态。事实上,这种情况已经发生。亚马逊研究人员今年 6 月发布的一项研究结果显示,目前已有 57% 的网络内容由 AI 生成。
由此带来的问题是,当 AI 生成的劣质内容越来越多,模型训练厂商抓取公开数据训练模型时,AI 生成劣质内容的占比也会越来越高,可能导致模型误入歧途。
近期,国外研究团队发现,AI 生成内容不仅在加速互联网崩塌,甚至有“自我摧毁”的风险。今年 8 月,牛津大学的 Ilia Shumailov 博士和研究团队在《Nature》上发表研究发现,当生成式人工智能软件仅依赖 AI 生成的内容训练时,最终表现会开始下降。
这项研究中的一个案例是,研究人员用一个模型学习识别不同品种的狗,每次问答后,将模型自己生成的答案作为新数据投入模型训练,多个回合后,模型开始表现出一种难以解释的“偏见”——在模型生成的答案中,金毛等更常见的品种出现频次越来越高,而相对小众的品种逐渐被排除在外。
研究人员将这种现象称为“模型崩溃”,即 AI 生成内容不断污染模型训练数据集,最终会使模型对现实世界的理解能力大幅下降,生成大量扭曲现实的劣质内容。
目前研究人员尚无法解释为何会出现“模型崩溃”现象,但得出的结论是,人工智能长期可持续发展的唯一途径,是确保其能持续获取人类生成的原始数据。
另一方面,已有的人类生成内容正在从互联网上消失。皮尤研究中心的最新分析显示,截至 2023 年 10 月,2013 年至 2023 年期间存在的所有网页中,已有四分之一无法再访问。
这就形成了一个悖论:AI 需要人类提供源源不断的原始数据,但人类生成的内容正在逐渐消失,AI 生成内容却在互联网上病毒式传播。
当然,随着模型性能不断提升,模型生成内容将越来越接近现实世界,这项研究的结论或许终将被推翻,但这些模糊了真与假、虚拟与现实边界的内容所带来的影响,可能是不可逆的。
这种影响可能并非一场惊天动地的“内容革命”,而是无形之中引发的“蝴蝶效应”,将所有人推向一个混沌的超现实世界,无人能置身事外。