共计 880 个字符,预计需要花费 3 分钟才能阅读完成。
全球数据告急,科研论文竟成“救星”,被大量薅去训练 AI。众多学术出版商已向科技公司授权访问论文用于训练模型,作者心血可能在不知情下成为训练数据,而作者却未从中获利。
数据集如黄金,各大公司纷纷出价
LLM 需海量数据训练,学术论文因篇幅长、信息密度高,成为优质数据来源。像基于 8110 万篇学术论文的 S2ORC 数据集,起初用于文本挖掘,后被用于训练 LLM。2020 年非营利组织 Eleuther AI 构建的 Pile,含大量学术来源文本。开源的 1T token 数据集 MINT 也挖掘到 arXiv 的宝藏。如今,为应对版权争议,各大模型公司开始购买高质量数据集,如「金融时报」将内容卖给 OpenAI,Reddit 与谷歌达成类似协议。
证明论文曾被 LLM 使用,难度极高
很多开发 AI 模型的公司对训练数据保密。识别论文是否被使用很难,用罕见句子提示模型,若输出正确,能证明在训练集中,但开发者可编码让模型过滤响应。另一种“成员推理攻击”方法,De Montjoye 团队开发了“版权陷阱”,通过比较模型对不同控制句的困惑度来判断,但即便证明 LLM 在某论文上训练,也存在版权争议。
版权争议
出版商认为开发者未经许可使用受版权保护文本即侵权,另一方则称大模型未抄袭。此类诉讼已有先例,如「纽约时报」起诉 OpenAI。复杂的是如何区分商用和学术研究用途,arXiv 对商业使用严令禁止,出版商订阅条款也未明确能否用于训练模型。有人做了检测网站,不同人对此态度不同,整个圈子在论文来源分配和是否被使用上缺乏明确方法。
多模态数据不够,arXiv 来凑
北大和港大学者利用 arXiv 论文中的图文构建高质量多模态数据集,因科学领域训练数据集稀缺。该数据集含问答数据集 ArXivQA 和图片标注数据集 ArXivCap,通过使用特定领域数据训练,VLM 的数学推理能力显著增强。数据集构建有流水线,先筛选论文保证质量,再提取图片 – 文字对组成 ArXivCap,ArXivQA 由 GPT – 4V 生成。评估显示,该数据集提升了 Qwen – VL – Chat 的性能,在单图注生成任务中效果更显著,人工评估结果不理想,存在“上下文误读”等问题。