从Richard Kadrey等人诉Meta案看生成式人工智能训练语料的版权合理使用问题

一、案情背景与判决要旨

Richard Kadrey等人诉Meta Platforms,Inc.案(以下简称“Kadrey诉Meta案”)是美国首批聚焦生成式人工智能(Generative AI)训练数据所涉版权问题的案件之一。2023年,加利福尼亚北区联邦地区法院受理了多名作家(包括科幻作家Richard Kadrey、喜剧演员兼作家Sarah Silverman、作家兼记者Ta-Nehisi Coates等)针对Meta公司的集体诉讼。原告指控Meta在未经授权的情况下,从互联网下载了他们的书籍(其中很多通过所谓“影子图书馆”获取的疑似盗版电子书),并将这些受版权保护的文本大量用于训练其大型语言模型LLaMA。这一行为被诉称侵犯了原告的版权,并涉嫌违反《数字千年版权法案》(DMCA)第1202(b)(1)条关于版权管理信息(Copyright Management Information,CMI)移除的规定。

本案法律争议集中在两个关键问题:其一,大规模爬取并复制受保护作品用于AI模型训练是否构成版权侵权,抑或能否受到“合理使用”(fair use)原则的庇护;其二,训练过程中为避免模型输出带有版权标识而移除作品中的版权管理信息,是否违反DMCA第1202(b)(1)条款,即禁止在明知将“引发、促成、方便或掩盖任何侵权”情况下故意移除或更改版权管理信息的规定。因此,法院需在版权侵权与合理使用抗辩,以及DMCA版权信息移除责任之间寻求法律上的平衡。

2025年3月,法院在对Meta提出的案件驳回动议(motion to dismiss)作出裁定,驳回了原告依据加州计算机数据欺诈与滥用法(CDAFA)的索赔,认定该州法律主张无非重复了版权法权利;同时,法院允许原告基于DMCA第1202(b)(1)的主张进入事实审理,认为原告关于Meta故意删除训练语料中的作者姓名等版权管理信息、试图掩盖侵权使用的指控已充分具体。法官Vince Chhabria在该阶段指出,原告的起诉书详细描述了Meta意识到LLaMA模型若不清除训练文本中的CMI,可能在输出时露出原文片段(如章节标题、作者名等)从而暴露其使用了受保护作品,因此Meta采取了技术手段剔除了相关CMI。这一指控使法官推断出“一个合理但不算强有力的推论”,即Meta移除CMI是为了“隐瞒LLaMA使用受版权保护材料进行训练的事实”。因此,尽管最终是否侵权尚待认定,法院强调此类有意遮蔽行为可能削弱训练行为属于善意合理使用的主张。

进入证据开示和简易判决阶段后,案件在2025年6月迎来重大进展。2025年6月25日,法院就版权直接侵权与合理使用抗辩问题作出部分简易判决;6月27日,法院就DMCA第1202(b)条款问题作出另一份相关裁定。在6月25日的裁决中,Chhabria法官全面分析了版权法第107条所列四要素后,认定Meta未经许可复制原告作品用于模型训练的行为构成合理使用,从而驳回了原告的版权侵权索赔。随后在6月27日的裁定中,基于前述对合理使用的认定,法院进一步驳回了原告关于DMCA第1202(b)(1)的索赔,理由是“一旦复制行为被认定为合理使用而非侵权,则不存在被掩盖的‘侵权’行为,故移除CMI不满足该条款要求”。法院指出,《版权法》第107条明确规定合理使用行为“不构成侵权”;因此,Meta的复制既然不视为侵权,则其删除版权信息的行为不可能是在“引发或掩盖侵权”,DMCA条款自然不适用。综上,Kadrey诉Meta案以被告Meta在主要问题上胜诉告一段落:模型训练被认定为合理使用,原告相应的大部分诉讼请求被驳回。但法官也在判决书中对未来类似案件提出警示,强调本案裁决并不意味所有此类AI训练行为皆合法无虞,而是基于本案证据不足所作的具体判断。

二、法院合理使用分析的逻辑与标准适用

合理使用抗辩是版权法中的一项关键原则,美国版权法§107提供了判断一项未经授权使用是否为“fair use”的四个非排他性因素:①用途和性质;②原作品性质;③所用部分的数量和实质性;④对作品潜在市场或价值的影响。在Kadrey诉Meta案中,Chhabria法官逐一检视了这四要素,并结合生成式AI训练的特殊情形作出综合判断,逻辑清晰、论证充分。以下对其分析要点归纳说明:

  1. 使用的目的和性质(第一要素)

法官首先聚焦AI训练的目的是否具有转化性(transformative)。按照经典标准,如果二次使用赋予原作“新的表意、用途或性质”,则可被视为转化性,从而更可能构成合理使用。本案中,法院认定Meta对原告书籍的利用高度转化,这一要素对Meta极为有利。法官指出:原告创作的小说、回忆录等作品的原始目的在于提供娱乐或教育价值,被读者完整阅读欣赏;而Meta将这些作品用于训练AI模型,旨在开发一种通用的语言工具,以生成各种输出内容并执行复杂任务,其目的和性质与原作截然不同。这种将文学作品用作“原料”来提炼语言模式、赋予机器智能的行为,与简单将作品加以再次出版或改编有本质区别,更类似于在作品之上构建全新的功能。因此,训练用途相较原作用途具有“质的不同”,被法院认定为高度转化性的使用。

原告在此要素上提出两点反驳但均被法院否定:首先,原告主张AI训练类似于人类阅读学习,因而服务的目的仍与读者阅读无异,不应视为转化性使用。法院对此明确区别了LLM的技术性学习与人类阅读的不同,认为大型语言模型对海量文本的处理是工程性的、工具性的,而非出于对作品内容本身的欣赏。Meta开发通用模型工具供公众使用,能指数级地拓展新的表达形式和功能,这是单个人类阅读无法达到的效果。其次,原告争辩称LLaMA模型可以在提示下输出模仿其作品风格的内容,相当于对原作的“重新包装”,故谈不上转化。但法院查看双方证据后发现,原告并无证据证明模型会输出其作品的实质性片段,即便在恶意提示下也只能复现不超过50个单词。至多只能说明Meta希望模型学习作者的写作风格,而风格属于创作中的无形元素,不受著作权法保护。因此,法官断定模型输出并未构成对原作内容的简单复制粘贴,Meta的使用仍属在原作之上“添加新表现和用途”而非单纯替代。

在第一要素下,法院还考虑了商业性与主观意图因素。Meta训练模型最终是商业目的,预计可带来巨大利润,这一点通常不利于合理使用主张。但法院认为,商业目的不能凌驾于转化性之上:当二次使用具有高度转化性时,商业性影响相对减弱。本案中,尽管Meta确有逐利动机,但此动机并未改变其使用的科研/工具本质,因此商业因素不足以抵消转化性的强力支持,第一要素总体仍倾向于被告。至于原告强调的Meta“恶意”使用盗版源和试图规避法律的行为,法院则谨慎地表示:使用“影子图书馆”所涉的不诚信获取方式并非合理使用认定中的决定性考虑因素。合理使用本就允许在未获授权情况下对作品作出某些利用,因此未经许可本身不构成否定合理使用的理由。尽管不鼓励不诚信行为,但法官指出在既定高度转化性目的前提下,数据来源的合法性对于合理使用的判断权重有限。他甚至对在合理使用分析中过分强调“主观善意”的作用表示怀疑,认为其非决定性因素。此外,针对Meta将原告书籍下载存储形成“中央数据库”的行为,原告试图将下载复制行为与后续训练行为切割开来审视,以主张下载完整作品本身构成单独的侵权。但法院拒绝了这种割裂分析方法,强调应从整体看待:下载是为训练服务的中间步骤,其目的仍归于训练这一转化性用途。哪怕某些下载的书籍最终未被用于训练,也属于同一系列转化性过程的一环,不能人为分开判断。这一观点隐含着对技术中间复制(intermediate copying)合理使用理论的肯定:只要最终目的正当且需要,中间复制即使完整复制作品,亦可在整体转化性目的的庇护下被视为合理。

  1. 原作品的性质(第二要素)

法院承认,这一要素在本案对原告较为有利,但影响有限。原告书籍多为高度原创、富有表达性的文学作品(如小说、剧本、回忆录等),而非纯事实性材料。根据传统原则,对高度创意作品的使用更难被认定为合理,因为此类作品凝聚了作者独特的表达,受版权法强力保护。法官特别指出,即便是原告中的纪实文学或自传类作品,也包含大量原创表达选择,仍应被视为富有创造性的作品。因此第二要素表面上倾向原告,不利于Meta。然而,法院紧接着强调:在整体衡量中第二要素通常并不具决定性,尤其当作品已向公众发表,且第一要素高度转化时,其影响相对次要。这一表态与既有案例相符——许多合理使用案都将第二要素视为“次要考虑”,不会单凭作品类型就推翻其他因素的结论。总之,法院在此承认了原告作品类型的重要性,但将其权重限定在很小范围内。

  1. 使用的数量和实质性(第三要素)

这一要素考察被告使用了原作的多少内容、以及这些内容的重要性,占原作整体比重如何。通常,完整复制整个作品将大大削弱合理使用主张,因为表明二次使用者并未遵循“最小化”原则。在Kadrey诉Meta案中无可讳言,Meta确实对原告书籍进行了完全文本复制以供训练。但法院仍判定第三要素整体上偏向Meta。其理由在于:考虑AI训练这一转化性目的,复制整部作品在技术上属于合理且必要的范围。法官指出,为训练模型掌握语言规律,往往需要作品全文的数据。如果只允许片段使用,将无法实现模型对上下文和风格的学习,进而无法达成第一要素所述的创新功能。因此,从质的需要性来看,Meta并未使用超出实现其转化目的所需的分量。另一方面,法院也考察了模型输出对原作实质内容的再现程度,发现LLaMA模型并不会吐出原作品的“大段文字”。双方专家一致证实,即使尝试恶意提示,模型也至多连续生成原作中的约50字,难以构成对作品有意义的再现。因此,尽管Meta复制了全文,但其使用方式并未增加作品被替代的风险。简单说,模型“吃进”了整书,但并不“吐出”核心情节或长段文本,这一事实减轻了第三要素对Meta不利的程度。法院据此认定,在AI训练背景下,必要且不公开传播的全文复制可以被第三要素容忍,而不会自动导致合理使用失败。

  1. 使用对潜在市场或价值的影响(第四要素)

第四要素常被认为是合理使用分析中最重要的单一因素。它要求考察被告的行为是否损害了原作品的市场,包括现有实际市场和潜在市场机会。在本案中,法院对此进行了细致划分,讨论了三种类型的潜在市场损害,并结合AI情境的特点予以分析和裁决:

  • 直接替代(Direct Substitution):

指模型输出直接再现了原作大段内容,使得公众无须购买原作即可获取其中实质表达,从而替代了原作市场。显然,如果LLaMA能够生成原告书籍的大部分章节或全文,那将重创作者的图书销售市场。这一点在原则上法院予以承认。但基于案件证据,法官得出结论:不存在直接替代现象,因为模型不会输出超过50个词的连续原文。双方均无证据表明消费者可以借助LLaMA模型轻易获取原著的大段内容。既然模型输出无法充当“盗版书”,就没有实质性的直接替代威胁。因此,在直接市场替代这一层面,原告未能证明实际或潜在的损害,此分支因素倾向于Meta。

  • 许可市场丧失(Loss of Licensing Market)

原告强烈主张,Meta的未经许可使用侵占了作品用于AI训练的付费授权市场。换言之,如果不允许此等未经授权行为,版权人本可以向AI公司收取许可费,将作品用于训练数据集。此主张曾被许多权利人寄予厚望,因为它抓住了AI训练所独有的新兴商业价值领域。然而,法院对此予以了明确否定,认为这种论证存在逻辑循环。法官指出:若某项使用被认定为合理使用,本无需征得许可,谈何“丧失许可收益”?相反,如果接受原告的推理,只要权利人声称本可出售许可,即可认定被告侵害了潜在市场——这实际上假定了二次使用不合理、需要许可,从而让第四要素分析陷入循环。因此,为了避免自我设定的循环论证,法院拒绝将“失去训练许可费”作为可识别的市场损害。法官援引了多年来版权法的发展经验:在判断转化性使用时,不应考虑权利人因该转化行为未获许可所错失的收益,否则任何转化性合理使用都会被版权人“人为制造”一个许可市场来反对。简言之,AI训练如果本质上被认定为一种合理使用行为,则不存在原告享有独占市场的既得权利。基于此,法院在本案中未将“AI训练许可市场”的缺失视为第四要素下的有效损害主张。值得注意的是,法官同时提及,他并不认为“发展AI训练许可市场”在现实中完全不可行或不应当。只是就合理使用分析而言,不能把合理使用应该自由进行的活动视作版权人理所应得的许可商机,否则将扼杀技术创新与合理使用制度的初衷。

  • 间接替代/市场稀释(Indirect Substitution/Market Dilution)

这是本案中最富新意、也是法官着重讨论的一种潜在市场影响理论。所谓“市场稀释”,是指大型模型经过训练后,能够海量地产出与原作品题材相近或风格类似的新作品,从而冲击原作品的市场生态。这些AI生成作品本身可能并不直接抄袭原作的内容,但由于数量巨大、成本低廉且创意有限,可能淹没市场,削弱读者对原作品和人类作者新作的关注与需求。法官认为,生成式AI的出现,前所未有地将高转化性利用与高度市场稀释风险结合在一起,使法院面临一种前所未有的两难局面。他指出,过去的司法实践中,从未遭遇一项技术“既如此转化性,又如此可能严重稀释市场”的情况。在法律分析上,法官支持将这种间接替代纳入第四要素的考量,认为不能因AI生成内容不构成直接侵权就忽视其对创作者市场地位的潜在冲击。他明确拒绝了Meta的主张,即“只有输出内容本身构成侵权时,其对市场的影响才相关”。法院指出,即便输出物不实质性相似,但如果题材相似或风格类似的作品充斥市场,同样可能分流读者的消费。至于被告辩称“非侵权的合法竞争不应算入版权损害”,法官亦不采纳:他强调,LLM训练之所以能大批量地产生竞争作品,正是因为借鉴了受保护作品中的创意表达,这种情形与传统上作者面临的普通市场竞争并不相同。

不过,在认可理论可能性的同时,法院对本案原告在这一点上的举证表示遗憾:原告并未在起诉中明确主张“市场稀释”损害,更没有提交足够证据支持此种损害已经发生或将发生。法官指出,间接替代作为新颖理论,需要有数据或实证分析证明模型生成内容对某类作者造成作品销量或读者注意力的显著稀释,而这些在当前记录中皆付之阙如。因此,尽管法官对这种潜在危害保持警觉,但在本案中不得不因证据不足而不予考虑。这意味着第四要素下原告未能拿出决定性的市场损害证明,无法扭转前面因素对Meta有利的整体态势。

Chhabria法官在综合四要素后强调:鉴于Meta的使用具有高度转化性(要素一强烈支持被告),要想击败合理使用抗辩,原告必须在最重要的第四要素上取得决定性胜利,证明存在严重的市场伤害。本案中,原告未能做到这一点——无论直接替代还是间接市场影响,其证据均乏力。因此,法院裁定Meta对受版权保护作品的复制利用构成合理使用,判决对Meta有利。然而,法官同时一再谨慎地限定本案裁决的适用范围,声明合理使用的判断高度依赖具体事实,而本案的原告“提出了错误的论点,也未能举证支持正确的论点”,因而败诉。他甚至直言:“此裁决并不意味着Meta用受版权保护材料训练模型就是合法的,它仅意味着这些原告没有提供足够证据来支持相反结论”。可见,法院认可本案属合理使用更多是基于证据薄弱而作出的无奈之举。法官预见,未来只要“稍微改变一些事实”,例如有更充分的市场影响证据,原告完全可能胜诉。他明确警告AI开发者们不要将本案判决视作“尚方宝剑”,未来若滥用版权作品、造成实质损害,法院大可裁定构成侵权。这一谨慎态度凸显出生成式AI背景下合理使用标准的适应性仍在摸索中:法院一方面承认AI训练具有前所未有的转化性和社会价值,另一方面也对其潜在的版权冲击保持高度警惕,不愿以“一刀切”的方式放纵此类行为。正如法官所言,LLM技术带来了合理使用领域的独特挑战——它在扩展知识和表达边界的同时,也可能前所未有地削弱原创市场。因此,合理使用标准在生成式AI时代既要确保技术创新空间,又需防范AI对版权生态的系统性冲击,如何拿捏分寸将是持续的法律课题。

三、DMCA第1202(b)条与合理使用的关系及其对AI训练行为的影响

本案另一大看点是法院对DMCA第1202(b)(1)条款的阐释及其与合理使用的交叉适用问题。DMCA第1202条旨在保护版权管理信息(如作者姓名、作品标题、版权声明等)的完整性,第1202(b)(1)具体规定:任何人在明知或有合理理由知道其行为将引致、促成、方便或掩盖版权侵权的情况下,不得故意移除或更改任何作品中附有的版权管理信息。原告在Kadrey诉Meta案中即援引该条,指控Meta在将作品纳入训练数据时故意删除了电子书中的版权页、作者姓名、出版信息等CMI,目的是掩盖未经授权使用行为。这一索赔从程序上成功跨过了动议驳回阶段,表明法院起初认为原告的指控(Meta有意识地清除标识以免模型暴露出受保护内容)足以构成DMCA诉求。然而,随着合理使用在简易判决中被确认成立,DMCA索赔的命运也随之发生逆转:法院最终判定,由于基础行为不构成侵权,1202(b)(1)所要求的“为了掩盖侵权而移除CMI”的要件无法满足,因此该索赔不成立。

法官在6月27日的裁定中就此问题给出了详尽的法律解释。他首先回顾版权法与DMCA条款的立法结构,指出《美国版权法》第107条明确将合理使用行为排除在侵权之外,那么如果一个行为被认定为合理使用,它从根本上“不是侵权”。基于此,他提出:不应将DMCA第1202(b)解读为在基础行为已被认定不侵权(因合理使用)时仍然适用。这一解释有充分的政策理由支持:立法者不大可能一方面给予善意的合理使用者侵权豁免,另一方面却因为这些用户在利用作品时删除了一些“附带的版权字样”而让其承担DMCA责任。法官形象地指出,若按原告主张,即使使用构成合理使用,删除版权信息仍要担责,那就变成“国会允许你不经许可使用作品,却因为你在使用时撕掉了版权页角落的标识而再次追究你责任”,这样的结果明显有悖DMCA与版权法体系的整体目的。况且,DMCA第1204条还规定了在明知且商业目的下移除CMI的刑事责任,法官进一步指出:很难想象立法者会让一个在版权法下无侵权的合理使用行为,因为删除了些许可信息而构成刑事犯罪。这些论断展现了法院对合理使用优先性的强调:当某项利用在版权法下被视为合法(fair use),相关的一切附随行为理应免于侵权法领域的追责。

值得一提的是,原告为支持其立场,引证了他州地方法院的一则判例——Murphy诉Millennium Radio集团案(新泽西地区法院,2015年)。在Murphy案中,法院曾表示即便被告对原作品的使用属于合理使用,若其移除了照片中的水印署名,仍可单独依据§1202(b)追究责任。换言之,Murphy案认为DMCA并不要求有“既成的侵权结果”,只要删除CMI有可能“促进或隐瞒侵权”,即使最终侵权因合理使用抗辩而不存在,删除行为本身也可被救济。对此,Chhabria法官公开表示不认同,逐一驳斥了Murphy案立论的三点理由。他指出:首先,Murphy案强调§1202没有明文要求必须实际发生侵权才能违反,但问题在于合理使用场景下,被告的行为即便完成也“不构成侵权”,这和尚未发生侵权是不同的。在不存在侵权的前提下去谈“诱发或掩盖侵权”已显得无的放矢。其次,Murphy案认为第1202(b)提到“便利(enable)侵权”是一种“被动的”协助形式,不要求有主动侵权,对此Chhabria法官回应说:“便利”同样可以指积极的行为,例如为了复制而关闭软件安全系统就属典型。再者也是至关重要的一点,Chhabria法官强调了行为人的主观意图:DMCA第1202(b)(1)要求行为人“知道或有理由知道”其移除行为会引发或掩盖侵权。而当事人在主观上若认为自己的使用属于合理使用(且客观上确实如此),那就谈不上“知道会掩盖侵权”,因为其内心并不认为有任何侵权需要掩盖。结合前述分析,法院最终认定:Meta移除CMI的举动并非为了掩盖不存在的侵权,也无证据显示其行为导致了额外的非法传播(例如将盗版书籍通过P2P网络进一步分发)。因此,从法律与事实两个层面,原告的DMCA索赔都不能成立,Meta据此获得简易胜诉。

此结论对AI训练行为的合法性具有重要影响。一方面,它扫清了AI公司在合理使用框架下的一个潜在法律障碍:即只要训练使用被认定为合理使用,那么为了技术需要而进行的格式转换、数据清理(包括删除元数据或版权信息)等操作,就不至于引发额外的DMCA责任。这对于需要大规模处理数据的AI训练而言,无疑减轻了法律风险。正如有分析指出的,如果法院采纳原告观点,即便模型训练算公平使用,公司仍可能因去除了版权标记被诉,那么AI研发者将左右为难:保留标记会导致模型输出原文片段风险,删除标记又会冒DMCA之险。Chhabria法官的裁决避免了这一窘境,在法律上为AI训练的技术处理流程提供了空间。另一方面,该裁决也有其隐含警示:只有当AI训练确属合理使用时,才可豁免DMCA责任。如果未来某AI公司的训练行为超出合理使用边界(构成侵权),那么其移除版权信息的行为将重新落入DMCA规制范围,甚至可能被视为证明其主观恶意侵权的佐证。因此,AI企业仍需谨慎行事,在保证训练行为合法的前提下,才能在DMCA层面高枕无忧。

需要指出的是,DMCA第1202条款的适用在美国司法界也并非没有争议。Kadrey诉Meta案通过明确“合理使用即无侵权,从而无DMCA责任”的逻辑,确立了在生成式AI情境下协调版权法与DMCA规则的新范式。这一解释增强了合理使用抗辩的完整性,使其真正成为“全面的抗辩”,而不会在旁生的法规上留下漏洞。但是,这一立场未来可能在更高法院接受检验,毕竟Murphy案持不同见解且未被上级法院废止。此外,随着技术发展,立法者也可能审视DMCA条款是否需要更新以应对AI时代的新问题。总体而言,本案DMCA部分的裁决释放出一个明确信号:司法更倾向鼓励AI开发的透明与合规(如主动披露训练材料),反感暗箱操作和试图隐瞒侵权的行为。在AI训练的法律挑战中,诚实守信和充分告知将成为取得法院谅解的重要因素。

四、中外观点:AI与版权冲突下的法律思潮与争议焦点

Kadrey诉Meta案作为生成式AI领域的标志性案件,引发了广泛讨论和解读。美国法官、律师和学者围绕该案所体现的法律问题提出诸多见解,也有中国法学界人士对其进行了评析。综合各方观点,可勾勒出现阶段AI与版权冲突领域的主流思潮与争议焦点:

  1. 法院立场的差异与共识

本案与同时期Alsup法官审理的Bartz诉Anthropic案(北加州联邦法院,2025年6月23日判决)并称为生成式AI训练的“两大先例”。两案均认定AI训练高度转化且构成合理使用,但在具体分析上亦存在一些差异,体现了不同法官对疑难问题的思考侧重。Alsup法官在Bartz案中,与Chhabria法官一样拒绝将“训练许可市场”损失计入第四要素,认为那是循环论证;也同样认为训练属于高度转化性使用。然而,Alsup法官采取了比Chhabria法官更为切分场景的审视方法:他将被告Anthropic获取700万本盗版书构建“中央图书馆”的行为,与将其中内容用于训练分别考虑。Alsup法官认为,将盗版书大量复制存储成内部数据库这一行为本身不具备转化性,可能侵犯作者发行权,不宜在无争议事实基础上径行判定为合理使用。因此,在Bartz案中,法官只对“用于训练”的复制部分判定合理使用,而未对构建训练库的中间复制行为轻率放行,留待审理进一步认定。相形之下,Chhabria法官在Kadrey案中并不纠结于“中央库”复制的独立违法性,认为只要最终用于训练,即整体上具有转化目的,不必苛责中间步骤。这种差异显示出司法对于技术中间步骤法律性质的认识尚不统一:一些法官倾向于整体宏观考量,以免过度细分导致判定割裂;另一些则谨慎对待每一环节,以防大尺度复制逃避监管。

另一个值得注意的不同是对间接市场替代危害的取舍。Chhabria法官如上所述,倾向于认为应将AI“泛滥式竞争”的风险计入市场损害考量,并直言LLM能够在极短时间内创作出海量竞争作品,远非人类所能,因而这类竞争并非版权法要鼓励的正常现象。反之,Alsup法官在Bartz案中对这一点兴趣不大,他类比“教孩子写作”的传统情形:教育儿童写作也可能让其将来创作许多新作品与现有作家竞争,但显然教孩子写作并不侵权。在Alsup看来,只要AI输出物本身不侵犯现有作品版权,那么大量出现的新作品即使形成竞争也是著作权法所默许甚至有意促成的结果,因为版权法的宗旨在于促进作品创作、而非保护作者不受任何竞争。基于此理念,他对“市场稀释”未予深究,即认为这属于版权框架外的市场竞争问题。然而,Chhabria法官在Kadrey案判决中特地驳斥了儿童写作的类比,强调人类学习和AI生产的规模效应完全不同:一个人经过学习写作也许一生只能创作有限几本书,远不足以淹没市场,而一套AI系统可能瞬间生成成千上万部小说。因此,他认为版权法应该关注这种前所未有的规模化替代,并探讨应对之策。两位法官对于版权法宗旨的理解存在细微差别:前者更强调版权促进创作、无意遏制正常竞争,后者则忧虑AI可能对原创领域造成系统性倾覆。不过,需要指出的是,尽管态度不同,两案结果在当下都支持了被告的合理使用抗辩,但Chhabria法官明显为将来原告提供更充分市场证据时翻盘预留了可能性。

  1. 律师和学者的评论

法律界普遍认为Kadrey诉Meta案具有里程碑意义,但也强调不宜简单将其解读为对AI公司的“一边倒”胜利。美国主流律所的评析文章指出,合理使用决定极其依赖个案事实,而本案与Bartz案恰巧都存在原告举证薄弱的情况。两案的原告皆未能拿出模型实际输出侵权内容或作品市场受损的数据,这使得法官“别无选择”地基于现有记录裁定合理使用。有评论坦言,很多版权拥有人原本就担心以这些案件作为测试案例并不理想,因为事实过于有利于被告:模型未输出侵权文本,原告损害难以量化。因此,判决并非确认了AI训练永远无害,而是反映出原告选例和举证策略的不足。一些法律学者注意到Chhabria法官判决中的措辞保留,如其声明“本裁决并不意味着Meta的行为合法,只意味着这些原告没有举出支持相反结论的证据”。这一声明被解读为对版权人阵营的“指路”:未来若要赢得类似官司,需要在模型输出及市场影响上深耕证据。换言之,法官实际上在邀请更有说服力的案件来重新检验这一问题。这也得到Chhabria法官自己的佐证,他在判决中预测“多数情况下在涉及Meta这类使用的案件中,如果证据更充分,原告往往会胜诉”。

在公平使用标准层面,Kadrey案引发了对“转化性”概念的再讨论。一部分专家担忧,法官对转化性的强调可能压低其他因素的重要性,让强大的技术应用自动在第一要素胜出。他们引用Chhabria法官的表态——“并无任何规则说一旦使用是‘转化性’的,就自动豁免侵权”——来说明法院也意识到不能让“转化性”成为万能挡箭牌。同时,AI的转化性又与传统案例有所不同:例如谷歌图书案和索尼VCR案中的转化性使用通常不会对原创市场有重大负面影响,而LLM技术却潜藏更复杂的后果。因此,许多法律评论认为,AI时代需要发展出更细致的合理使用分析框架,特别是考虑到AI用途跨越商业和研究、高度转化却潜在高损害的矛盾。Skadden律所的评论将Kadrey和Bartz案视为AI版权诉讼“第二阶段”的开始:第一阶段多为程序性审查(动议驳回阶段)确定起诉是否成立,现在则进入证据充分的简易判决阶段,而下一阶段将是上诉法院的法律审查,再之后很可能由联邦最高法院作出终局裁决。这表明业界预期围绕AI训练的合理使用之争将持续升级,不同法院见解可能不一致,最终需要最高法院或立法来给出更权威的指引。

  1. 中国法学界的观察

中国学者和律师也密切关注此案,对其反映的AI与版权冲突问题提出了本土化的思考。有观点认为,Kadrey案体现出美国司法在维护版权利益与鼓励技术创新之间寻求动态平衡,这对中国具有重要借鉴意义。中国台湾学者杨智杰评论道,本案虽判定Meta胜诉,但法院明确提及了“市场稀释”对著作权人的潜在伤害,预示未来若证据充分,不排除判定AI训练不构成合理使用的可能。也就是说,法院给AI公司敲响了警钟:不能假定法律会永远容忍未经授权的大规模训练行为。大陆有学者进一步分析了美国两起先例背后的政策取向,指出美国法院试图通过严格的证据要求来倒逼业界提高透明度、减少对版权市场的冲击,这为我国思考类似问题提供了思路。还有论者关注到DMCA问题,认为Kadrey案在DMCA第1202条适用上作出的限制性解释,体现了法院鼓励AI开发者公开使用版权作品而非暗中偷用**的价值判断。因为如果开发者坦承使用受保护内容并寻求授权,那压根不会涉及“移除版权信息”去掩盖的情况。反之,只有当开发者心知可能侵权而想瞒天过海时才会清除痕迹。因此,法院允许DMCA索赔在动议驳回阶段存续,也是对AI公司可能的恶意行为发出的警示:一旦发现有遮掩侵权之嫌,即便暂称合理使用也可能付出诉讼代价。这种对行为动机的审视为中国司法解决类似纠纷提供了启发,即应考察AI开发方有无主动披露和寻求授权的努力,来判断其主观善意。

总的来说,中外观点的交汇凸显了几个争议焦点:(a)AI训练的合理使用边界——在鼓励技术与保护版权间如何拿捏,引发“转化性vs.市场效果”的讨论;(b)权利人新利益诉求的正当性——如训练数据许可费、市场稀释等,涉及版权制度是否扩张以涵盖AI时代的新需求;(c)立法或判例引领——究竟应由法院通过案例细化规则,还是需要立法主动设置AI例外或许可机制;(d)国际规则趋同与差异——美国采用开放式公平使用原则,而欧盟、日本等通过特定的“文本与数据挖掘例外”立法路径,不同模式的优劣如何。围绕这些议题的讨论还在继续,并将在一定程度上影响各国未来的法律选择。Kadrey诉Meta案无疑提供了一个重要参照,但正如观察家所言,这只是“开局”,后续更复杂的案件、不同法域的应对都将不断丰富这一领域的法律实践。

五、对中国的启示:立法和司法面临的挑战

生成式人工智能在中国近年蓬勃发展,从大模型研发(如百度“文心一言”、阿里“通义千问”等)到各类AIGC应用蓬勃涌现。然而,我国现行法律框架在应对AI训练所涉版权问题上还存在诸多空白和不足。Kadrey诉Meta案的争议也在我国不同法律层面投射出类似挑战,需要立法者和司法者高度重视:

  1. 著作权法的适应性不足

我国现行《著作权法》(2020修正)采取列举式的合理使用制度,在第24条规定了12种无需许可即可使用作品的法定情形(如个人学习、课堂教学、新闻报道、司法程序等)。然而,将受保护作品用于AI模型的训练并不在这12种情形之列。ChatGPT这类模型对训练文本数据的大规模复制,既非出于个人私学,也非传统意义上的科研引用,更不是新闻或司法使用。换言之,我国著作权例外制度当前无法为AI训练提供明确的合法性依据。即使勉强试图套用第24条第(一)项“为个人学习、研究或者欣赏,使用他人已经发表的作品”这一路径,也会碰到两个障碍:其一,AI公司的训练显然不是“个人”行为且往往具有商业目的,难谓纯粹的个人学习研究;其二,第24条虽有兜底款(“法律、行政法规规定的其他情形”),但目前没有上位法规将AI训练列为例外情形。可见,按照现行法文义,AI未经许可爬取他人作品进行训练大概率构成侵犯复制权等著作财产权。此外,我国著作权法对合理使用的量和质也有隐含限制,比如教学引用中“不影响作品正常使用”“限于必要范围”,这些要求都无法涵盖AI训练动辄全书整库的情形。虽然著作权法总则要求遵守“三步检验法”(即在特定情况下、不与作品正常利用相冲突、不不合理损害权利人利益),理论上法院可借此斟酌新情况,但实践中我国法院很少超出列举条款直接基于三步检验创设新的合理使用类型。因此,立法供给不足导致我国在面临AI训练版权纠纷时缺乏明确法定规则,只能生硬地套用现有条款,面临裁判依据不足的困境。

  1. 数据获取与治理的问题

生成式AI训练往往需要爬取海量网络数据,其中既包括版权作品,也可能涉及个人信息、敏感数据等。在中国现有法律下,大规模网络数据抓取本身就横跨著作权法、民法典(隐私权/个人信息)、网络安全与数据安全法等多个领域的监管。具体来说,在版权方面,如前述,擅自复制他人受保护内容可能侵权;在个人信息保护方面,爬虫抓取涉及他人发布的个人信息(如文章作者简介、用户评论等)可能触碰《个人信息保护法》要求的合法性基础;在数据安全方面,获取和出境大规模数据还可能引发《数据安全法》《网络安全法》中关于重要数据出境、安全评估的合规要求。特别地,我国2023年出台的《生成式人工智能服务管理暂行办法》(国家网信办等七部门发布,自2023年8月15日起施行)第十六条规定:利用生成式AI服务提供含受版权保护内容的,应遵守著作权法等法律,履行版权责任。这表明监管部门意识到生成式AI涉及版权敏感。但同时该《办法》并未具体澄清训练环节是否需要取得版权授权,只是泛泛要求AI服务提供者保证数据来源合法、不得侵权。这实际上将责任留给了AI企业自我判断。在缺乏明确例外规则的情况下,保守的做法是要求企业对训练数据逐一取得许可或使用非受限素材,但这在实践中几乎难以操作,成本高昂且很多素材无明确权利人或许可渠道。现实中,不少中国AI公司声称只使用公开数据或已获得授权的数据进行训练,但“公开获取”不等于“不受版权保护”,很多互联网公开内容仍有版权。如何界定网络开放内容的可用性、建立合规的数据集获取机制,是目前数据治理方面的一大挑战。

  1. 权益平衡与产业发展的矛盾

从产业政策角度看,中国高度重视人工智能产业的发展,将大模型技术视为科技创新和数字经济的关键引擎。若版权法环境对训练数据管控过严、缺乏合理使用空间,可能抑制AI技术的迭代,削弱中国企业在全球竞争中的速度和优势。这一担忧与美国AI公司在法庭上提出的论点类似,即“不承认合理使用将阻碍AI发展”。有学者指出,中国固然要加强版权保护,但也应当以积极前瞻的思维迎接AI到来,通过完善制度设计来平衡鼓励创新与保障版权。目前来看,我国法律对文本和数据挖掘(Text and Data Mining,TDM)这种新型使用方式尚未做出回应,与欧盟、日本等已设立TDM例外的法域相比存在滞后。这可能导致国内AI企业在法律不确定性下前进,一旦出现纠纷缺乏有效抗辩。而对版权人来说,他们也担心自己的作品被AI大量汲取却无法获得任何补偿,甚至未来被AI创作淹没市场。因此,中国正面临与美国类似的利益冲突:一方是蓬勃的AI产业及公众期望的新应用,另一方是传统版权收益和创作激励如何不被侵蚀。这种矛盾需要通过法律政策的调适来纾解。

  1. 版权管理与集体治理的不足

本案还引出版权管理信息和许可机制的问题。美国有DMCA这类专门条款禁止删除版权信息,我国《著作权法》也有类似规定(如禁止擅自删除作品权利管理电子信息等),但实践中对网络爬虫、AI训练这类场景很少应用。此外,我国版权集体管理组织目前主要聚焦音乐、文字作品的使用收费、许可,但尚未出现专门针对AI训练数据的大规模许可渠道。当成千上万部作品被用于训练时,不可能逐一谈判,是否可以有集中许可或行业公约,目前仍属空白。这意味着既缺乏对AI方提供低成本合规途径,也缺乏对权利人有效分享新价值的机制。如果任由现状发展,矛盾会进一步激化:要么AI公司铤而走险侵权使用,要么版权人抱团起诉或游说立法,最终走向一刀切式禁限,可能任何一方都无法得到最佳结果。

综合而言,中国在生成式AI版权问题上面临法律滞后与实践迫切的张力。立法上,著作权法不明确、相关规制碎片化,不足以提供清晰规则;司法上,一旦出现纠纷,法官缺少直接依据,可能各执己见,裁判结果难以预料;产业上,企业徘徊于创新冲动和合规焦虑之间;权利人则忧心自己权益受损且缺少救济渠道。这些挑战需要通过制度创新和顶层设计加以化解。

六、前瞻:完善中国立法与司法应对AI版权问题的建议

针对此领域的法律真空和利益冲突,中国有必要加快构建前瞻性的制度框架,以平衡技术发展与版权保护。基于国内外经验,提出以下立法和司法层面的构想与建议:

  1. 建立“文本与数据挖掘”例外制度

借鉴欧盟《数字单一市场版权指令》(2019)的做法,增设著作权法意义上的TDM例外条款。欧盟指令第3条、第4条分别规定了科研TDM例外(非营利研究机构出于科研目的可自由挖掘)和商业TDM例外(商业主体亦可挖掘,但权利人可选择性退出)。我国可考虑在著作权法或司法解释中引入类似规定:允许人工智能研发过程中为模型训练之目的,对合法获取的作品文本进行必要的复制、分析。此例外可附加限定条件,例如仅限于数据分析用途,不直接向公众提供受保护内容;作品来源须是合法公开获得的;权利人保留明示拒绝其作品被挖掘的权利等。通过这一机制,使AI训练行为有法定的“安全港”,同时尊重特定权利人不愿被使用的选择。这不仅能减少企业法律不确定性,也为作者提供一个选择退出(opt-out)的渠道,符合国际趋势。当然,立法需明确“挖掘”例外的适用范围和边界,例如只适用于机器学习阶段的复制,不涵盖模型输出的分发;以及强调不得不合理损害权利人正常利益,以通过三步检验。在立法尚需时日情况下,司法解释可先行一步,由最高人民法院出台类似指导意见,明确法院可将AI训练视作特殊情形纳入合理使用考量,给出裁量标准。这将为审理相关案件提供依据,减少不同法院裁量的分歧。

  1. 构建版权集体许可和补偿机制

为妥善解决权利人补偿问题,立法者可探索建立AI训练数据的集体管理或强制许可制度。例如,设立一个由版权集体管理组织运作的“数据挖掘许可平台”,让有意授权作品用于AI训练的作者/出版社登记作品,AI公司支付一定费用即可获得批量使用权。费用标准可根据作品字数、类型、销量等指标分类制定,并由行业协商确定。这类似于音乐领域的集中许可模式,降低交易成本。对于不愿加入的权利人,则可以通过opt-out排除在外。另一种思路是法定许可/强制许可:立法规定AI公司使用公开作品训练可视为法定许可,但须按一定比例将营业收入拨入专门基金,定期分配给权利人。此举可确保权利人分享AI技术红利,同时不致阻碍训练行为。不过强制许可在国际版权公约下有严格限制,需要论证其必要性和合理性。无论何种模式,核心是建立合理的利益分配机制,化解当前“要么侵权不付费,要么不让用”的尖锐对立。让作者、出版商从AI产业获利中得到合理回报,亦有助于消除他们对AI的抵触情绪,形成合作共赢的新生态。

  1. 强化训练数据的合规审查与透明披露

监管部门可以要求AI开发者提高训练数据的透明度,这既是版权管理也是数据治理的重要方面。一项可行措施是建立训练数据报告和审查制度:要求大型模型在训练前向主管机构备案所用主要数据来源类型、规模及版权状态,并定期披露模型可能输出受保护内容的风险评估。这类似于美国正在讨论的《生成式AI版权披露法案》,要求训练数据使用需告知版权局。中国可以在政策上鼓励AI公司公开训练语料库的组成比例,例如多少来自公共领域,多少来自已授权内容,多少来自网络抓取等。在不泄露商业机密前提下的适度披露,有助于外部监督和权利人知情。此外,对于模型可能输出受版权保护材料的情形,可要求企业采取预防措施:比如设置输出过滤,避免连续大段文本与训练样本高度相似;对模型进行版权内容记忆清洗,降低其记忆精确文本的倾向;或者在模型输出中自动附加版权声明或出处提示(若可探测到来源)。这些举措相当于在AI输出端加强治理,对应前述合理使用分析中法院对模型不输出原文才认可使用合理的重要考量。倘若企业能证明其技术上尽力防止了侵权输出,且训练过程公开透明、无主观隐瞒恶意,那么即使将来发生纠纷,法院也更倾向认定其行为善意,可能给予合理使用保护。反之,若企业训练完全黑箱操作,被发现刻意删除所有痕迹、模型频繁吐出整段小说,那么其行为更易被认定侵权且需承担相应责任。因此,加强合规和透明,其实也是企业保护自身、获取法律信任的一种手段。

  1. 明确人工智能生成物的版权归属和边界

虽然本案焦点在训练数据使用上,但AI生成内容本身的版权属性也与训练数据紧密相关。我国版权局和司法实践已明确,AI独立生成的内容因缺乏自然人创作性,不受著作权法保护。但在大量商业应用中,AI生成物往往会经过人类编辑润色甚至与人类作品混同发布,这会引出新的版权权利边界问题。例如,AI改编或续写现有作品的行为如何定性?AI生成内容高度仿拟某作家风格时,是否侵犯其作品改编权或人格权?这些都需要法律回应。建议立法或司法解释进一步细化AI生成物使用的规范,如要求显著标识AI内容,防止公众混淆;禁止利用AI大批量生产特定作者风格的作品进行商业竞争(可通过反不正当竞争或版权扩张解释处理);在版权侵权判定中引入“实质性相似+因果关系”的新考量标准,面对AI复杂加工时,强调输出内容直接源于原作的因果链证据,以区分普通受影响和实质剽窃。这些措施能在一定程度上缓解AI对原创市场的冲击**,与前述合理使用和许可制度形成配套:一方面放宽AI训练入口,另一方面管控AI输出出口,双管齐下维护版权秩序。

  1. 提升司法能力与判例指引

最后,在司法层面,应提高法官对人工智能技术和产业背景的理解,确保在裁判时综合考量技术特性与法律原则。可以组织对法官的培训,邀请技术专家讲解大模型工作原理、数据处理方式、国内外最新案件进展等,使司法者跟上科技前沿。同时,最高法院可以适时发布典型案例或指导性案例,将未来审理的一些AI与版权纠纷(例如可能出现的国内首例大模型训练侵权案)总结提炼,上升为指导规则,供全国参照。这些案例可以明确:在哪些情况下倾向于认定合理使用,哪些情况下认定侵权;如何分配举证责任(例如要求原告证明实际损害或要求被告证明转化性等);是否认可行业惯例或技术必要性作为抗辩理由;等等。有了这些判例指引,全国法院在处理AI版权案件时才能做到标准较统一、导向较清晰,既不给AI产业发展设置过高障碍,也防止放任自流损害版权人利益。

七、结语

Richard Kadrey等人诉Meta案在AI与版权的碰撞史上写下了重要一页。它昭示了生成式人工智能给传统版权法带来的冲击和挑战:旧有原则在新技术前需要经受重新检验和适应。美国法院在该案中所采取的分析框架和裁量尺度,为我们理解和解决类似问题提供了有益参考。

对中国而言,既要看到AI产业发展的战略价值,也不能忽视版权保护的法治基石。技术与法律的博弈最终应回归共赢——既通过法律赋予创新足够空间,让AI技术造福社会;又通过制度保障创作者的合理权益,维护创作生态的可持续。要达到这一目标,立法的前瞻布局、司法的明智断裁、产业的自律合规,以及版权人和AI开发者之间的新平衡,都是不可或缺的环节。Kadrey诉Meta案的经验表明,法律并非阻碍技术的敌人,而是为技术健康发展保驾护航的指南。我们有理由相信,经过不断的探索和调整,中国定能在人工智能与版权治理上走出一条兼顾创新活力与法治精神的道路,为全球提供独特的智慧和方案。