首页 > 新闻 > 新闻详文:数字时代新闻媒体与AI模型版权之战

数字时代新闻媒体与AI模型版权之战

发布时间:2024年07月03日 08时14分55秒   新闻类型:广域新闻    访问次数:112
字体: 初始 添加收藏 分享给好友

新闻出版商越来越多地决定与人工智能公司就其内容的使用达成协议,尽管《纽约时报》早早存在疑虑和备受瞩目的法律案件。《纽约时报》在纽约南区对微软和 OpenAI提起诉讼,指控其严重侵犯版权。已是有史以来最高赔知识产权偿诉讼(参考:The New York Times v. OpenAI: The Biggest IP Case Ever)。这些交易通常包括使用新闻出版商的内容作为用户在ChatGPT等工具中查询的参考点(目前承诺引用他们的网站),以及让他们使用人工智能技术来构建自己的产品。

随着新闻出版商与人工智能公司签署协议,用新闻报道训练他们的模型,像 OpenAI 这样的企业愿意为版权信息支付的价格开始显现。据报道,OpenAI每年向新闻机构提供100万至500万美元的许可,以授权其受版权保护的内容来训练其模型 - 尽管据报道,新闻集团的新交易在五年内价值超过2.5亿美元。

在"OpenAI’s news publisher deals reportedly top out at $5 million a year"报道中提到:“以授权使用受版权保护的新闻文章来训练其 AI 模型。这是 AI 公司计划为授权材料支付多少钱的首批迹象之一。它与最近的一份报告同时称,苹果正在寻求与媒体公司合作,使用内容进行 AI 训练,并在多年期间提供至少 5000 万美元的数据”。这些数字与一些早期的非人工智能授权交易大致相同。据称,当 Meta 推出 Facebook 新闻标签时(该标签在欧洲已停用),它每年提供高达 300 万美元的报酬来授权新闻报道、标题和预览。但目前尚不清楚总支出是否会达到我们所见的一些更大数字。例如,谷歌在 2020 年宣布将投资 10 亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计 1 亿美元,以换取链接到他们的文章。

虽然人工智能大型语言模型的训练数据主要来自互联网上的信息。目前也没有透露它们是如何获得训练数据的,但通常可以找到有关使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供商、大小和数据集内容而异。这种做法现在面临重大挑战。一方面,OpenAI 的 GPT 爬虫已被一些公司禁止访问数据,包括《纽约时报》和The Verge的母公司 Vox Media。另一方面,一些组织认为,使用他们的数据进行训练构成了侵犯版权的行为。《纽约时报》等已起诉OpenAI 和微软侵犯版权,指控 ChatGPT 和微软的 Copilot 可以几乎一字不差地生成其工作的输出。

 
路透社:汤森路透(Thomson Reuters)首席执行官史蒂夫·哈斯克(Steve Hasker)告诉英国《金融时报》,该公司已经与人工智能公司达成了“一些”交易,希望利用路透社的新闻内容来训练他们的模型,但他没有提供任何关于谁参与了交易或参与多少交易的进一步细节。

Reddit:社交媒体平台Reddit签署了一项协议,允许谷歌在其人工智能工具的训练中使用其内容。据路透社报道,这笔交易每年价值约6000万美元。

虽然不是新闻机构,但Reddit的交易仍然是内容许可协议。Reddit帖子中也可能有新闻媒体内容被复制,这些内容可能属于该交易的范围。

金融时报 Financial Times:4 月 29 日,英国《金融时报》成为第一个宣布与 OpenAI 达成协议的英国主要新闻品牌。表示:人工智能平台向出版商支付使用其材料的费用是正确的。

世界报/Le Monde和Prisa Media :OpenAI于3月13日宣布,已与法国新闻品牌《世界报》(Le Monde)和西班牙出版商Prisa Media签署了协议,后者出版了《国家报》(El País)、《五日节》(Cinco Días)、《阿斯》(As)和《赫芬顿邮报》(El Huffpost)。

这些交易将意味着 ChatGPT 用户可以通过“带有归属和增强原始文章链接的精选摘要”两家出版商的最新内容,而他们的内容将被允许为训练 OpenAI 的模型做出贡献。

OpenAI于3月13日宣布,已与法国新闻品牌《世界报》(Le Monde)和西班牙出版商Prisa Media签署了协议,后者出版了《国家报》(El País)、《五日节》(Cinco Días)、《阿斯》(As)和《赫芬顿邮报》(El Huffpost)。

这些交易将意味着 ChatGPT 用户可以通过“带有归属和增强原始文章链接的精选摘要”来展示两家出版商的最新内容,而他们的内容将被允许为训练 OpenAI 的模型做出贡献。

美联社 /Associated Press:OpenAI 和美联社于 2023 年 7 月签署了一项协议,允许这家人工智能公司许可该通讯社可追溯到 1985 年的内容档案用于培训目的。两家公司表示,他们还在研究“生成式人工智能在新闻产品和服务中的潜在用例”,但没有透露具体细节。

美联社高级副总裁兼首席营收官克里斯汀·海特曼(Kristin Heitmann)表示:“我们很高兴OpenAI认识到基于事实的、无党派的新闻内容对于这项不断发展的技术至关重要,并且他们尊重我们知识产权的价值。美联社坚定地支持一个框架,以确保知识产权得到保护,内容创作者的工作得到公平的补偿。

关联参考:

Who’s suing AI and who’s signing: Publisher deals vs lawsuits with generative AI companies

OpenAI’s news publisher deals reportedly top out at $5 million a year

The Overlooked Claim of The New York Times v. OpenAI: Harm to Copyright Management Information