·OpenAI表示,正在与数十家出版商洽谈达成文章授权协议。消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用以获得受版权保护的新闻文章,训练其大语言模型。
1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。
“我们正在与许多出版商进行多次谈判和讨论。他们很活跃,非常积极,目前进展顺利。”OpenAI知识产权和内容主管汤姆·罗宾(Tom Rubin)在接受彭博社采访时表示,“你看到了已经宣布的交易,未来还会有更多。”
OpenAI最近与新闻出版巨头施普林格出版集团 (Axel Springer) 签署了一项多年期许可协议,这是该公司与此类出版商的首次合作。施普林格是一家总部位于德国的跨国大众媒体公司,旗下拥有Business Insider和Politico等品牌。该交易的财务条款从未公开,但据The Information援引OpenAI两位高管的消息称,交易金额在数千万美元左右。
7月,OpenAI宣布与美联社达成一项类似协议,金额未公开。这些交易对于OpenAI的未来至关重要,因为它正在平衡构建模型所需数据的需求与对数据来源日益严格的审查。
实际上,这些交易似乎与前几年类似。谷歌在2020年宣布将总共投资10亿美元与新闻机构合作。在新法律的压力下,谷歌最近还同意每年向加拿大出版商支付总计1亿美元,以换取其文章链接。
随着新闻出版商与人工智能公司签订协议,用新闻文章训练其模型,OpenAI等企业愿意为受版权保护信息支付的价格逐渐浮出水面。The Information援引匿名消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用,以使用其新闻文章用于训练大型语言模型。即使对于小型出版商来说,这个数额也很小,这可能会让OpenAI难以达成交易。
与此同时,苹果公司也正在参与开发生成式人工智能的竞赛,并与拥有《Vogue》和《纽约客》的康迪纳仕(Condnast)、拥有Daily Beast的NBC新闻和IAC等出版商签订了价值约5000万美元的协议。
这些行动背后的逻辑都在于,当今大型语言模型训练的大量数据资源来自于互联网。然而就训练生成式人工智能而言,似乎已经难有更多的免费午餐。
一方面,《纽约时报》、CNN、路透社和The Verge的母公司Vox Media最近阻止了OpenAI的GPT爬虫访问数据。另一方面,一些组织认为基于其数据进行训练构成版权侵权。
最近,《纽约时报》在美国联邦法院起诉OpenAI和微软,指控这两家科技公司非法使用“数百万篇”受《纽约时报》版权保护的文章,帮助开发ChatGPT和必应等工具背后的人工智能模型。这是一系列诉讼中最新的一起,也是关注度最高的一起,这些诉讼指控各种科技和人工智能公司侵犯了媒体公司、摄影网站、图书作者和艺术家的知识产权。http://www.bj6611.cn/