主要科技公司依赖高质量出版商内容训练AI模型

2024-11-10 160 其它文章

据币币情报道，包括OpenAI、谷歌、Meta和Anthropic在内的多家知名科技企业，在开发其大型语言模型（LLM）时，广泛采用了来自权威出版商的高质量且受版权保护的内容。根据Ziff Davis——CNET、IGN及Mashable等网站背后的母公司所进行的一项研究显示，优质的文本资料对于提高这些人工智能系统的性能至关重要。

Ziff-Davis的研究人员George Wukoson与Joey Fortuna指出，这些AI公司在挑选训练数据时倾向于选择那些在搜索引擎上排名较高的可信站点。这种做法有助于开发者们更好地调整他们的语言处理算法。此外，该报告还特别提到Axel Springer, Future PLC, 赫斯特集团, 新闻集团以及《纽约时报》等顶级媒体机构对构建训练数据集做出了显著贡献；特别是发现约12.04%的OpenWebText2数据集用于生成GPT-3模型的部分就来源于上述信誉良好的信息源。

与此同时，Facebook创始人马克·扎克伯格也在最近接受The Verge采访时加入了关于AI训练中内容使用的讨论。他认为虽然个人或小型组织可能觉得自己的作品被低估了价值，但实际上它们在整个数据库中的影响力相对较小。

出版商起诉AI企业侵犯版权

然而，随着越来越多的传统新闻机构开始意识到自己生产的内容成为了他人免费获取的知识库，《纽约时报》和《华尔街日报》已先后采取法律行动，指控某些AI项目非法使用了它们的文章而未支付相应费用。尽管像OpenAI这样的公司正积极寻求与更多媒体伙伴建立合作关系以获得授权访问特定类型的信息资源，但仍有相当一部分AI初创企业继续在缺乏明确许可的情况下运作。

值得注意的是，尽管当前大多数领先的LLM开发商不再公开详细说明其所使用的具体训练材料来源，但可以肯定的是，随着生成式AI技术的发展壮大，如何平衡技术创新与尊重原创作者权益之间的关系将成为一个长期存在的议题。

另外值得一提的是，随着AI技术日益普及应用，传统出版业面临着前所未有的挑战：一方面要应对因广告收入下降而导致的大规模裁员问题；另一方面还要设法适应这个由机器学习驱动的新时代，努力寻找可持续发展的商业模式。

币币情登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇：借贷应用成DeFi TVL流失「重灾区」

下一篇： Shark闪跌 99% Fork了Bunny的代码还Fork了它的攻击

热门新闻

交易平台最新公告查看更多>

成交额排行榜

交易所
币种

排名	交易所	成交额
1	币安网	¥1.27万亿
2	欧易OKX	¥4,547.82亿
3	HTX	¥770.82亿
4	Coinbase	¥346.92亿
5	大门	¥3,131.65亿
6	Bitget	¥1,795.54亿
7	Bybit	¥3,598.49亿
8	K网(Kraken)	¥153.51亿
9	双子星（Gemini）	¥24.76亿
10	Upbit	¥222.22亿

排名	币种	成交额
1	泰达币	¥4,271.80亿
2	以太坊	¥1,914.41亿
3	比特币	¥1,787.67亿
4	USD Coin	¥756.03亿
5	Solana	¥650.72亿
6	瑞波币	¥468.29亿
7	币安币	¥364.28亿
8	First Digital USD	¥349.87亿
9	狗狗币	¥241.49亿
10	大零币	¥193.67亿