据《纽约时报》报道，OpenAI使用Whisper音频转录模-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

1 年前

truem0_46163918

据《纽约时报》报道，OpenAI 使用 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频来训练GPT-4。

OpenAI 总裁格雷格-布罗克曼（Greg Brockman）亲自参与了收集视频的工作。

报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。

并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。

此外，OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。

OpenAI发言人Lindsay Held通过电子邮件告诉The Verge，公司为每个模型策划了“独特”的数据集，以“帮助它们理解世界”并保持其全球研究竞争力。

Held补充说，公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”，并且正在考虑生成自己的合成数据。

根据《纽约时报》的消息来源，Google也从YouTube收集了转录内容。

详细：https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

AI资讯

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

最新博客：小秦网站终于上线啦！！！https://blog.csdn.net/m0_62476845/article/details/137471103?spm=1001.2014.3001.5501