热门

最新

红包

立Flag

投票

同城

我的

发布
m0_46163918
程序员的店小二
1 年前
truem0_46163918

据《纽约时报》报道,OpenAI 使用 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频来训练GPT-4。

OpenAI 总裁格雷格-布罗克曼(Greg Brockman)亲自参与了收集视频的工作。

报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。

并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。

此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。

OpenAI发言人Lindsay Held通过电子邮件告诉The Verge,公司为每个模型策划了“独特”的数据集,以“帮助它们理解世界”并保持其全球研究竞争力。

Held补充说,公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”,并且正在考虑生成自己的合成数据。

根据《纽约时报》的消息来源,Google也从YouTube收集了转录内容。

详细:
https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

AI资讯
CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
最新博客:小秦网站终于上线啦!!!https://blog.csdn.net/m0_62476845/article/details/137471103?spm=1001.2014.3001.5501
立即登录