热门
最新
红包
立Flag
投票
同城
我的
发布
据《纽约时报》报道,OpenAI 使用 Whisper 音频转录模型转录了超过一百万小时的 YouTube 视频来训练GPT-4。
OpenAI 总裁格雷格-布罗克曼(Greg Brockman)亲自参与了收集视频的工作。
报道称OpenAI早在 2021 年就已经耗尽了所有能搜集到的有用数据。
并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的问题。
此外,OpenAI还在包括GitHub上的计算机代码、象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。
OpenAI发言人Lindsay Held通过电子邮件告诉The Verge,公司为每个模型策划了“独特”的数据集,以“帮助它们理解世界”并保持其全球研究竞争力。
Held补充说,公司使用“包括公开可用数据和非公开数据的合作伙伴关系在内的多种来源”,并且正在考虑生成自己的合成数据。
根据《纽约时报》的消息来源,Google也从YouTube收集了转录内容。
详细:https://theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google
AI资讯
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报