数据真的是AI公司的护城河吗？在旧金山的一家咖啡店里，你几乎-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

2 年前

trueweixin_41183104

数据真的是AI公司的护城河吗？

在旧金山的一家咖啡店里，你几乎总能听到某种版本的“数据是新石油”。但是马克·安德森提出了一个挑衅性的说法...

据马克所说，“互联网上以及一般环境中可用的数据量大约是一百万倍……它淹没了你的数据价值。你的专有数据在边际上可能有点用，但实际上不会改变大局。”

他引用这个作为证据——市场上没有大型、复杂的数据市场。如果数据有价值，它应该有一个市场价格。

本同意数据作为可出售的商品的想法被严重高估了，因为大多数数据要么广泛可用，要么不是通用目的。

但他补充说：“几乎每家公司都可以通过使用自己的数据提高竞争力......每家公司都有数据，如果将这些数据输入智能系统，将有助于他们的业务，几乎没有公司拥有可以出售的数据。”

我的看法：我认为本的观点是正确的。

话虽如此，显然有一些公司拥有值得销售的数据。谷歌和OpenAI已经签署了使用Reddit数据进行模型训练的协议，据传是每年6000万美元。但这些数据只有在你构建一个通用消费产品的尖端模型时才有价值。如果你在构建一个小型特定领域的模型，它就没有价值。

至少有三种类型的公司内数据对他人有价值并且有市场：

⋅ 用户生成内容 — 像Reddit/X这样的社交平台拥有旨在吸引人类的数据
⋅ 视频 — 视频的创建和存储成本高，所以大多数高质量视频都被锁在像YouTube和Netflix这样的封闭花园里
⋅ 实时数据 — 类似于用户生成内容和视频，高质量的实时内容如新闻媒体通常被锁在付费墙后面

但是，对于没有这种类型数据的大多数公司，他们应该问的问题是：

1. 我是否拥有有价值的专有数据资产？
2. 我如何利用数据创造竞争优势？
3. 我是应该在自己的专有数据上训练自己的模型，还是信任OpenAI/Google足以将其提供给他们？

CSDN App 扫码分享

分享

评论

10

复制链接
举报

下一条：

第四集《高级洞察》已上线，本集特邀谷歌机器学习、系统和云AI部门的工程院士及副总裁阿明·瓦达特。在这一集中，AMD首席技术官马克·帕普马斯特和阿明深入探讨了分布式计算的变革时代。https://bit.ly/4bNCz5h