数据真的是AI公司的护城河吗?
在旧金山的一家咖啡店里,你几乎总能听到某种版本的“数据是新石油”。但是马克·安德森提出了一个挑衅性的说法...
据马克所说,“互联网上以及一般环境中可用的数据量大约是一百万倍……它淹没了你的数据价值。你的专有数据在边际上可能有点用,但实际上不会改变大局。”
他引用这个作为证据——市场上没有大型、复杂的数据市场。如果数据有价值,它应该有一个市场价格。
本同意数据作为可出售的商品的想法被严重高估了,因为大多数数据要么广泛可用,要么不是通用目的。
但他补充说:“几乎每家公司都可以通过使用自己的数据提高竞争力......每家公司都有数据,如果将这些数据输入智能系统,将有助于他们的业务,几乎没有公司拥有可以出售的数据。”
我的看法:我认为本的观点是正确的。
话虽如此,显然有一些公司拥有值得销售的数据。谷歌和OpenAI已经签署了使用Reddit数据进行模型训练的协议,据传是每年6000万美元。但这些数据只有在你构建一个通用消费产品的尖端模型时才有价值。如果你在构建一个小型特定领域的模型,它就没有价值。
至少有三种类型的公司内数据对他人有价值并且有市场:
⋅ 用户生成内容 — 像Reddit/X这样的社交平台拥有旨在吸引人类的数据
⋅ 视频 — 视频的创建和存储成本高,所以大多数高质量视频都被锁在像YouTube和Netflix这样的封闭花园里
⋅ 实时数据 — 类似于用户生成内容和视频,高质量的实时内容如新闻媒体通常被锁在付费墙后面
但是,对于没有这种类型数据的大多数公司,他们应该问的问题是:
1. 我是否拥有有价值的专有数据资产?
2. 我如何利用数据创造竞争优势?
3. 我是应该在自己的专有数据上训练自己的模型,还是信任OpenAI/Google足以将其提供给他们?