热门

最新

红包

立Flag

投票

同城

我的

发布
devbaseten
小胖虾-
2 年前
truedevbaseten

在探索Mixtral性能时,我们有三个目标:

1️⃣ 将第一个token的时间控制在200毫秒以下
2️⃣ 达到每秒超过50个感知token
3️⃣ 通过在单个A100上运行模型来节省成本

使用TensorRT-LLM并将模型量化为int8,我们可以实现所有这三个目标。💪

CSDN App 扫码分享
分享
1
20
  • 复制链接
  • 举报
下一条:
有趣的事实:这条推文来源于下面的博客文章,而这篇博客文章又来源于我一周前与@Joseph Yee 的一个小时对话。查看链接以深入了解内容再利用的艺术https://bensbites.com/blog/easy-and-effective-ways-to-repurpose-content-with-ai?utm_medium=social&utm_source=twitter_organic
立即登录