Jamba来自@桉桦,可扩展至256K上下文窗口,并作为开放权重模型发布。混合注意力机制加结构化状态空间模型是否会为开源大型语言模型带来一个新时代?https://codingwithintelligence.com/p/jamba-are-hybrid-attentionstructured我在本周的CoWI中探讨了这个问题以及更多内容!基准测试👇