热门
最新
红包
立Flag
投票
同城
我的
发布
「YUAN 2.0: 具有基于本地过滤注意力的大语言模型」
地址:https://arxiv.org/abs/2311.15786v1
本文介绍了基于定位过滤的注意力(Localized Filtering-based Attention,LFA)方法,将自然语言的局部依赖知识纳入注意力机制中。基于LFA,我们开发和发布了Yuan 2.0的大语言模型,参数范围从21亿到1026亿。提出了一种数据过滤和生成方法,用于构建高质量的预训练和微调数据集。我们提出了一种分布式训练方法,包括非均匀流水线并行、数据并行和优化器并行,极大地减少了节点内通信带宽需求,并在大规模分布式训练中取得了良好的性能。与现有模型相比,Yuan 2.0模型在代码生成、数学问题求解和聊天方面显示出令人印象深刻的能力。包括模型权重和源代码的最新版本Yuan 2.0可以在Github上获取。
大语言模型(LLMs)已经在许多任务中取得了革命性的突破,其中包括文本分类。然而,现有的将预训练的LLMs应用于文本分类的方法主要依赖于仅使用隐藏状态的最后一层的单个标记输出。结果,它们在效率、任务特定性和可解释性方面存在限制。在我们的工作中,我们提出了一种方法,通过在所有激活和隐藏状态上使用多个汇集策略,利用所有内部表示。我们的新颖的轻量级策略Sparsify-then-Classify(STC)首先逐层稀疏化任务特定特征,然后在各层之间进行聚合以进行文本分类。STC可以作为一个无缝的即插即用模块应用于现有的LLMs之上。我们在全面的模型和数据集上进行的实验表明,STC不仅持续改善了预训练和微调模型的分类性能,而且在培训和推断方面更高效,并且更具内在可解释性。
AI资讯
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报
下一条:
「MEDITRON-70B:为大型语言模型扩展医学预训练能力」地址:https://arxiv.org/abs/2311.16079v1 在这项工作中,我们通过发布MEDITRON来改善对大规模医学LLMs的获取:一套适应医学领域的开源LLMs,包括7B和70B个参数。MEDITRON基于Llama-2,并在来源广泛的医学语料库上进行预训练,包括选定的PubMed文章、摘要和国际认可的医学指南。使用四个主要的医学基准进行评估,在任务特定微调之前和之后,MEDITRON相对于几个最先进的基线模型都取得了显著的性能提升。总体而言,MEDITRON在其参数类别中相对于最佳公开基线模型获得了6%的绝对性能提升,相对于我们从Llama-2进行的最强基线微调模型获得了3%的提升。与闭源LLMs相比,MEDITRON-70B的表现超过了GPT-3.5和Med-PaLM,与GPT-4和Med-PaLM-2相差不超过5%和10%。我们发布了用于策划医学预训练语料库和MEDITRON模型权重的代码,以推动更强大的开源医学LLMs的开发。