热门
最新
红包
立Flag
投票
同城
我的
发布
「MEDITRON-70B:为大型语言模型扩展医学预训练能力」
地址:https://arxiv.org/abs/2311.16079v1
在这项工作中,我们通过发布MEDITRON来改善对大规模医学LLMs的获取:一套适应医学领域的开源LLMs,包括7B和70B个参数。MEDITRON基于Llama-2,并在来源广泛的医学语料库上进行预训练,包括选定的PubMed文章、摘要和国际认可的医学指南。使用四个主要的医学基准进行评估,在任务特定微调之前和之后,MEDITRON相对于几个最先进的基线模型都取得了显著的性能提升。总体而言,MEDITRON在其参数类别中相对于最佳公开基线模型获得了6%的绝对性能提升,相对于我们从Llama-2进行的最强基线微调模型获得了3%的提升。与闭源LLMs相比,MEDITRON-70B的表现超过了GPT-3.5和Med-PaLM,与GPT-4和Med-PaLM-2相差不超过5%和10%。我们发布了用于策划医学预训练语料库和MEDITRON模型权重的代码,以推动更强大的开源医学LLMs的开发。
AI资讯
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报
下一条:
「在语言建模中学习跳过token」地址:https://arxiv.org/abs/2311.15436v1过参数化的大规模语言模型在上下文少样本学习中具有令人印象深刻的泛化性能。然而,大多数语言模型将相同数量的参数或计算分配给每个token,忽略了输入数据的复杂性或重要性。我们认为,在语言模型预训练中,应该为不同的token分配不同数量的计算,并且可以通过简单的路由机制高效实现。与传统的早停技术不同,其中token只能在早期层次提前退出,我们提出了一种更通用的方法,使用二进制路由器动态跳过任何输入token的层次(或模块)执行。在我们对24个自然语言处理任务的广泛评估中,我们证明了所提出的方法可以显着提高1-shot性能,与其他竞争基准相比,仅额外消耗轻微的推理成本。