热门
最新
红包
立Flag
投票
同城
我的
发布
Sailor:一套为东南亚国家量身定制的语言模型
由于东南亚(SEA)地区语言多种多样,大多数现有的模型无法满足该地区需求。
Sailor基于Qwen 1.5训练开发,覆盖7种语言(包括印尼语、泰语、越南语、马来语、老挝语、英语和中文)
有4种不同大小的版本(0.5B、1.8B、4B和7B),支持不同的需求。
1、多语言支持:专注于东南亚语言,包括印尼语、泰语、越南语、马来语和老挝语,以及英语和中文,覆盖SEA地区的多样化语言环境。
2、不同模型大小:提供从0.5B到7B不同大小的模型版本,以满足从轻量级到高性能的不同计算和应用需求。
3、高性能:在SEA语言的问答、常识推理、阅读理解等任务上表现出色,通过基准测试展示了其在多种任务上的强大性能。
4、开放使用:模型对研究和商业用途开放,无限制使用,但需遵守Qwen 1.5许可证。
项目: https://sailorllm.github.io
模型: https://hf.co/collections/sail/sailor-language-models-65e19a749f978976f1959825
GitHub: https://github.com/sail-sg/sailor-llm
AI资讯
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报
下一条:
OLMo:真正的完全开源大模型OLMo(Open Language Model)与其他开源语言模型的不同之处在于其“完全开放的框架”。OLMo不仅100%开放了其完整的预训练数据——3万亿token的Dolma数据集还提供了其训练代码、模型权重、推理代码、训练指标和完整日志等全部原始数据。真正做到完全开源,100%开源!这种程度的开放使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。OLMo框架包括:1、完整的预训练数据:OLMo项目提供了完整的预训练数据——AI2的Dolma数据集,这是一个包含三万亿token的开放语料库,用于语言模型的预训练。2、训练代码和模型权重:OLMo框架提供了四种不同变体模型的完整模型权重,每种模型都至少训练到2万亿令牌。除了数据,OLMo还提供了训练代码、模型权重、推理代码、训练指标和日志。3、评估工具的提供:项目包含了开发过程中使用的评估套件,以及500多个模型的检查点,每1000步训练过程中的每一个都有,还有评估代码,这些都属于Catwalk项目的一部分。模型参数和架构OLMo提供了不同规模的模型变体,具体包括:- 1B(10亿参数)模型:具有16层,每层2048个隐藏单元,16个注意力头,训练了至少2万亿个令牌。- 7B(70亿参数)模型:包含32层,每层有4086个隐藏单元,32个注意力头,训练了约2.46万亿个令牌。- 65B(650亿参数)模型:(文章撰写时仍在训练中),计划包含80层,每层8192个隐藏单元,64个注意力头。这些模型采用了基于Vaswani等(2017年)的解码器仅Transformer架构,并进行了多项改进,例如:- 不使用偏置项,以提高训练稳定性。- 采用非参数层归一化。- 使用SwiGLU激活函数代替ReLU。- 引入旋转位置嵌入(RoPE)。- 使用修改版的BPE-based标记器,以减少个人可识别信息(PII)。项目地址:https://allenai.org/olmo模型下载:https://huggingface.co/allenai/OLMo-7B论文:https://arxiv.org/abs/2402.00838GitHub:https://github.com/allenai/olmo