热门
最新
红包
立Flag
投票
同城
我的
发布
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
CT-LLM是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。
他们还弄了了新的中文对齐基准测试:CHC-Bench,测试LLMs对中文文化、历史、传统、人文、地理和STEM的深入理解。
测试结果与一些同参数模型性能相当。
他们开放了整个数据过滤过程、训练动态、训练和评估数据以及模型中间检查点等数据。
主要功能特点
1.中文处理能力强大:CT-LLM专注于提高对中文语言的理解和生成能力,利用大规模的中文数据预训练,实现对中文文本的高效处理。
2.跨语言适应性:虽然重点优化了中文处理,CT-LLM也展示了对英文和编程代码的良好处理能力,体现了模型的多语言适应性。
3.高性能的中文任务表现:在中文语言任务的基准测试CHC-Bench 上,CT-LLM展现了出色的性能,证明了其在理解和应用中文方面的高效能力。
4.从零开始的预训练:不同于以英文为主的预训练方法,CT-LLM从头开始,主要使用中文数据进行预训练,这让模型在理解中文方面有了质的飞跃。
5.细致的数据处理::通过精细的数据处理过程,创建了专门的中文预训练语料库MAP-CC,确保了数据的高质量和适用性。
6.开放资源:研究团队开源了模型训练的完整过程和所用的数据处理细节,包括MAP-CC语料库和CHC-Bench基准测试,促进了学术界和工业界的进一步研究和应用。
模型作者:@GeZhang86038849
论文地址:https://arxiv.org/pdf/2404.04167.pdf
AI资讯
CSDN App 扫码分享
评论
点赞
打赏
- 复制链接
- 举报
下一条:
5000粉丝达成