ChineseTinyLLM：从头开始训练专注于中文的大语言-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

Chinese Tiny LLM：从头开始训练专注于中文的大语言模型

CT-LLM是针对中文设计的首个大语言模型，拥有20亿参数，并在12000亿中文语料库上进行预训练。

他们还弄了了新的中文对齐基准测试：CHC-Bench，测试LLMs对中文文化、历史、传统、人文、地理和STEM的深入理解。

测试结果与一些同参数模型性能相当。

他们开放了整个数据过滤过程、训练动态、训练和评估数据以及模型中间检查点等数据。

主要功能特点

1.中文处理能力强大：CT-LLM专注于提高对中文语言的理解和生成能力，利用大规模的中文数据预训练，实现对中文文本的高效处理。

2.跨语言适应性：虽然重点优化了中文处理，CT-LLM也展示了对英文和编程代码的良好处理能力，体现了模型的多语言适应性。

3.高性能的中文任务表现：在中文语言任务的基准测试CHC-Bench 上，CT-LLM展现了出色的性能，证明了其在理解和应用中文方面的高效能力。

4.从零开始的预训练：不同于以英文为主的预训练方法，CT-LLM从头开始，主要使用中文数据进行预训练，这让模型在理解中文方面有了质的飞跃。

5.细致的数据处理:：通过精细的数据处理过程，创建了专门的中文预训练语料库MAP-CC，确保了数据的高质量和适用性。

6.开放资源：研究团队开源了模型训练的完整过程和所用的数据处理细节，包括MAP-CC语料库和CHC-Bench基准测试，促进了学术界和工业界的进一步研究和应用。

模型作者：@GeZhang86038849
论文地址：https://arxiv.org/pdf/2404.04167.pdf

AI资讯

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

5000粉丝达成