多大的数据集才会使用transformer算法?这取决于您的任务和要求。通常情况下,使用 Transformer 算法需要更大的数据集和更多的计算资源来进行训练。对于一些 NLP 任务,例如文本分类或者序列标注等任务,相对较小的数据集可能已经足够使用 Transformer 算法进行训练。而对于一些需要更深层次理解语言的任务,例如机器翻译或者问答系统等,可能需要更大的数据集和更强的计算能力才能使用 Transformer 算法获得最佳性能。因此,需要根据具体的任务和数据集规模进行评估和选择。