一个业余的机器学习研究者在Reddit上分享了他自己构建的一款开源的图像标注模型:JoyTag
该模型对训练的内容和标签没有任何过滤和审查。
给它一张图片,它会输出5000多个不同标签的预测。
可以为SD模型微调提供标注图像,使得微调后的模型能够生成更精确、多样化的图像内容。
由于没有内容审查和过滤 ,JoyTag在处理多样化和包容性方面表现更好,尤其是对性正面(性开放、性积极)内容的处理。
这位研究者花费了一年的时间从零开始构建这个基于ViT-B/16,输入尺寸为448x448x3,拥有9100万参数的机器视觉模型。
这个模型经过660M样本的训练,能够对超过5000个独特标签进行多标签分类。
主要功能:
给它一张图片,它能够自动识别并输出超过5000个不同标签的预测结果。意味着它能够同时为一张图像分配多个标签,而这些标签之间是相互独立的。这与只能识别单一类别的图像识别模型不同。
多标签的特性使得JoyTag模型可以自动为图像“打标签”,这对于多种应用非常有用,尤其是在训练Diffusion模型时。
广泛的应用场景:适用于从手绘到摄影等各种类型的图像。
支持多标签分类:能够独立预测超过5000个不同标签,与单一类别预测的视觉模型不同,为图像自动“标签化”提供了可能。
优化Diffusion模型训练:JoyTag模型能够为缺少文本描述的图像自动生成标签,从而辅助这类模型的训练,使得生成的图像内容更加丰富和多样化。对于缺乏文本配对的图像,JoyTag的自动标注功能特别有用,有助于改进Diffusion模型的训练。
Reddit:https://old.reddit.com/r/MachineLearning/comments/18nb15l/p_i_built_an_open_sota_image_tagging_model_to_do/…
- 复制链接
- 举报