今天小小的突破了一把,研究MetaGPT网页仿照生成的过程,过程很简单,就是网页截图->多模态解读->HTML、CSS、JS生成。
但MetaGPT提供的插件只有访问gpt4v API 的智能体调用工具,这个其实也可以理解,因为多模态解读+通用生成为一体的大模型,目前就gpt4v和Claude3.5牛逼,因此单一模型调用肯定这样简单!
但我希望它能适配本地化大模型和国产大模型,这肯定有优势(首先就是省钱,方便)。因此自己魔改了一下这个工具插件。修改了插件很多地方,提示词,编码,调用方式,混和模型调用等等...。
核心机制上是让Xinference+CogVLM2这对本地多模态来解读网页截图形成UI设计解读,然后再用百炼Qwen2.5-72B根据解读的结果来生成仿照的页面,这种通过智能体实现混合专家模型的最终效果真的是有模有样。
前面两张图是模仿Google和Pyroch官网所生成的页面,CogVLM2解读了后面两张官网截图。
这次妥妥的全国产化大模型技术与服务搞定!