Cognition AI推出了Devin。
Devin是SWE-Bench编程基准测试上的最新技术水平,已成功通过了来自领先AI公司的实际工程面试,并且甚至在Upwork上完成了真实的工作任务。Devin是一个自主代理,能够使用自己的命令行界面、代码编辑器和网络浏览器来解决工程任务。在SWE-Bench基准测试上评估时,该测试要求AI解决在现实世界开源项目中发现的GitHub问题,Devin未经协助即正确解决了13.86%的问题,远远超过了之前最先进模型在未经协助时1.96%和经协助时4.80%的性能。