宣布自己打造出了世界上最强的 ai agents 产品。在 swe-bench 评估中获得了 30.08% 的分数,在 swe-lite 中获得了 50.67%。可以完美模拟人类工程师的认知过程、和工作流程。
genie 的设计目标是使其具有 “自主性”,能够根据所见内容逻辑行动。为了实现这一点,数据集需要能够代表这种逻辑行动,包括在未知代码库中找到执行任务所需的先决信息。
genie 的推理特性包括规划、检索、编写和运行代码四个主要过程,通过模拟人类的行为而非基础语言模型的行为,从而实现了更高的性能。
genie 的训练中还采用了自我改进的方法,通过使用模型自身生成的数据来提高性能,这种方法使得模型在面对错误时的反应能力得到了显著提升。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun299414.html