AutoDev Planner:推理模型规划编码任务,DeepSeek R1 延伸 Vibe Coding 可能性
发布时间:2025-04-23 编辑:游乐网
最近,我们在 autodev 上推出了一个新的功能:autodev planner,这是一个基于 deepseek r1 推理模型构建的编码任务规划工具。当然,除了 deepseek r1 之外,你也可以选择使用其他模型。
在 AutoDev Planner 中,AI 将根据你的输入和收集的上下文,生成一个用于后续编码的任务计划。这个计划随后可以由其他更适合指令遵循的模型,如 DeepSeek V3,来生成代码、编辑代码等。
引子 1:AI 编码任务的进度显性化在设计 AI 编码 Agent 时,一个有趣的点是用户如何感知编码任务的进度,即用户是否应该显性地看到进度,还是隐性地感知进度。
Copilot Workspace:早期的 AI 显性任务去年,我尝试使用 GitHub Copilot Workspace 来帮助我进行前端开发工作。我尝试了几十个小的需求点,即使只是简单的 i18n 翻译,它的表现并没有达到我的预期,可能是因为受限于 GPT-4 的能力。Copilot Workspace 的思路确实非常不错:
Brainstorm。对用户的 Task 进行头脑风暴(Brainstorm)Task。将 Task 转换为一个可编辑的 PlanExecute。执行 Plan,生成代码 Pull RequestPR。将变更以 Pull Request 的形式提交你可以显性地看到 AI 思考、编辑、执行的过程,当然它没有动态地调整计划,而是一次性生成(基于 2024 年的认知)。
Cursor:AI 隐性任务下的自动化重试回到最近一年多特别火热的 AI 编码工具 Cursor,它构建了非常好的 AI Editor 体验,用户提出一个问题。它会:
自动收集 IDE 中的上下文对代码进行编辑在代码出现 Lint 问题时,自动修复;在代码出现错误时,自动重试……你可以通过文字大致了解 AI 做了什么,但大量的重试让你几乎感觉不到过程的存在。
JetBrains Junie:动态的 AI 任务规划JetBrains Junie 是最新的 AI 编码工具之一,它构建了一个动态的 AI 任务规划体验。用户提出一个问题。它会:
结合分析问题,理解用户意图,生成一个任务计划按步骤执行每个任务,并根据需求再获取上下文在任务执行过程中,动态调整计划,以适应用户需求在过程中,你可以看到它的计划在不断调整和迭代,直到最终完成用户的 issue 或者不能完成。
引子 2:推理模型规划任务的想象空间众所周知,2024 年底的推理模型或者说“可深度思考模型”,带来了更多的想象空间与可能性。我们在 AutoDev Sketch(类似 Cursor Composer 的自动编码 Agent)中进行了一系列实验,发现与其他国内模型相比,DeepSeek R1 在相同上下文下,更容易生成更好的工具调用(基于 DevIns 指令)。与 DeepSeek V3 相比,DeepSeek R1 调用了更多的工具。
理想情况下,我们应该用 R1 进行首轮工具对话和第二轮的任务规划,但 R1 的速度确实太慢了,从时间上来看相当于多调用了一轮 API。然而,R1 的优势依然显而易见,相信大家也有相似的感受和体验。
当然,我们没有进行大规模的实验,因为构建非常好的测试数据集是非常耗时的。
AutoDev Planner:Agent 编程的任务规划基于上述的思考,我们构建了新的拟人功能:AutoDev Planner,以增强 Sketch 的任务规划能力。AutoDev Planner 的核心功能是:
可见的任务规划。通过 Pin 及 Planner ToolWindow 可以看到当前的任务进度动态的任务规划。AI 会根据上下文动态调整任务规划(取决于模型,有时候并不会实时更新)手动执行未完成的任务。用户可以手动执行未完成的任务,以便更好地调整任务规划规划 Review。用户可以手动调用模型来 Review 任务规划(为什么不是自动的,因为 token 对普通用户来说是非常昂贵的)总体思路还是非常简单的,就是调用模型生成计划,然后展示这个交互。
关键点 1:基于推理模型的任务规划由于推理模型与普通模型在理解 prompt 和遵循指令的能力上存在差异,我们原先用于 V3 的 prompt 并不适用于 R1。因此,我们需要重新设计 prompt 以适应 R1 的能力。
简单来说,就是在完成了初步的上下文收集之后,而且用户配置了推理模型之后,我们会调用 R1 来生成一个任务计划。这个任务计划会包含:任务、步骤及其相关的进度情况,随后我们会将这个计划展示给用户。
关键点 2:任务规划的可交互性与其他 AI 编码工具不同,我们认为任务规划是一个非常重要的交互,因此我们提供了一些交互功能:
任务的状态显示:完成的任务将会被标记为完成未完成的任务可以手动执行Pin。用户可以将任务 Pin 到 IDE 的某个位置,以便更好地关注文件交互。考虑到模型的能力,当文件出现在任务中,可以点击文件名打开文件编辑。当用户觉得任务规划不合适时,可以暂停并及时调整任务。review。用户可以手动调用模型来 Review 任务规划通过可视化任务来构建更好的 AI 编码体验,这是 AutoDev Planner 的初衷。
总结AutoDev Planner 是一个基于推理模型的任务规划功能,它可以帮助用户更好地理解 AI 编码任务的进度,以及更好地调整任务规划。当然,它还有很多不足之处,欢迎在 GitHub 上提出 issue 和 PR。
相关阅读
MORE
+- DeepSeek之后,10万一个的Manus到底是什么? 04-24 清华AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1 04-23
- DeepSeek 开源 FlashMLA,计算性能翻倍,踩爆英伟达 “牙膏” 04-23 腾讯最新开源Hunyuan-Large 389B,相较于Qwen和DeepSeek表现如何? 04-23
- 主打温馨冒险新作《Good Boy》公开 狗狗化身太空探险家! 04-23 当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎? 04-23
- 年末巨献!DeepSeek推出多模态模型Janus-Pro,统一理解与生成 04-23 github中文官网网页 github官网进入中文版 04-23
- github国内镜像地址 github国内版镜像入口 04-23 音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno 04-23
- github手机网页版入口在哪里 github手机版入口中文版 04-23 速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算! 04-23
- 手机github官网入口 github手机官网进入 04-23 AutoDev Planner:推理模型规划编码任务,DeepSeek R1 延伸 Vibe Coding 可能性 04-23
- github中文版官网首页 github官网首页登录入口 04-23 DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈? 04-23
- Github官网入口登录 github网站登录入口 04-23 超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen 04-23