2025年2月25日,Claude 发布了 3.7-sonnet 版本,Cursor 第一时间更新了模型支持,于是我们就尝试一下这个业界在 Coding 领域最先进的AI成果。
Software Engineering
根据官方介绍,Claude 3.7 Sonnet 在 SWE-bench Verified 测试中取得了最先进的成绩,该测试用于评估 AI 模型解决现实世界软件问题的能力。

我尝试了以下提示词,并手绘了一张概念图手稿,希望 Claude 可以结合我的要求和手稿进行生成一个我有在脑海中构思过,来原于生活的关于两个城市互动的卡片应用生成。

服务不稳定
这是我遇到的第一个问题,不知道是 Cursor 的问题,还是 Claude 的压力过大,过程中频繁出现连接超时的情况,去到 Cursor 的官方论坛也确实发现不少人在抱怨,希望在后续版本中能得以改善,但这也给了我一个启示,那就是在这个 AI 赋能开发的时代,服务稳定性也将是一个不得不考虑的风险。
成果

经过几次尝试,虽然没有像有些人吹嘘的那样一次成型,但终于是得到了一个还算满意的成果,离我预期的效果还有些差距,但已经能感觉出来比3.5版本有了不少提升。

Agentic
根据官方介绍,Claude 3.7 Sonnet 在 TAU-bench 测试中取得了最先进的成绩,这是一个用于测试 AI 代理在复杂的真实世界任务中与用户和工具交互能力的框架。

为了验证Claude 3.7 的 Agent 功能,我们把上面这个静态页面变成一个可运行的动态应用,这是一个更为复杂的任务,完成它需要进好多个步骤。 我们试着只给 AI 一个目标,看它是否可以不需要在我干预的情况下完成这个复杂任务。

我们把Chat的模式选择成 “Agent” 并使用了如下的提示词进行输入

看来它给出了一个清晰的思路,那么我们就听它的,让它开始执行

由于需要使用到一些 npm 包,因此它主动输出了一系列命令去在本地安装这些依赖,我要做的只是点击接受。 当其中某一步配置出错时,它还会意识到问题并尝试另一种方式去执行,直接到成功为止,我要做的还是点击接受即可。

然后它就开始生成代码了,从左侧的目录中可以看到有大量文件被自动生成出来

在最后它为我生成了一个启动的指令,直接让服务启动了起来,这已经是一个动态的应用,但样式有些错乱(说明在执行过程中,它并未完美地保持原有静态文件的样式,可能我们应该在给它初始指令时把这一条需求给加进去)

又让它进行了一通修改后,已经好多了,不论如何它已经几乎是一个动态的应用了(后续我只要把 Mock 数据换成外部接口就行),更重要的是整个过程它是完全自己一步一步自动完成了,遇到错误也会自己重新切换思路尝试,这就是 Agent 的力量。
看了一下 Token 的使用量,整个过程大概使用了几十个 Cursor 的 Premium Models Fast Request, 大家觉得划不划算呢?