Try Out Claude 3.7

2025年2月25日，Claude 发布了 3.7-sonnet 版本，Cursor 第一时间更新了模型支持，于是我们就尝试一下这个业界在 Coding 领域最先进的AI成果。

根据官方介绍，Claude 3.7 Sonnet 在 SWE-bench Verified 测试中取得了最先进的成绩，该测试用于评估 AI 模型解决现实世界软件问题的能力。

我尝试了以下提示词，并手绘了一张概念图手稿，希望 Claude 可以结合我的要求和手稿进行生成一个我有在脑海中构思过，来原于生活的关于两个城市互动的卡片应用生成。

服务不稳定

这是我遇到的第一个问题，不知道是 Cursor 的问题，还是 Claude 的压力过大，过程中频繁出现连接超时的情况，去到 Cursor 的官方论坛也确实发现不少人在抱怨，希望在后续版本中能得以改善，但这也给了我一个启示，那就是在这个 AI 赋能开发的时代，服务稳定性也将是一个不得不考虑的风险。

成果

经过几次尝试，虽然没有像有些人吹嘘的那样一次成型，但终于是得到了一个还算满意的成果，离我预期的效果还有些差距，但已经能感觉出来比3.5版本有了不少提升。

根据官方介绍，Claude 3.7 Sonnet 在 TAU-bench 测试中取得了最先进的成绩，这是一个用于测试 AI 代理在复杂的真实世界任务中与用户和工具交互能力的框架。

为了验证Claude 3.7 的 Agent 功能，我们把上面这个静态页面变成一个可运行的动态应用，这是一个更为复杂的任务，完成它需要进好多个步骤。我们试着只给 AI 一个目标，看它是否可以不需要在我干预的情况下完成这个复杂任务。

我们把Chat的模式选择成 “Agent” 并使用了如下的提示词进行输入

看来它给出了一个清晰的思路，那么我们就听它的，让它开始执行

由于需要使用到一些 npm 包，因此它主动输出了一系列命令去在本地安装这些依赖，我要做的只是点击接受。当其中某一步配置出错时，它还会意识到问题并尝试另一种方式去执行，直接到成功为止，我要做的还是点击接受即可。

然后它就开始生成代码了，从左侧的目录中可以看到有大量文件被自动生成出来

在最后它为我生成了一个启动的指令，直接让服务启动了起来，这已经是一个动态的应用，但样式有些错乱（说明在执行过程中，它并未完美地保持原有静态文件的样式，可能我们应该在给它初始指令时把这一条需求给加进去）

又让它进行了一通修改后，已经好多了，不论如何它已经几乎是一个动态的应用了（后续我只要把 Mock 数据换成外部接口就行），更重要的是整个过程它是完全自己一步一步自动完成了，遇到错误也会自己重新切换思路尝试，这就是 Agent 的力量。

看了一下 Token 的使用量，整个过程大概使用了几十个 Cursor 的 Premium Models Fast Request, 大家觉得划不划算呢？