Gemini 3.0 Pro:是最为全面和稳健的,是我在定理证明时用到的主要工具。但是这个工具太有自己的主见了,经常把问题复杂化,而且会陷在某个特定细节中出不来。当然,可能其它工具也有类似的问题,只是我用的比较少,没有发现。
Kimi 2.5:这个工具的能力挺强的,对某些引理的证明可以直接输出完全正确的证明。但是有的时候会犯一些非常微妙的语义错误。它曾给出一个引理,我用了一天时间证完后,才发现这个引理的方向是反的。
DeepSeek V3:这个工具的逻辑推理能力是最强的。曾有一个引理,我问了所有AI,只有DeepSeek给出了内容正确且不超时的证明。为什么说是内容正确呢,因为DeepSeek的原始表述存在语法结构错误,最后在Gemini的帮助下,才完成证明。但是我现在用的网页版还是128K的上下文,无法支持工程级别的定理证明项目,希望能尽早用到百万级别上下文的新版本。
GLM 4.7: 逻辑推理能力一般。最严重的问题是不提供持久性会话,不适合工程级别的项目。
Qwen 3-Max: 复杂的逻辑推理能力欠缺,回答问题是答非所问,也可能是我的提示词用的不好吧。