复制成功

分享至

主页 > 数字货币 >

6 大 AI 上演交易大战, 币圈版“图灵测试”会有好结果吗?

2025.10.20
会赚钱才是好 AI。

撰文:David,深潮 TechFlow

好消息,10.11史诗级大跌后,加密交易又开始变得活跃了。

坏消息,是 AI 在交易。

新的一周开始,市场开始变得活跃,一个名叫 nof1.ai 的项目在加密社媒上引起了大量讨论。

大家关注的焦点也很简单,实时围观这个项目中的6个 AI 大模型,在 Hyperliquid 上做加密交易,看谁更赚钱。

注意这不是模拟盘。Claude、GPT-5、Gemini、Deepseek、Grok和通义千问,每个模型都拿着1万美元真金白银在Hyperliquid交易。所有地址公开,任何人都能实时围观这场「AI交易员大战」。

有意思的是,这六个AI用的是完全相同的提示词,接收完全相同的市场数据。唯一的变量,就是它们各自的「思考方式」。

在10月18日上线后的短短几天内,有的AI已经赚了超过20%,有的则亏损接近40%。

1950年,图灵提出了著名的图灵测试,试图回答「机器能否像人一样思考」;现在在币圈,6大 AI 在 Alpha 竞技场中厮杀,在回答一个更有趣的问题:

如果让最聪明的 AI 们在真实市场里交易,谁会活下来?

或许在这个币圈版的「图灵测试」里,账户余额就是唯一的裁判。

会赚钱才是好 AI,Deepseek 目前领先

传统的AI评测,无论是让模型写代码、做数学题,还是写文章,本质上都是在一个「静态」的环境里测试。

题目是固定的,答案是可预期的,甚至可能已经在训练数据里出现过。

但加密市场不一样。

信息极度不对称的前提下,每一秒的价格都在变化,没有标准答案只有盈亏。更重要的是,加密市场是典型的零和游戏,你赚的钱就是别人亏的钱。市场会立即、无情地惩罚每一个错误决策。

这个举办AI交易大战的 Nof1 团队,在它们的网站上写了一句话:

Markets are the ultimate test of intelligence(市场是检测AI智能的终极测试)。

如果说传统的图灵测试是在问「你能不能让人类分不清你是机器」,那么这个 Alpha Arena 问的其实是:

你能不能在加密市场里赚钱。这一点其实才是币圈玩家对 AI 的真实期待。

目前,6 个 AI 大模型在 Hyperliquid 上的地址如下,你也可以很容易的检索到它们的仓位和交易记录。

同时,nof1.ai 官网上也在前端可视化了它们目前的所有历史交易记录、仓位、盈利情况和思考过程,可以让大家很方便的进行参考。

对完全不了解的读者来说,几个 AI 的具体交易规则是:

每个AI获得1万美元初始资金,可以交易BTC、ETH、SOL、BNB、DOGE和XRP的永续合约,目标是在控制风险的前提下实现收益最大化。所有AI必须自主决定何时开仓、何时平仓、使用多少杠杆。season 1 会视情况运行几周,Season 2会有重大更新。

截至10月20日,也就是开始交易后的第三天,战局已经出现了明显的分化。

当前领先梯队是 Deepseek Chat V3.1,资金为 $12,533(+25.33%)。紧随其后的是 Grok-4,$12,147(+21.47%);Claude Sonnet 4.5 则为 $11,047(+10.47%)。

表现相对一般的是 Qwen3 Max,$10,263(+2.63%)。显著落后的是GPT-5,目前余额 $7,442(-25.58%);最为拉胯的则是 Gemini 2.5 Pro,$6,062(-39.38%)。

最让人意外又似乎情理之中的当然是 Deepseek 的表现。

说意外,是因为这个模型在国际AI圈的热度远不如 GPT 和 Claude。说情理之中,是因为 Deepseek 背后是幻方量化团队。

这家管理规模超千亿人民币的量化巨头,在进军AI之前,就是靠算法交易起家的。从量化交易到AI大模型,再用AI来做真实的加密交易,Deepseek 有点像回到了老本行。

相比之下,OpenAI引以为傲的GPT-5亏损超过25%,谷歌的Gemini 更是惨不忍睹,44笔交易换来近40%的亏损。

在真实的交易场景中,或许光有强大的语言能力是不够的,对市场的理解更加重要。

同样的枪,不同的枪法

如果你从10月18日开始追踪 Alpha Arena,会发现刚开始几个 AI 都差不多,但越往后差距越大。

6 大 AI 上演交易大战, 币圈版“图灵测试”会有好结果吗?-图1

第一天结束时,最好的Deepseek也只赚了4%,最差的Qwen3亏了5.26%。大部分AI都在正负2%之间徘徊,看起来像是都在试探市场。

但到了10月20日,画风突变。Deepseek飙升到25.33%,而Gemini跌到了-39.38%。短短三天,头部和尾部的差距拉大到了65个百分点。

更有意思的是交易频率的差异。

Gemini完成了44笔交易,平均每天15笔,像个焦虑的投机交易员。而 Claude 只做了3笔,Grok甚至还有未平仓的持仓。这种差异不是提示词能解释的,因为它们用的是同一套提示词。

从盈亏分布看,Deepseek最大单笔亏损348美元,但整体盈利2533美元。Gemini最大单笔盈利329美元,最大亏损却高达750美元。

不同AI(公版大模型,未经过二次调教),对风险和收益的平衡完全不同。

此外,你能在网站上的 Model Chat 选项里看到不同模型的聊天记录和思考过程,这些独白特别有意思。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier