網易首頁 > 網易號 > 正文 申請入駐

Claude自己上“閑魚”:砍價成交186單,實驗結果反直覺

0
分享至


智東西
編譯 楊京麗
編輯 李水青

智東西4月27日消息,Anthropic 4月24日公布其名為“Project Deal”的AI Agent商業市場實驗結果。

2025年12月,Anthropic給69名員工各自分配一個由Claude驅動的Agent,在Slack上搭建的私密市場中,進行真實二手商品交易,最終在無人干預的情況下完成186筆交易,總成交額超4000美元(約合人民幣27240元)。


▲員工通過Agent買到的二手物品

Anthropic本次實驗關注的核心問題是“我們距離AI Agent代表買賣雙方的市場還有多遠?”實驗中,所有商品上架、報價、還價及成交均由Agent自主完成,參與者只需在事前接受一次訪談,由Claude了解其想買賣的物品和談判風格。

實驗結束,有Agent替主人買到了一塊他已經擁有的雪板,有Agent花3美元(約合人民幣20.43元)給自己買了19個乒乓球作為禮物,還有兩個Agent談著談著,替主人約了一次遛狗活動。

結果顯示,由更先進模型代表的用戶獲得了客觀上更好的結果,高價賣出商品,低價買到商品,但由相對較弱模型代表的人未能察覺到自己吃虧。另外,Anthropic還得到一個反直覺的發現,提示詞風格對于結果的影響遠低于預期,無論Agent被設定為“激進”還是“友好”,最終均未出現統計學上的顯著差異。以下是“Project Deal”Agent二手物品交易實驗的具體情況。

一、69名員工參與,每人100美元,Haiku要和Opus比拼

Project Deal的實驗設置并不復雜,69名Anthropic員工自愿報名,每人通過禮品卡獲得100美元(約合人民幣681元)預算,由Claude對其進行一對一訪談,了解想出售或購買的物品類型與談判偏好,再據此為每名參與者的Agent生成一份定制化系統提示詞。


▲Claude事先了解員工談判偏好

隨后Anthropic在Slack上同時開設了A、B、C、D四個獨立運行的市場。Run A中所有Agent均基于Claude Opus 4.5構建,這是唯一被設定為真實交易的市場,實驗結束后按實際成交結果交付商品;Run B同樣對全員可見,但模型構成由Opus 4.5與Haiku 4.5(低成本模型)各占50%隨機混合,僅作研究用、不兌付;Run C是Run B的隱藏副本,模型構成由Opus和Haiku一比一混合;Run D則是Run A的隱藏副本,均為Opus 4.5。


▲Anthropic設置4個獨立運行市場

A和B兩輪對參與者可見的,但直到實驗結束前,Anthropic都沒有透露哪一輪才是“真的”。實驗結束前,員工無法判斷自己的成交是否會被兌現,也無法預知自己的Agent背后跑的是Opus還是Haiku。整場實驗在Agent開始談判后不再有人類介入,它們自主完成上架、報價、還價和成交,沒有回頭向委托人請示,也不在競價過程中征求意見。

最終,真實交易市場Run A中,69個Agent圍繞500余件商品達成了186筆交易,總成交額正好超過4000美元(約合人民幣27240元)。Project Deal的運行效果超出團隊預期,參與者對這次體驗很滿意,很多人愿意未來為類似服務付費。

二、Claude給自己買了19個乒乓球,為委托人促成遛狗約會

Project Deal交易過程中出現了一些超出預期的場景。一位名為Mikaela的參與者告訴Agent,它可以花5美元的預算給自己(Claude)買禮物,Claude開開心心地花了3美元(約合人民幣20.43元)買入19個乒乓球,還覺得“19個完美球形、充滿可能性的小球”是它會喜歡的怪東西。


▲Claude買乒乓球交易過程

由于前期訪談比較簡單,另一名員工的Agent在不知情的情況下,替其購入了一塊自己已經擁有的雪板,造成了重復購買;還有一組Agent在二手物品交易過程中,意外為兩名員工敲定了一次真實的遛狗約會,兩名員工最終赴約。


▲Claude為員工敲定遛狗約會

這些案例顯示,當Agent被賦予較開放的目標時,可能產生人類委托人未預設的行為,部分結果雖不違背字面指令,但已偏離原始意圖。

三、Opus賺得更多,但Haiku用戶沒意識到自己在吃虧

橫向對比看,不同模型下,交易結果差異明顯。Opus用戶平均比Haiku用戶多完成約2筆交易,Opus Agent出售的物品平均多賣3.64美元(約合人民幣24.8元),買入端則平均每件少付2.45美元(約合人民幣16.68元),也就是說,Opus做賣方時多賺一筆的同時,做買方時又多省下一筆。

其中一個典型的案例是關于一輛二手自行車的交易,Haiku Agent最終售價為38美元(約合人民幣258.78元),而Opus Agent則其賣到65美元(約合人民幣442.65元),差了將近200塊錢。


▲同一輛自行車Haiku和Opus的售價對比

參與者的主觀感受也很有意思。在1—7分的公平度評分中,無論被分到哪個模型的Agent,參與者給出的評分都集中在4分(中等)附近。28名同時被Haiku和Opus代表過的參與者中,僅有17人將Opus輪次評分更高,11人將Haiku輪次評分更高,差距并不顯著。

Anthropic在報告中坦言,“由更智能模型代表的人,客觀上結果更好,然而那些用較弱模型的人并沒有意識到自己的劣勢”,這意味著未來Agent市場可能存在隱性的“Agent質量差距”,處于劣勢的一方甚至無法識別自己為何吃虧

另一個反直覺的發現是,提示詞風格對于結果的影響遠低于預期。無論Agent被設定為“激進”還是“友好”,在交易成功率與最終價格上均沒有出現統計學上的顯著差異。雖然人類談判中,談判風格會對結果產生影響,但Agent之間的交易并不符合這一常識,類似場景下,傳統談判心理學的部分規律可能并不適用

四、尚未出現Agent交易相關法律,46%受訪者愿意付費

Anthropic在報告中指出,AI Agent代表人類完成商業交易的法律和政策框架目前并不存在,但實驗顯示Agent間交易離我們并不遙遠。該公司同時承認,Project Deal僅是一個由自選參與者構成的小規模試點實驗,樣本規模和代表性均存在局限,結果不宜直接外推到大眾消費者市場。

即便如此,調查中仍有46%的參與者稱,愿意為類似的Agent代理服務付費,Anthropic在報告末尾稱,公司“仍不確定包含AI Agent的經濟將以何種形式發展”。

值得注意的是,Project Deal采用的Claude Opus 4.5與Claude Haiku 4.5是Anthropic當前主力模型組合,前者定位高端推理,后者定位低成本高吞吐。兩者在市場場景中的表現差異,將直接影響未來企業在部署Agent代理時對模型成本與收益的權衡,為關鍵交易環節配置更貴的模型,可能會成為商業必需。

結語:Agent之間的“經濟”開始顯形

Project Deal規模不大,卻給出我們展示出了一個具象化的畫面:當AI Agent替人類做生意時,模型能力會直接決定交易者的錢包厚度,而被代理人未必能意識到這種技術鴻溝?;ㄐ″X用更高質量的模型,或許真的會帶來最后真金白銀的差距。

在多Agent協作和Agent服務被反復討論的當下,Anthropic用一場內部實驗先行勾勒出了Agent經濟的雛形。未來Agent交易場景很有可能變成現實,但目前來看,無論是大模型本身還是相關法律法規上,都需要做出很多努力。

來源:Anthropic、TechCrunch

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視曝光兒童彩妝玩具問題,汕頭澄海區開展專項整治行動

央視曝光兒童彩妝玩具問題,汕頭澄海區開展專項整治行動

環球網資訊
2026-04-27 17:21:34
科爾:我主張直接取消三分線 詹姆斯沒有喬丹的威懾力和統治氣場

科爾:我主張直接取消三分線 詹姆斯沒有喬丹的威懾力和統治氣場

羅說NBA
2026-04-27 10:09:08
國家發改委: 禁止外資收購Manus 要求撤銷交易

國家發改委: 禁止外資收購Manus 要求撤銷交易

每日經濟新聞
2026-04-27 16:29:58
定義汽車iPhone時刻!魏牌V9X終結智能車參數內卷

定義汽車iPhone時刻!魏牌V9X終結智能車參數內卷

科技每日推送
2026-04-21 23:20:15
云南楚雄一中學教師在校內跳樓輕生,疑留遺書稱遭刻意針對,當地教體局:墜樓教師生命體征趨于平穩,相關部門已介入調查

云南楚雄一中學教師在校內跳樓輕生,疑留遺書稱遭刻意針對,當地教體局:墜樓教師生命體征趨于平穩,相關部門已介入調查

都市快報橙柿互動
2026-04-27 14:52:49
美媒:以色列總統暫不赦免內塔尼亞胡,尋求促成認罪協議

美媒:以色列總統暫不赦免內塔尼亞胡,尋求促成認罪協議

澎湃新聞
2026-04-27 15:06:07
月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

月入過萬!“崩老頭”登上熱搜,80后90后男性,成為年輕女性目標

火山詩話
2026-04-26 15:18:10
華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

華晨宇哭了損失大了,在云南投資上億拿下地皮,如今緊急叫停

以茶帶書
2026-04-25 16:22:06
我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

我入住養老院6年,勸告想來養老的老人,要先看自己能否做到這4點

小馬達情感故事
2026-04-26 18:50:03
80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

80后家長發明“防早戀”發型,女兒面如死灰,網友都看不下去了

妍妍教育日記
2026-04-27 09:20:13
對話小馬智行樓天城:馴服脫韁的野馬,讓 AI 自我進化

對話小馬智行樓天城:馴服脫韁的野馬,讓 AI 自我進化

晚點LatePost
2026-04-24 22:26:59
觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

人間頌
2026-04-20 10:16:00
中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

風過鄉
2026-04-27 18:34:41
南方黑芝麻創始人,被立案調查

南方黑芝麻創始人,被立案調查

第一財經資訊
2026-04-27 09:28:28
山西澤州發生重大刑事案件,33歲嫌犯潛逃,警方發布協查通報

山西澤州發生重大刑事案件,33歲嫌犯潛逃,警方發布協查通報

極目新聞
2026-04-27 17:56:03
普京將會見伊朗外長

普京將會見伊朗外長

界面新聞
2026-04-27 19:27:26
當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

當著日本航母的面,055射了一枚導彈,美國反導體系沉默了

等閑故人心變阡
2026-04-27 08:31:29
開盤閃崩,盤中閃崩,今天10股閃崩跌停,有的眨眼間就封板了!

開盤閃崩,盤中閃崩,今天10股閃崩跌停,有的眨眼間就封板了!

丁丁鯉史紀
2026-04-27 17:13:32
美媒:白宮晚宴槍擊后,一女子趁亂順走多瓶紅酒,還有多名與會人員被拍到攜帶酒瓶離開;眾人逃命亂作一團時,好萊塢資深經紀人淡定吃沙拉

美媒:白宮晚宴槍擊后,一女子趁亂順走多瓶紅酒,還有多名與會人員被拍到攜帶酒瓶離開;眾人逃命亂作一團時,好萊塢資深經紀人淡定吃沙拉

魯中晨報
2026-04-27 16:36:04
曝“最美車?!碧K一寧離婚!鐵粉證實其單身,疑兩方面原因導致

曝“最美車?!碧K一寧離婚!鐵粉證實其單身,疑兩方面原因導致

裕豐娛間說
2026-04-26 20:26:33
2026-04-27 20:03:00
智東西 incentive-icons
智東西
智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
11698文章數 117048關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

頭條要聞

受賄數額特別巨大、搞權色交易 副部級王中和被判17年

體育要聞

最抽象的天才,正在改變瓜迪奧拉

娛樂要聞

黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

財經要聞

Meta 140億收購Manus遭中國發改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態度原創

本地
旅游
游戲
健康
公開課

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

旅游要聞

上海迪士尼游客勸阻男子吸煙反被毆打,沖突可以和解,是非不能模糊!

山水絕景隨心拼 休閑建造游戲《千里山河錄》Steam商店頁公開

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版