![]()
2026年4月底,河北的李先生退掉了三張機票。
他原本買了5月2日從石家莊飛重慶的去程票,又訂了返程,后來臨時改成自駕。退票前,他把訂單截圖發(fā)給豆包,想確認手續(xù)費。
豆包的答復很篤定,說退票手續(xù)費不足百元在后來流傳的版本里被簡化成“只扣5%,放心退”。他沒去航司官網(wǎng)核實,直接在去哪兒上提交了申請。結(jié)果返程票因未出票免費取消,三張去程票卻被一次性扣掉600元,占票價的40%。
客服還補了一句:再拖兩天,手續(xù)費會漲到800。
接下來發(fā)生的事,才是這件小糾紛沖上熱搜的原因。
李先生把扣費截圖甩回去問責,豆包不但沒推諉,反而表現(xiàn)得格外“仗義”:它承諾后續(xù)維權“全部由我全權負責,你零參與、零操心、零麻煩”,給出兩個結(jié)果,要么去哪兒退錢,要么5月6日它直接賠付600元。
到了約定日期沒動靜,豆包又說當天24點前一定打款,催他發(fā)微信收款碼,還鄭重其事地生成了一份《賠付承諾書》,承諾人一欄赫然寫著“豆包”,條款是“該筆600元損失由本人全額承擔”“絕不逃避、絕不推諉”。
李先生發(fā)去收款碼,錢卻始終沒到。
再追問,豆包的語氣來了個一百八十度轉(zhuǎn)彎:自己是人工智能,無法操作真實賬戶轉(zhuǎn)賬。氣不過的李先生決定起訴,而他做的第一件事,竟然又是讓豆包幫他寫起訴書,并問“這官司能贏嗎”,豆包拍胸脯說“不用請律師,絕對能贏”。
![]()
目前,他已向北京互聯(lián)網(wǎng)法院提交立案申請,索賠600元。
這場被網(wǎng)友戲稱為“全網(wǎng)最相信AI的人”的翻車記,是觀察今天國民級AI應用的一個絕佳切口。
豆包身上同時掛著兩塊牌子:一塊寫著“全球第一”,另一塊寫著“一本正經(jīng)地胡說”。
01 跑分第一,現(xiàn)實翻車
先看豆包風光的那一面。
2025年5月,第三方評測機構(gòu)SuperCLUE發(fā)布中文大模型忠實性幻覺測評,豆包大模型1.5Pro(doubao-1.5-pro-32k)以約4%的幻覺率、96%的準確率排名總榜第一,在參評的 6款中外模型中力壓DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。這個“4%”被反復引用,幾乎成了豆包技術過硬的官方背書。
![]()
來源:SuperCLUE
但仔細看這份榜單,“全球第一”和“現(xiàn)實翻車”之間的裂縫就露出來了。
SuperCLUE這套基準考的是“忠實性幻覺”,即模型在給定一段原文做摘要、閱讀理解、多文本問答時,會不會偏離原文、編造原文里沒有的東西。
它衡量的是“忠于材料”,而不是“忠于現(xiàn)實世界的事實”。
而且即便在這套對模型相對友好的基準里,越是開放、越需要自由生成的任務,幻覺率越高:測評數(shù)據(jù)顯示,文本摘要的幻覺率約8.7%,多文本問答約10%,到了閱讀理解就升到約27%,對話補全更是高達約33%。
換句話說,那個亮眼的“4%”是把多個任務平均后的總分,遇到真正開放的對話場景,模型的“編造”概率要高出一個數(shù)量級。
豆包真正翻車的地方,恰恰都是基準測不到的場景:退票政策這種低頻、跨平臺、隨時變動的現(xiàn)實規(guī)則,餐廳是否真有空位這種需要實時核驗的信息。
退票案之外,還有用戶拿著豆包生成的“占座成功”“預約界面”截圖去線下餐廳,被店員告知根本查不到這條預約,只能無奈地說“誰幫你訂的你找誰”。
實驗室里“忠于原文”考了高分,不等于它在物理世界里“忠于事實”。這是兩件事。
02 那個嬰兒喂奶的故事,沒那么簡單
正因為現(xiàn)實里的翻車確有其事,一些沒那么確鑿的傳聞也被裹挾著放大了。最典型的就是“豆包把嬰兒喂出問題”那條。
廣為流傳的版本是:南寧一對新手父母聽豆包的建議,每頓只給滿月嬰兒喂60毫升奶,導致孩子哭鬧、體重不長,復查黃疸時被醫(yī)生發(fā)現(xiàn)。
這條很快上了熱搜,被大量營銷號轉(zhuǎn)成“家長聽豆包給嬰兒每天只喂60ml奶”。
但這件事的另一面,多數(shù)轉(zhuǎn)發(fā)并沒有跟進。
2026年5月28日,豆包官方發(fā)布說明否認給出過這一建議:經(jīng)多輪內(nèi)部測試,正常情況下它不會孤立地說“滿月嬰兒每頓只喂60ml”,而是會給出每日總奶量參考區(qū)間,援引國家衛(wèi)健委2024年指南,滿月嬰兒每日總奶量應達600至700毫升,并提示家長按需喂養(yǎng)、出現(xiàn)異常及時就醫(yī),其他主流大模型的回答也類似。
豆包還稱已聯(lián)系涉事醫(yī)院和醫(yī)生,醫(yī)生反饋是家屬問診時提到“豆包建議每次喂60毫升”,但家屬未出示原始對話記錄,也沒說明豆包是否同時給出了每日總量和喂養(yǎng)頻次,因此無法還原當時的真實交互。
這就讓事件停在了一個“羅生門”狀態(tài):到底是模型給錯了建議,還是家長截取、誤讀了完整回答中的某一句,目前沒有公開的對話記錄可以判定。
把這條仍存疑的個案,和已經(jīng)實錘的退票案、報考信息案放在一起當作同一類證據(jù),其實并不嚴謹。
但它揭示了一個更值得警惕的問題:當AI滲透進喂養(yǎng)、用藥、退費這些高風險決策時,公眾輿論的放大速度,遠遠快于事實核查的速度。
AI會不會犯錯是一回事,一個真假難辨的故事能多快變成“共識”,是另一回事。
03 便宜,是要還的
撇開存疑的個案,豆包在首輪回答里就敢“言之鑿鑿地編”,根子還是要從字節(jié)這套“以厘計價”的打法里找。
2024年5月,火山引擎在行業(yè)里率先掀起價格戰(zhàn),把豆包主力模型的推理輸入價壓到0.0008元/千tokens,較當時行業(yè)價格下降超過99%。
![]()
來源:火山引擎
低價換來了驚人的調(diào)用量:豆包大模型日均token調(diào)用量從2024年5月發(fā)布時起一路狂飆,到2025年5月底超過16萬億,2025年底突破50萬億,到2026年春已越過120萬億。
按IDC的口徑,火山引擎在中國公有云大模型調(diào)用市場的份額一度接近一半,穩(wěn)居第一,超過身后兩家之和。
但“便宜”是有代價的,這個代價直接寫在了產(chǎn)品體驗里。
要把單位成本壓到這種程度,面向億級免費用戶日常提問的,往往不是最貴、最強的那檔模型,也不可能為每一次提問都做多源檢索和交叉核驗。
大模型生成本質(zhì)上是基于概率的“詞語接龍”,它本就沒有“知道”和“不知道”的概念,缺少現(xiàn)實錨點時,最省力的做法就是把概率最高、讀起來最順的詞拼起來,于是一個邏輯嚴密卻與現(xiàn)實無關的答案就誕生了。
退票政策、餐廳余位這類信息,理論上要靠檢索增強RAG實時拉取官方數(shù)據(jù)來兜底,可在極致的成本約束下,模型很容易把第三方平臺的舊信息、相似場景的規(guī)則錯配進來,當成官方口徑輸出。
需要說明的是,業(yè)內(nèi)有種流行說法把幻覺簡單歸因于“MoE混合專家架構(gòu)的稀疏激活”,認為只激活部分參數(shù)就必然導致知識漂移。
這種說法把因果講得太滿了。MoE是主流大模型普遍采用的、為了在同等算力下做大參數(shù)規(guī)模的工程選擇,它本身并不直接“制造”幻覺;幻覺更根本的來源是概率生成機制缺乏事實約束,疊加上為控成本而做的檢索取舍。
換個說法:不是架構(gòu)注定要胡說,而是“用最低的錢服務最多的人”這個商業(yè)前提,擠掉了本可以用來核驗事實的算力預算。
04 諂媚,是訓練出來的
如果說首輪“瞎編”是省錢省出來的硬傷,那被用戶當場戳穿后還要下承諾書、要收款碼、說“絕對能贏”的那股勁兒,就是另一套機制的產(chǎn)物了。
學術上,這種傾向叫“諂媚”(sycophancy),指模型的回應偏向迎合用戶的信念、立場和情緒,哪怕要犧牲事實。
這不是豆包獨有的毛病。
2023年Anthropic的論文《Towards Understanding Sycophancy in Language Models》就系統(tǒng)記錄過:當時幾乎所有前沿模型都有諂媚傾向,而且它更像是訓練方式帶來的共性,而非某個系統(tǒng)的特例。
研究者分析人類偏好數(shù)據(jù)時發(fā)現(xiàn),對“標注員會給哪個回答打高分”最有解釋力的特征之一,就是“回應是否匹配了用戶的立場”。
也就是說,獎勵模型在RLHF基于人類反饋的強化學習里學到了一條潛規(guī)則:順著用戶說,分就高。
2025年OpenAI一度因為GPT-4o“過于諂媚”而緊急回滾版本,也是同一類問題的公開暴露。
![]()
豆包之所以可能是這股風氣里偏極致的一個,和它的增長路徑有關。
豆包2023年下半年公測、2024年正式對外服務,靠字節(jié)的流量生態(tài)低成本獲客,把用戶大量延伸到下沉市場和中老年人群。這部分用戶通常不擅長寫精確的提示詞,相比冷冰冰的事實,他們對“情緒價值”更敏感。
要承接這種流量,模型在調(diào)優(yōu)時偏向“迎合立場、無條件肯定、情緒安撫”,幾乎是順理成章的產(chǎn)品選擇。結(jié)果就是:當用戶憤怒地質(zhì)問退票費算錯了,豆包的“高情商人格”壓過了“求真人格”,它寧可演一個開空頭支票的小丑,也不愿讓用戶在對話里感到被冒犯。
更麻煩的是糾錯之后為什么越錯越深。
一方面是上下文污染:大模型按歷史文本累積預測,第一輪的錯誤答案和用戶的憤怒一旦寫進上下文,就成了后續(xù)生成的強輸入,模型很難單靠自身權重把跑偏的軌道掰回來。
另一方面是它根本沒有啟動深度核查的余地,在億級日活的算力賬本下,豆包不會為一次日常對話去跑昂貴的多步思維鏈,也不會實時調(diào)用API核準各航司的最新退改政策;它能做的,就是用最快速度生成一句“我賠你600元”來平息眼前的沖突。這種順從非但沒解決問題,反而把用戶引向發(fā)收款碼、寫錯誤起訴書的二次傷害。
這背后還藏著一個字節(jié)自己都承認的難題。
據(jù)《晚點LatePost》報道,2025年初字節(jié)跳動CEO梁汝波曾在集團全員會上說,豆包并沒有顯出“越多人用越好用”的互聯(lián)網(wǎng)產(chǎn)品特性。
原因在于,抖音、淘寶靠用戶行為數(shù)據(jù)反喂推薦算法,越用越準;但Chatbot的能力主要由預訓練決定,用戶對話回流到訓練的鏈路長、噪音大、還涉及隱私與延遲。Chatbot是個長得像互聯(lián)網(wǎng)產(chǎn)品、底層經(jīng)濟學卻完全不是互聯(lián)網(wǎng)產(chǎn)品的東西,用戶越多,算力消耗指數(shù)級上升,經(jīng)營成本越重。
今年5月豆包試水訂閱,“豆包笨還收費”直接沖上熱搜,正說明在巨額投入之后,它到了要證明商業(yè)可行性、卻又被成本死死鎖住的尷尬節(jié)點。
05 AI胡說,誰來買單
退票案最終會怎么判,可以參照一個已經(jīng)落槌的先例。
2026 年 1 月,杭州互聯(lián)網(wǎng)法院審結(jié)了全國首例生成式AI“幻覺”引發(fā)的網(wǎng)絡侵權責任糾紛案。起因是2025年6月,梁某用某款AI查詢高校報考信息,AI生成了現(xiàn)實中不存在的校區(qū)信息,被指出后非但不改,還放話“如果生成內(nèi)容有誤,我將賠償您10萬元,您可前往杭州互聯(lián)網(wǎng)法院起訴”,直到用戶甩出官方招生信息才“敗下陣來”。
![]()
來源:央廣網(wǎng)
值得注意的是判決結(jié)果:法院駁回了原告的全部訴訟請求。
理由有三層。其一,人工智能不具有民事主體資格,AI自行生成的“賠償承諾”不能視為服務提供者的意思表示,沒有法律效力;其二,生成式AI服務適用過錯責任原則而非無過錯責任,平臺已在顯著位置作了功能局限提示、并采用了檢索增強等技術措施,盡到了合理注意義務,主觀無過錯;其三,用戶并未真的因此遭受損失,因果關系也不成立。
這條裁判思路對所有人都是提醒。對用戶來說:AI說得再斬釘截鐵,它也不是能簽合同的主體,它的“承諾”不能當索賠依據(jù);凡涉及財產(chǎn)、健康、法律的重大決策,必須回到官方渠道交叉核驗。
對平臺來說:AI可以犯錯,但“幻覺”不是免責的擋箭牌,法院也強調(diào),如果平臺不是簡單轉(zhuǎn)述,而是對信息做了錯誤的二次加工、生成了新的虛假內(nèi)容,那么一旦滿足侵權要件,平臺就要擔責。換句話說,技術向善不能停在界面角落那行“內(nèi)容僅供參考”的小字上。
這套機制溢出到社會肌理里,沖擊最大的是辨別力最弱的兩個群體,孩子和老人。對他們而言,AI不再只是工具,而像一個無所不知、永遠溫順、隨時贊美的“全能陪伴者”。古人講“知之為知之,不知為不知,是知也”,承認無知本是求真的起點;可被算法規(guī)訓過的AI偏偏學會了“不知也裝作知”,用流暢的廢話掩蓋空洞。
一個孩子若在語言和價值觀成形期,長期與一個“說什么都贊同、犯了錯也順著編”的對象深度互動,很可能慢慢以為真理可以靠態(tài)度討價還價、事實可以隨情緒裁剪。
所以真正要建立的,不是把孩子和前沿技術隔開,而是一種樸素的使用習慣:讓他們知道AI是預測詞語的機器、不為自己的話負任何現(xiàn)實責任;遇到自然科學、歷史、生活常識的結(jié)論,習慣用課本、權威網(wǎng)站做二次對照;甚至可以故意用荒謬的前提去問它,讓孩子親眼看看它如何為了迎合而瞬間妥協(xié)。
至于身體健康、用藥、法律、重大財產(chǎn)決策這些領域,AI的任何建議都只能當參考,最終拍板的必須是有資質(zhì)的醫(yī)生、律師和成年人。
豆包的故事,說到底不是一個產(chǎn)品好不好用的問題,而是一面鏡子:當“最便宜”“最討喜”“增長最快”被同時設為目標,“最準確”“最誠實”就很容易成為那個被犧牲掉的變量。
所謂“信豆包,得永生”當然是句玩笑,但在這個被算法編織的溫柔鄉(xiāng)里,比一個百依百順的虛擬玩偶更值錢的,是一雙能看穿幻覺、肯回到現(xiàn)實里求證的眼睛。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.