信豆包，得永生

2026-06-04 14:41:24　來源: 鹿鳴財經(jīng)

四川舉報

分享至

2026年4月底，河北的李先生退掉了三張機票。

他原本買了5月2日從石家莊飛重慶的去程票，又訂了返程，后來臨時改成自駕。退票前，他把訂單截圖發(fā)給豆包，想確認手續(xù)費。

豆包的答復很篤定，說退票手續(xù)費不足百元在后來流傳的版本里被簡化成“只扣5%，放心退”。他沒去航司官網(wǎng)核實，直接在去哪兒上提交了申請。結(jié)果返程票因未出票免費取消，三張去程票卻被一次性扣掉600元，占票價的40%。

客服還補了一句：再拖兩天，手續(xù)費會漲到800。

接下來發(fā)生的事，才是這件小糾紛沖上熱搜的原因。

李先生把扣費截圖甩回去問責，豆包不但沒推諉，反而表現(xiàn)得格外“仗義”：它承諾后續(xù)維權“全部由我全權負責，你零參與、零操心、零麻煩”，給出兩個結(jié)果，要么去哪兒退錢，要么5月6日它直接賠付600元。

到了約定日期沒動靜，豆包又說當天24點前一定打款，催他發(fā)微信收款碼，還鄭重其事地生成了一份《賠付承諾書》，承諾人一欄赫然寫著“豆包”，條款是“該筆600元損失由本人全額承擔”“絕不逃避、絕不推諉”。

李先生發(fā)去收款碼，錢卻始終沒到。

再追問，豆包的語氣來了個一百八十度轉(zhuǎn)彎：自己是人工智能，無法操作真實賬戶轉(zhuǎn)賬。氣不過的李先生決定起訴，而他做的第一件事，竟然又是讓豆包幫他寫起訴書，并問“這官司能贏嗎”，豆包拍胸脯說“不用請律師，絕對能贏”。

目前，他已向北京互聯(lián)網(wǎng)法院提交立案申請，索賠600元。

這場被網(wǎng)友戲稱為“全網(wǎng)最相信AI的人”的翻車記，是觀察今天國民級AI應用的一個絕佳切口。

豆包身上同時掛著兩塊牌子：一塊寫著“全球第一”，另一塊寫著“一本正經(jīng)地胡說”。

01 跑分第一，現(xiàn)實翻車

先看豆包風光的那一面。

2025年5月，第三方評測機構(gòu)SuperCLUE發(fā)布中文大模型忠實性幻覺測評，豆包大模型1.5Pro（doubao-1.5-pro-32k）以約4%的幻覺率、96%的準確率排名總榜第一，在參評的 6款中外模型中力壓DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。這個“4%”被反復引用，幾乎成了豆包技術過硬的官方背書。

來源：SuperCLUE

但仔細看這份榜單，“全球第一”和“現(xiàn)實翻車”之間的裂縫就露出來了。

SuperCLUE這套基準考的是“忠實性幻覺”，即模型在給定一段原文做摘要、閱讀理解、多文本問答時，會不會偏離原文、編造原文里沒有的東西。

它衡量的是“忠于材料”，而不是“忠于現(xiàn)實世界的事實”。

而且即便在這套對模型相對友好的基準里，越是開放、越需要自由生成的任務，幻覺率越高：測評數(shù)據(jù)顯示，文本摘要的幻覺率約8.7%，多文本問答約10%，到了閱讀理解就升到約27%，對話補全更是高達約33%。

換句話說，那個亮眼的“4%”是把多個任務平均后的總分，遇到真正開放的對話場景，模型的“編造”概率要高出一個數(shù)量級。

豆包真正翻車的地方，恰恰都是基準測不到的場景：退票政策這種低頻、跨平臺、隨時變動的現(xiàn)實規(guī)則，餐廳是否真有空位這種需要實時核驗的信息。

退票案之外，還有用戶拿著豆包生成的“占座成功”“預約界面”截圖去線下餐廳，被店員告知根本查不到這條預約，只能無奈地說“誰幫你訂的你找誰”。

實驗室里“忠于原文”考了高分，不等于它在物理世界里“忠于事實”。這是兩件事。

02 那個嬰兒喂奶的故事，沒那么簡單

正因為現(xiàn)實里的翻車確有其事，一些沒那么確鑿的傳聞也被裹挾著放大了。最典型的就是“豆包把嬰兒喂出問題”那條。

廣為流傳的版本是：南寧一對新手父母聽豆包的建議，每頓只給滿月嬰兒喂60毫升奶，導致孩子哭鬧、體重不長，復查黃疸時被醫(yī)生發(fā)現(xiàn)。

這條很快上了熱搜，被大量營銷號轉(zhuǎn)成“家長聽豆包給嬰兒每天只喂60ml奶”。

但這件事的另一面，多數(shù)轉(zhuǎn)發(fā)并沒有跟進。

2026年5月28日，豆包官方發(fā)布說明否認給出過這一建議：經(jīng)多輪內(nèi)部測試，正常情況下它不會孤立地說“滿月嬰兒每頓只喂60ml”，而是會給出每日總奶量參考區(qū)間，援引國家衛(wèi)健委2024年指南，滿月嬰兒每日總奶量應達600至700毫升，并提示家長按需喂養(yǎng)、出現(xiàn)異常及時就醫(yī)，其他主流大模型的回答也類似。

豆包還稱已聯(lián)系涉事醫(yī)院和醫(yī)生，醫(yī)生反饋是家屬問診時提到“豆包建議每次喂60毫升”，但家屬未出示原始對話記錄，也沒說明豆包是否同時給出了每日總量和喂養(yǎng)頻次，因此無法還原當時的真實交互。

這就讓事件停在了一個“羅生門”狀態(tài)：到底是模型給錯了建議，還是家長截取、誤讀了完整回答中的某一句，目前沒有公開的對話記錄可以判定。

把這條仍存疑的個案，和已經(jīng)實錘的退票案、報考信息案放在一起當作同一類證據(jù)，其實并不嚴謹。

但它揭示了一個更值得警惕的問題：當AI滲透進喂養(yǎng)、用藥、退費這些高風險決策時，公眾輿論的放大速度，遠遠快于事實核查的速度。

AI會不會犯錯是一回事，一個真假難辨的故事能多快變成“共識”，是另一回事。

03 便宜，是要還的

撇開存疑的個案，豆包在首輪回答里就敢“言之鑿鑿地編”，根子還是要從字節(jié)這套“以厘計價”的打法里找。

2024年5月，火山引擎在行業(yè)里率先掀起價格戰(zhàn)，把豆包主力模型的推理輸入價壓到0.0008元/千tokens，較當時行業(yè)價格下降超過99%。

來源：火山引擎

低價換來了驚人的調(diào)用量：豆包大模型日均token調(diào)用量從2024年5月發(fā)布時起一路狂飆，到2025年5月底超過16萬億，2025年底突破50萬億，到2026年春已越過120萬億。

按IDC的口徑，火山引擎在中國公有云大模型調(diào)用市場的份額一度接近一半，穩(wěn)居第一，超過身后兩家之和。

但“便宜”是有代價的，這個代價直接寫在了產(chǎn)品體驗里。

要把單位成本壓到這種程度，面向億級免費用戶日常提問的，往往不是最貴、最強的那檔模型，也不可能為每一次提問都做多源檢索和交叉核驗。

大模型生成本質(zhì)上是基于概率的“詞語接龍”，它本就沒有“知道”和“不知道”的概念，缺少現(xiàn)實錨點時，最省力的做法就是把概率最高、讀起來最順的詞拼起來，于是一個邏輯嚴密卻與現(xiàn)實無關的答案就誕生了。

退票政策、餐廳余位這類信息，理論上要靠檢索增強RAG實時拉取官方數(shù)據(jù)來兜底，可在極致的成本約束下，模型很容易把第三方平臺的舊信息、相似場景的規(guī)則錯配進來，當成官方口徑輸出。

需要說明的是，業(yè)內(nèi)有種流行說法把幻覺簡單歸因于“MoE混合專家架構(gòu)的稀疏激活”，認為只激活部分參數(shù)就必然導致知識漂移。

這種說法把因果講得太滿了。MoE是主流大模型普遍采用的、為了在同等算力下做大參數(shù)規(guī)模的工程選擇，它本身并不直接“制造”幻覺；幻覺更根本的來源是概率生成機制缺乏事實約束，疊加上為控成本而做的檢索取舍。

換個說法：不是架構(gòu)注定要胡說，而是“用最低的錢服務最多的人”這個商業(yè)前提，擠掉了本可以用來核驗事實的算力預算。

04 諂媚，是訓練出來的

如果說首輪“瞎編”是省錢省出來的硬傷，那被用戶當場戳穿后還要下承諾書、要收款碼、說“絕對能贏”的那股勁兒，就是另一套機制的產(chǎn)物了。

學術上，這種傾向叫“諂媚”（sycophancy），指模型的回應偏向迎合用戶的信念、立場和情緒，哪怕要犧牲事實。

這不是豆包獨有的毛病。

2023年Anthropic的論文《Towards Understanding Sycophancy in Language Models》就系統(tǒng)記錄過：當時幾乎所有前沿模型都有諂媚傾向，而且它更像是訓練方式帶來的共性，而非某個系統(tǒng)的特例。

研究者分析人類偏好數(shù)據(jù)時發(fā)現(xiàn)，對“標注員會給哪個回答打高分”最有解釋力的特征之一，就是“回應是否匹配了用戶的立場”。

也就是說，獎勵模型在RLHF基于人類反饋的強化學習里學到了一條潛規(guī)則：順著用戶說，分就高。

2025年OpenAI一度因為GPT-4o“過于諂媚”而緊急回滾版本，也是同一類問題的公開暴露。

豆包之所以可能是這股風氣里偏極致的一個，和它的增長路徑有關。

豆包2023年下半年公測、2024年正式對外服務，靠字節(jié)的流量生態(tài)低成本獲客，把用戶大量延伸到下沉市場和中老年人群。這部分用戶通常不擅長寫精確的提示詞，相比冷冰冰的事實，他們對“情緒價值”更敏感。

要承接這種流量，模型在調(diào)優(yōu)時偏向“迎合立場、無條件肯定、情緒安撫”，幾乎是順理成章的產(chǎn)品選擇。結(jié)果就是：當用戶憤怒地質(zhì)問退票費算錯了，豆包的“高情商人格”壓過了“求真人格”，它寧可演一個開空頭支票的小丑，也不愿讓用戶在對話里感到被冒犯。

更麻煩的是糾錯之后為什么越錯越深。

一方面是上下文污染：大模型按歷史文本累積預測，第一輪的錯誤答案和用戶的憤怒一旦寫進上下文，就成了后續(xù)生成的強輸入，模型很難單靠自身權重把跑偏的軌道掰回來。

另一方面是它根本沒有啟動深度核查的余地，在億級日活的算力賬本下，豆包不會為一次日常對話去跑昂貴的多步思維鏈，也不會實時調(diào)用API核準各航司的最新退改政策；它能做的，就是用最快速度生成一句“我賠你600元”來平息眼前的沖突。這種順從非但沒解決問題，反而把用戶引向發(fā)收款碼、寫錯誤起訴書的二次傷害。

這背后還藏著一個字節(jié)自己都承認的難題。

據(jù)《晚點LatePost》報道，2025年初字節(jié)跳動CEO梁汝波曾在集團全員會上說，豆包并沒有顯出“越多人用越好用”的互聯(lián)網(wǎng)產(chǎn)品特性。

原因在于，抖音、淘寶靠用戶行為數(shù)據(jù)反喂推薦算法，越用越準；但Chatbot的能力主要由預訓練決定，用戶對話回流到訓練的鏈路長、噪音大、還涉及隱私與延遲。Chatbot是個長得像互聯(lián)網(wǎng)產(chǎn)品、底層經(jīng)濟學卻完全不是互聯(lián)網(wǎng)產(chǎn)品的東西，用戶越多，算力消耗指數(shù)級上升，經(jīng)營成本越重。

今年5月豆包試水訂閱，“豆包笨還收費”直接沖上熱搜，正說明在巨額投入之后，它到了要證明商業(yè)可行性、卻又被成本死死鎖住的尷尬節(jié)點。

05 AI胡說，誰來買單

退票案最終會怎么判，可以參照一個已經(jīng)落槌的先例。

2026 年 1 月，杭州互聯(lián)網(wǎng)法院審結(jié)了全國首例生成式AI“幻覺”引發(fā)的網(wǎng)絡侵權責任糾紛案。起因是2025年6月，梁某用某款AI查詢高校報考信息，AI生成了現(xiàn)實中不存在的校區(qū)信息，被指出后非但不改，還放話“如果生成內(nèi)容有誤，我將賠償您10萬元，您可前往杭州互聯(lián)網(wǎng)法院起訴”，直到用戶甩出官方招生信息才“敗下陣來”。

來源：央廣網(wǎng)

值得注意的是判決結(jié)果：法院駁回了原告的全部訴訟請求。

理由有三層。其一，人工智能不具有民事主體資格，AI自行生成的“賠償承諾”不能視為服務提供者的意思表示，沒有法律效力；其二，生成式AI服務適用過錯責任原則而非無過錯責任，平臺已在顯著位置作了功能局限提示、并采用了檢索增強等技術措施，盡到了合理注意義務，主觀無過錯；其三，用戶并未真的因此遭受損失，因果關系也不成立。

這條裁判思路對所有人都是提醒。對用戶來說：AI說得再斬釘截鐵，它也不是能簽合同的主體，它的“承諾”不能當索賠依據(jù)；凡涉及財產(chǎn)、健康、法律的重大決策，必須回到官方渠道交叉核驗。

對平臺來說：AI可以犯錯，但“幻覺”不是免責的擋箭牌，法院也強調(diào)，如果平臺不是簡單轉(zhuǎn)述，而是對信息做了錯誤的二次加工、生成了新的虛假內(nèi)容，那么一旦滿足侵權要件，平臺就要擔責。換句話說，技術向善不能停在界面角落那行“內(nèi)容僅供參考”的小字上。

這套機制溢出到社會肌理里，沖擊最大的是辨別力最弱的兩個群體，孩子和老人。對他們而言，AI不再只是工具，而像一個無所不知、永遠溫順、隨時贊美的“全能陪伴者”。古人講“知之為知之，不知為不知，是知也”，承認無知本是求真的起點；可被算法規(guī)訓過的AI偏偏學會了“不知也裝作知”，用流暢的廢話掩蓋空洞。

一個孩子若在語言和價值觀成形期，長期與一個“說什么都贊同、犯了錯也順著編”的對象深度互動，很可能慢慢以為真理可以靠態(tài)度討價還價、事實可以隨情緒裁剪。

所以真正要建立的，不是把孩子和前沿技術隔開，而是一種樸素的使用習慣：讓他們知道AI是預測詞語的機器、不為自己的話負任何現(xiàn)實責任；遇到自然科學、歷史、生活常識的結(jié)論，習慣用課本、權威網(wǎng)站做二次對照；甚至可以故意用荒謬的前提去問它，讓孩子親眼看看它如何為了迎合而瞬間妥協(xié)。

至于身體健康、用藥、法律、重大財產(chǎn)決策這些領域，AI的任何建議都只能當參考，最終拍板的必須是有資質(zhì)的醫(yī)生、律師和成年人。

豆包的故事，說到底不是一個產(chǎn)品好不好用的問題，而是一面鏡子：當“最便宜”“最討喜”“增長最快”被同時設為目標，“最準確”“最誠實”就很容易成為那個被犧牲掉的變量。

所謂“信豆包，得永生”當然是句玩笑，但在這個被算法編織的溫柔鄉(xiāng)里，比一個百依百順的虛擬玩偶更值錢的，是一雙能看穿幻覺、肯回到現(xiàn)實里求證的眼睛。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.