網易首頁 > 網易號 > 正文 申請入駐

AI 寫代碼太快,人類測試跟不上了,Meta 用新方法把 bug 檢出率提升 4 倍

0
分享至


作者 | Leela Kumili

譯者 | 田橙

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據 Meta 的工程博客及相關研究,這一方法在 AI 輔助開發環境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統越來越多地生成或修改大段代碼。在這種環境下,傳統測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態驗證不同,該系統會推斷開發者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現了一種根本性的轉變:不再只是讓現有測試更穩,而是轉向去發現未來可能出現的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統會分析 diff,以提取行為意圖和風險區域,然后執行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現結果。

Meta 報告稱,通過一種 即時(Just-in-Time,JiT)測試方法 提升了軟件質量。該方法在代碼評審期間動態生成測試,而不是依賴長期存在、需要人工維護的測試套件。根據 Meta 的工程博客及相關研究,這一方法在 AI 輔助開發環境中將缺陷檢測能力提升了約 4 倍。

這一轉變源于代理式工作流的興起,在這種工作流中,AI 系統越來越多地生成或修改大段代碼。在這種環境下,傳統測試套件面臨更高的維護開銷且效果下降,因為脆弱的斷言和過時的覆蓋率難以及時跟上快速變化。

正如 ICT 系統測試工程師 Ankit K. 所 觀察到的:

AI 生成代碼和測試的速度已經超過了人類的維護能力,JiT 測試因此幾乎成了必然選擇。

JiT 測試通過在拉取請求階段基于具體代碼差異生成測試來解決這一問題。與靜態驗證不同,該系統會推斷開發者意圖,識別潛在的失效模式,并構建有針對性的測試,在存在回歸問題時使其失敗。它專注于捕獲回歸的測試——這些測試在提議的更改上失敗,但在父版本上通過。這是通過一個結合大語言模型、程序分析和變異測試的流水線實現的,其中會注入合成缺陷以驗證生成的測試是否能夠檢測到它們。

正如 Meta 研究科學家 Mark Harman 所 指出 的:

這項工作體現了一種根本性的轉變:不再只是讓現有測試更穩,而是轉向去發現未來可能出現的問題。

一個關鍵組件是 Dodgy Diff 與意圖感知工作流架構,它將代碼變更重新定義為語義信號,而非文本差異。系統會分析 diff,以提取行為意圖和風險區域,然后執行意圖重建和變更風險建模,以理解哪些內容可能因此而出錯。這些信號被輸入到變異引擎中,生成“可疑”的代碼變體,用以模擬真實的失敗場景。隨后,一個基于 LLM 的測試合成層會生成與推斷意圖一致的測試,并通過過濾去除噪聲或低價值測試,最終在拉取請求中呈現結果。


Dodgy diff 和意圖感知工作流用于生成即時捕獲(Just-in-Time Catches)的架構

Meta 表示,該系統在超過 22,000 個生成測試上進行了評估。結果顯示,與基線生成測試相比,缺陷檢測能力提升了 4 倍;與偶然結果相比,在檢測有意義失敗方面最高提升達 20 倍。在一個評估子集中,共識別出 41 個問題,其中 8 個被確認是真實缺陷,包括若干可能影響生產環境的問題。

Mark Harman 在另一篇 LinkedIn 帖子 中強調:

變異測試在學術圈沉寂了幾十年之后,終于開始走向工業界,并正在重塑實用且可擴展的軟件測試 2.0。

捕獲型 JiT 測試專為 AI 驅動的開發設計,按每次變更生成,用于在無需持續維護的情況下檢測嚴重且意外的缺陷。它們通過隨著代碼演進自動適配并將工作從人類轉移到機器,從而減少脆弱的測試套件。只有在發現有意義的問題時才需要人工審查。這將測試從靜態正確性驗證重新定義為面向特定變更的故障檢測。

https://www.infoq.com/news/2026/04/meta-jit-testing-ai-detection/

聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
騎士消息:哈登狀態堪憂,悍將自信發聲,G2出場情況更新

騎士消息:哈登狀態堪憂,悍將自信發聲,G2出場情況更新

冷月小風風
2026-05-07 11:47:55
第一批擠爆廣東的韓國人,優越感被徹底擊碎

第一批擠爆廣東的韓國人,優越感被徹底擊碎

金錯刀
2026-05-05 11:55:49
丟G2芬奇直指失望!坦言沒應對包夾+內線失守,不滿進攻效率!

丟G2芬奇直指失望!坦言沒應對包夾+內線失守,不滿進攻效率!

籃球資訊達人
2026-05-07 14:17:11
飆升800%!山東一白酒落魄20年后重生,攪局2000億市場

飆升800%!山東一白酒落魄20年后重生,攪局2000億市場

愛看劇的阿峰
2026-05-07 01:52:38
新華時評|安全紅線不容僥幸逾越

新華時評|安全紅線不容僥幸逾越

新華社
2026-05-06 22:45:05
錢賺夠了名聲沒了,英皇風波再升級!荒唐一幕出現,霍震霆也遭殃

錢賺夠了名聲沒了,英皇風波再升級!荒唐一幕出現,霍震霆也遭殃

青杉依舊啊啊
2026-05-07 09:41:09
1969年,江青學車時不聽指揮,撞到了樹上,她卻說:沒事,我還學

1969年,江青學車時不聽指揮,撞到了樹上,她卻說:沒事,我還學

帝哥說史
2026-05-06 06:40:03
非常高明!站在中國領土上,伊朗外長只提一個請求,特朗普急喊話

非常高明!站在中國領土上,伊朗外長只提一個請求,特朗普急喊話

小陸搞笑日常
2026-05-07 13:15:26
一個被低估的開源工具,正在吃掉PDF付費軟件的市場

一個被低估的開源工具,正在吃掉PDF付費軟件的市場

硬核玩家2哈
2026-05-06 21:39:21
澤連斯基稱烏方將“對等”回應俄方襲擊

澤連斯基稱烏方將“對等”回應俄方襲擊

財聯社
2026-05-07 05:35:27
湖北移動美女朱婷婷去世,僅32歲,剛換工作1個月,原因讓人惋惜

湖北移動美女朱婷婷去世,僅32歲,剛換工作1個月,原因讓人惋惜

社會日日鮮
2026-05-06 13:12:51
贏了!《寒戰1994》票房破2億,港片丟的臉,讓周潤發掙回來了

贏了!《寒戰1994》票房破2億,港片丟的臉,讓周潤發掙回來了

娛樂圈筆娛君
2026-05-06 11:18:59
王晶曝陳百強真正死因,64歲何超瓊顏面盡失

王晶曝陳百強真正死因,64歲何超瓊顏面盡失

君笙的拂兮
2026-03-22 03:44:36
東體:內地媒體遲遲無法辦理世界杯簽證,體育版權定價應回歸理性

東體:內地媒體遲遲無法辦理世界杯簽證,體育版權定價應回歸理性

懂球帝
2026-05-07 11:16:09
匈牙利歸還被查封的烏克蘭銀行資產,澤連斯基稱其為“文明舉措”

匈牙利歸還被查封的烏克蘭銀行資產,澤連斯基稱其為“文明舉措”

桂系007
2026-05-06 23:23:22
揭秘押運員真實身份!不是銀行員工,門檻高到你想不到

揭秘押運員真實身份!不是銀行員工,門檻高到你想不到

老特有話說
2026-05-06 16:54:26
在武漢,很多車位已經降到3萬元/個了!

在武漢,很多車位已經降到3萬元/個了!

墜入二次元的海洋
2026-05-07 11:07:33
同濟大學教師王某團隊一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學校正調查

同濟大學教師王某團隊一年兩登《自然》的論文被指造假,本人曾稱“十年磨一劍” 學校正調查

紅星新聞
2026-04-16 21:08:20
等了一天一夜,日本高官見不到中方,高市不甘心,想派百人團訪華

等了一天一夜,日本高官見不到中方,高市不甘心,想派百人團訪華

混沌錄
2026-05-06 23:01:06
過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

攬星河的筆記
2026-05-04 15:45:23
2026-05-07 15:04:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

頭條要聞

美國博主自發抵制:不想收錢抹黑中國

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

教育
時尚
數碼
親子
軍事航空

教育要聞

新傳考研名詞解釋:社會抗爭行為

“白色闊腿褲”今年夏天又火了!這樣穿時髦又高級

數碼要聞

Q1全球平板排名:蘋果還是霸主,華為第三,小米第五

親子要聞

2026年上海幼兒入園報名驗證、小學報名今起開始

軍事要聞

特朗普:美伊"很可能"達成協議

無障礙瀏覽 進入關懷版