網易首頁 > 網易號 > 正文申請入駐

“專家人設”反而讓 AI 變笨？研究實錘：一句“你是資深工程師”，代碼準確率不升反降！

2026-03-24 18:23:39　來源: CSDN

北京舉報

分享至

編譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

如果你也經常這樣寫 Prompt——

“你是一位資深全棧工程師，請幫我寫一套生產級系統代碼……”

那這篇研究，可能會讓你重新審視自己的使用習慣。

一直以來，“給 AI 加人設”幾乎成了默認操作。從寫代碼、寫文檔，到做架構設計，不少開發者都會在開頭先“鋪墊一句”，試圖把模型“催眠”成一個更專業的版本。但問題是：這種看似提升專業性的技巧，可能正在悄悄拉低結果質量。

近日，一項來自美國南加州大學（USC）的最新研究，對這一做法給出了一個有些反直覺的結論：讓 AI 扮演“專家”，并不會讓它更擅長解決專業問題，反而在編程和數學任務上會明顯變差。（論文地址：https://arxiv.org/abs/2603.18507）

一項研究：為什么“專家人設”會翻車？

所謂“人設提示”（Persona-based Prompting），本質上就是一種“角色扮演式”的 Prompt 技術。它的核心邏輯很簡單：通過一句身份設定，讓模型進入某種“工作狀態”。

這種方法在 2023 年開始被廣泛討論，并迅速在開發者社區流行開來。無論是教程、課程，還是各種 Prompt 模板，幾乎都會建議你這樣寫：

● “你是一位經驗豐富的機器學習工程師……”

● “你是一名精通系統設計的架構師……”

● “請以安全專家的視角分析以下問題……”

理論上來說，這種方法似乎很合理。畢竟模型是“語言驅動”的，那多給一點上下文，不就能讓它“更像專家”嗎？但來自南加州大學（USC）的研究人員在一篇論文中指出：

“人設提示是否有效，很大程度上要看任務類型。”

也就是說，并不是“加了人設就一定能變強”，而是“用對了才行”。具體來說，該研究團隊將任務大致分成兩類：

（1）一類是依賴“對齊能力”的任務，比如寫作、角色扮演、遵守規則、安全策略等。在這些場景中，模型需要的是“行為符合預期”，而不是絕對正確的答案。

（2）一類則是依賴“知識和推理能力”的任務，比如數學計算、代碼生成、事實問答。這些任務則更依賴模型在預訓練階段學到的知識儲備。

基于這兩類任務，研究團隊得到的實驗結果為：在“人設提示”的加持下，第一類任務表現有所提升；但在第二類任務中，模型表現卻出現了系統性下降。

真正的問題：它在“演”，而不是在“算”

為了量化這種影響，研究人員使用了一個經典評測基準：MMLU（大規模多任務語言理解測試）。這個測試覆蓋多個學科，常被用來衡量大模型的綜合能力。

評測之后，結果非常直接：

● 不加“人設”：準確率 71.6%

● 加“專家人設”：準確率 68.0%

更重要的是，這種下降幾乎出現在所有學科類別中，而不僅僅是個別任務。這說明了一個問題：“人設提示”確實改變了模型的行為方式，但這種改變，并不總是好的。

對于這個結果，研究團隊給出的解釋非常耐人尋味：

“人設前綴可能激活了模型的‘指令執行模式’，從而擠占了原本用于‘事實回憶’的能力。”

解釋一下，從模型機制來看，大語言模型本質上是在做“概率生成”。當你告訴它“你是一位專家”，它并不會獲得任何新的知識，也不會解鎖新的推理能力，但會進入一種更偏“指令執行”和“角色模擬”的模式。而這，就帶來了一個微妙但關鍵的變化：原本用于“從預訓練數據中檢索事實”的能力，被部分“擠占”了。

簡單來說，就是模型開始更關注“如何像專家說話”，而不是“答案本身是否正確”。這也是為什么在編程和數學任務中，“人設”反而成為了模型的負擔。

不過，雖然準確性下降，但在人類更關心的“安全”和“規范”上，人設提示確實有明顯幫助。

例如，在安全性測試中引入一個類似“安全審查員（Safety Monitor）”的人設后，模型拒絕惡意請求的能力將明顯提升。其中在 JailbreakBench 測試中：原始模型拒絕率為53.2%，但加了“人設”后拒絕率提升 17.7 個百分點，變為70.9%。

對開發者來說，有點“反直覺”的結論

基于以上發現，研究人員在論文中明確表示：

讓 AI 扮演“專家程序員”，不會提升代碼質量或實用性。

這對很多開發者來說，可能是一個需要“糾正”的習慣。

因為在實際使用中，大量開發者的 Prompt 都包含類似話術： “你是 Google 級別的架構專家” 、 “你擁有 20 年開發經驗”……這些描述看似增強了“專業性”，實際上并沒有給模型帶來任何實質性的能力提升。

不過研究也指出，雖然“泛化的人設”沒什么用，但具體、細粒度的約束卻是有效的。例如：

● 明確前端框架（React / Vue）

● 指定架構模式（微服務 / 單體）

● 限定工具鏈（Docker / Kubernetes）

● 描述代碼風格、接口規范

因為本質上來說，這些屬于“對齊信息”、“需求約束”，而不是“身份設定”，它們的作用是幫助模型更好地對齊你的目標，而不是讓它“扮演某個人”。

一個更工程化的解法：PRISM

既然人設提示“有利有弊”，那有沒有辦法兩者兼顧呢？

針對這個問題，研究團隊提出了一種新的方法，叫做 PRISM（基于意圖的人設路由機制）。它的核心思想有點像“動態開關”：一般情況下保持原始模型，主要確保知識與準確性，僅在需要時啟用“人設行為”。

在實現上，它借助了一種叫 LoRA（低秩適配）的技術，通過一個“門控機制”來自動判斷使用哪種模式。簡單來說，這就讓模型具備一種能力：該認真的時候就認真算，該演的時候再去演。

在論文的最后，研究人員總結了一條非常實用的經驗法則：

● 當你更關心“對齊”（安全、格式、規則）時→可以加人設，并具體描述要求；

● 當你更關心“準確性和事實”時→ 不要加任何設定，直接提問。

某種程度上來說，“你是一位專家”這句話，本質上更像是寫給人看的，而不是寫給模型看的——它滿足的是人類對“專業感”的心理預期，卻未必真能提升結果質量。

有時候，想讓模型輸出得更好，并不用讓它“更像人”，而是盡量別干擾它本就擅長的事情。

參考鏈接：https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬美金懸賞！

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改，到真實千倍并發下的吞吐量極限拉扯

不看資歷，只看絕對速度

挑戰DeepSeek?R1/KimiK2.5極致并發

入圍即能拿 1 萬美金

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

字節養的“蝦”與1500億賬本背后

鈦媒體APP 2026-04-25 16:44:18
0 跟貼 0
GPT5.5深夜炸場，這次OpenAI又行了

虎嗅APP 2026-04-25 05:47:05
7 跟貼 7

DeepSeek V4報告太詳盡了！484天換代之路全公開

量子位 2026-04-25 11:22:59
4 跟貼 4

DeepSeek-V4報告亮了！V4發布延遲的秘密，終于曝光了

新智元 2026-04-25 13:42:06
25 跟貼 25
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

Anthropic實驗火了！Claude替人類做了186筆買賣，用Opus能多賺70%

新智元 2026-04-25 19:04:24
0 跟貼 0
逢山開路遇水架橋！看工程師是如何在山里造橋的

好奇的老八 2026-04-23 14:46:07
2 跟貼 2

還是喜歡你端著的樣子！比亞迪讓美國工程師集體破防

電車匯 2026-04-23 14:56:40
0 跟貼 0
打造重型船只船槳，工程師們會做點什么

愛笑無厘頭 2026-04-21 11:59:26
1 跟貼 1
天天315｜“0糖是商標”，東鵬特飲被罵上熱搜股價下跌

齊魯壹點 2026-04-25 06:43:07
33872 跟貼 33872
如果橋中間沒對齊怎么辦？修成兩條還是炸掉重修？工程師有妙招！

軍武第一線 2026-04-22 10:17:13
1 跟貼 1
DeepSeek過于樸素了

虎嗅APP 2026-04-25 17:32:05
0 跟貼 0
37歲工程師猝死倒地后，工作群還在“轟炸”，妻子：第一反應就是加班

掌聞視訊 2026-04-24 18:55:39
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
月薪6萬招不到人, 普通人的時代紅利來了?

閱讀第一 2026-04-25 08:36:30
3 跟貼 3
工程師猝死倒地，工作群消息仍不停刷屏

天啟談古說今 2026-04-25 09:09:36
1 跟貼 1
華人再破硅谷天花板！AI黑馬新任CTO，中科大80后

量子位 2026-04-25 11:47:08
2 跟貼 2
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
烏克蘭前線士兵骨瘦如柴照片披露被指最長斷糧17天

澎湃新聞 2026-04-25 14:48:31
8996 跟貼 8996
電氣工程師經常出差的原因

順子順子 2026-04-24 20:38:11
0 跟貼 0
不會寫代碼的文科生耗時一月，用AI靈光做應用軟件賺了三萬元

星視頻 2026-04-22 15:21:34
0 跟貼 0
誰說工科生只會寫代碼？

中國網資訊 2026-04-22 10:15:39
0 跟貼 0
半導體工程師向境外泄密核心技術，3大“內鬼”被揪出

河洛有話說 2026-04-23 15:53:40
4 跟貼 4
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
55.98萬旗艦suv與工程師比俯臥撐

不甜的李子 2026-04-24 16:47:04
0 跟貼 0
特斯拉 APP 新版有 3 項隱藏功能

新浪財經 2026-04-25 11:13:52
0 跟貼 0
獅子大開口應聘工程師張口就要二百萬

芝士星球啊 2026-04-25 02:00:01
0 跟貼 0
7位中國首席工程師集體亮相，豐田本土化戰略邁入新階段

功夫AUTO 2026-04-25 17:39:25
0 跟貼 0
1960年代精巧繪圖工具套裝，工程師的心頭好物

裝甲鏟史官 2026-03-12 10:35:44
0 跟貼 0
工程師租8張H100復現mHC架構，數據反超原論文

量子位 2026-01-30 03:29:45
0 跟貼 0
程序員上班遭辭退，當場刪庫跑路讓公司癱瘓，這次不是賠錢的事了

笑咖小迷糊 2026-04-23 15:01:16
1 跟貼 1
美正考慮暫停西班牙北約成員國資格

財聯社 2026-04-24 22:52:23
1515 跟貼 1515
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
馬斯克豪擲600億美元收購AI編程神器Cursor

量子位 2026-04-23 11:44:16
0 跟貼 0
泡泡瑪特：4月30日發售兩款Labubu冰箱，售價5999元，每款全球限量發售999臺

魯中晨報 2026-04-24 20:08:07
2626 跟貼 2626
NBA｜湖人3比0拿到賽點，詹姆斯再創里程碑紀錄

北青網-北京青年報 2026-04-25 13:45:11
28 跟貼 28
特朗普用直升機送馬杜羅？尷尬邏輯引熱議

隱龍天下o 2026-04-23 06:43:03
0 跟貼 0
救人的哥走了50余輛出租車自發送行

極目新聞 2026-04-25 15:18:34
49 跟貼 49

CSDN

成就一億技術人

26482文章數 242272關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

手機

本地

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

“專家人設”反而讓 AI 變笨？研究實錘：一句“你是資深工程師”，代碼準確率不升反降！

DeepSeek V4發布！黃仁勛預言的"災難"降臨

現場視頻：殲-15掛彈起飛硬剛外軍航母編隊滋擾

現場視頻：殲-15掛彈起飛硬剛外軍航母編隊滋擾

火箭0-3觸發百分百出局定律：本季加時賽9戰8敗

鄧超最大的幸運，就是遇見孫儷

90%訂單消失，中東旺季沒了

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

去馬登鄉尋找杜鵑花海，結果誤打誤撞，領略了數千畝蘋果花的風韻

W16周排名出爐：vivo第四、小米第五，冠軍還是它

云游中國｜逛世界風箏都 留學生探秘中國傳統文化

上新|| 入夏第一件短袖，買它！

2026款樂道L90亮相北京車展樂道L80正式官宣

云游中國｜逛世界風箏都留學生探秘中國傳統文化