網易首頁 > 網易號 > 正文 申請入駐

“專家人設”反而讓 AI 變笨?研究實錘:一句“你是資深工程師”,代碼準確率不升反降!

0
分享至

編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果你也經常這樣寫 Prompt——

“你是一位資深全棧工程師,請幫我寫一套生產級系統代碼……”

那這篇研究,可能會讓你重新審視自己的使用習慣。

一直以來,“給 AI 加人設”幾乎成了默認操作。從寫代碼、寫文檔,到做架構設計,不少開發者都會在開頭先“鋪墊一句”,試圖把模型“催眠”成一個更專業的版本。但問題是:這種看似提升專業性的技巧,可能正在悄悄拉低結果質量。

近日,一項來自美國南加州大學(USC)的最新研究,對這一做法給出了一個有些反直覺的結論:讓 AI 扮演“專家”,并不會讓它更擅長解決專業問題,反而在編程和數學任務上會明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



一項研究:為什么“專家人設”會翻車?

所謂“人設提示”(Persona-based Prompting),本質上就是一種“角色扮演式”的 Prompt 技術。它的核心邏輯很簡單:通過一句身份設定,讓模型進入某種“工作狀態”。

這種方法在 2023 年開始被廣泛討論,并迅速在開發者社區流行開來。無論是教程、課程,還是各種 Prompt 模板,幾乎都會建議你這樣寫:

● “你是一位經驗豐富的機器學習工程師……”

● “你是一名精通系統設計的架構師……”

● “請以安全專家的視角分析以下問題……”

理論上來說,這種方法似乎很合理。畢竟模型是“語言驅動”的,那多給一點上下文,不就能讓它“更像專家”嗎?但來自南加州大學(USC)的研究人員在一篇論文中指出:

“人設提示是否有效,很大程度上要看任務類型。”

也就是說,并不是“加了人設就一定能變強”,而是“用對了才行”。具體來說,該研究團隊將任務大致分成兩類:

(1)一類是依賴“對齊能力”的任務,比如寫作、角色扮演、遵守規則、安全策略等。在這些場景中,模型需要的是“行為符合預期”,而不是絕對正確的答案。

(2)一類則是依賴“知識和推理能力”的任務,比如數學計算、代碼生成、事實問答。這些任務則更依賴模型在預訓練階段學到的知識儲備。

基于這兩類任務,研究團隊得到的實驗結果為:在“人設提示”的加持下,第一類任務表現有所提升;但在第二類任務中,模型表現卻出現了系統性下降。


真正的問題:它在“演”,而不是在“算”

為了量化這種影響,研究人員使用了一個經典評測基準:MMLU(大規模多任務語言理解測試)。這個測試覆蓋多個學科,常被用來衡量大模型的綜合能力。

評測之后,結果非常直接:

● 不加“人設”:準確率 71.6%

● 加“專家人設”:準確率 68.0%

更重要的是,這種下降幾乎出現在所有學科類別中,而不僅僅是個別任務。這說明了一個問題:“人設提示”確實改變了模型的行為方式,但這種改變,并不總是好的。

對于這個結果,研究團隊給出的解釋非常耐人尋味:

“人設前綴可能激活了模型的‘指令執行模式’,從而擠占了原本用于‘事實回憶’的能力。”

解釋一下,從模型機制來看,大語言模型本質上是在做“概率生成”。當你告訴它“你是一位專家”,它并不會獲得任何新的知識,也不會解鎖新的推理能力,但會進入一種更偏“指令執行”和“角色模擬”的模式。而這,就帶來了一個微妙但關鍵的變化:原本用于“從預訓練數據中檢索事實”的能力,被部分“擠占”了。

簡單來說,就是模型開始更關注“如何像專家說話”,而不是“答案本身是否正確”。這也是為什么在編程和數學任務中,“人設”反而成為了模型的負擔。

不過,雖然準確性下降,但在人類更關心的“安全”和“規范”上,人設提示確實有明顯幫助。

例如,在安全性測試中引入一個類似“安全審查員(Safety Monitor)”的人設后,模型拒絕惡意請求的能力將明顯提升。其中在 JailbreakBench 測試中:原始模型拒絕率為53.2%,但加了“人設”后拒絕率提升 17.7 個百分點,變為70.9%。


對開發者來說,有點反直覺的結論

基于以上發現,研究人員在論文中明確表示:

讓 AI 扮演“專家程序員”,不會提升代碼質量或實用性。

這對很多開發者來說,可能是一個需要“糾正”的習慣。

因為在實際使用中,大量開發者的 Prompt 都包含類似話術: “你是 Google 級別的架構專家” 、 “你擁有 20 年開發經驗”……這些描述看似增強了“專業性”,實際上并沒有給模型帶來任何實質性的能力提升。

不過研究也指出,雖然“泛化的人設”沒什么用,但具體、細粒度的約束卻是有效的。例如:

● 明確前端框架(React / Vue)

● 指定架構模式(微服務 / 單體)

● 限定工具鏈(Docker / Kubernetes)

● 描述代碼風格、接口規范

因為本質上來說,這些屬于“對齊信息”、“需求約束”,而不是“身份設定”,它們的作用是幫助模型更好地對齊你的目標,而不是讓它“扮演某個人”。


一個更工程化的解法:PRISM

既然人設提示“有利有弊”,那有沒有辦法兩者兼顧呢?

針對這個問題,研究團隊提出了一種新的方法,叫做 PRISM(基于意圖的人設路由機制)。它的核心思想有點像“動態開關”:一般情況下保持原始模型,主要確保知識與準確性,僅在需要時啟用“人設行為”。

在實現上,它借助了一種叫 LoRA(低秩適配)的技術,通過一個“門控機制”來自動判斷使用哪種模式。簡單來說,這就讓模型具備一種能力:該認真的時候就認真算,該演的時候再去演。

在論文的最后,研究人員總結了一條非常實用的經驗法則:

● 當你更關心“對齊”(安全、格式、規則)時→可以加人設,并具體描述要求;

● 當你更關心“準確性和事實”時→ 不要加任何設定,直接提問。

某種程度上來說,“你是一位專家”這句話,本質上更像是寫給人看的,而不是寫給模型看的——它滿足的是人類對“專業感”的心理預期,卻未必真能提升結果質量。

有時候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長的事情。

參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬美金懸賞!

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改,到真實千倍并發下的吞吐量極限拉扯

不看資歷,只看絕對速度

挑戰DeepSeek?R1/KimiK2.5極致并發

入圍即能拿 1 萬美金

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特斯拉中國:官方版擴展塢上架了,售價 249 元!

特斯拉中國:官方版擴展塢上架了,售價 249 元!

新浪財經
2026-04-25 15:53:30
經緯度:“開門紅”,一線城市何以大幅跑贏全國

經緯度:“開門紅”,一線城市何以大幅跑贏全國

澎湃新聞
2026-04-25 09:16:29
毛主席:李克農是好人,當年我靠邊站沒有秘書,是他送來了葉子龍

毛主席:李克農是好人,當年我靠邊站沒有秘書,是他送來了葉子龍

史之銘
2026-04-24 15:06:18
太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

太瘆人!男子曬小區電梯圖,網友調侃豪華火化爐,評論區毛骨悚然

譚談社會
2026-04-23 01:58:02
醫生警告:每天吃一個西紅柿,就等于給血管“上鎖”?真相來了

醫生警告:每天吃一個西紅柿,就等于給血管“上鎖”?真相來了

荷蘭豆愛健康
2026-04-25 07:44:38
東方甄選宣布明明和天權離職

東方甄選宣布明明和天權離職

21世紀經濟報道
2026-04-25 14:00:59
羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

譚老師地理大課堂
2026-04-22 00:03:57
日本一媽媽連生兩個女兒均患怪病,倆姐妹以正常人5倍的速度衰老!19歲體重僅8.5公斤…

日本一媽媽連生兩個女兒均患怪病,倆姐妹以正常人5倍的速度衰老!19歲體重僅8.5公斤…

東京新青年
2026-04-24 18:25:37
同為14屆新秀,維金斯砍下15214分,恩比德約基奇呢?誰是得分王

同為14屆新秀,維金斯砍下15214分,恩比德約基奇呢?誰是得分王

兵哥籃球故事
2026-04-25 18:10:35
海外評測DeepSeek-V4:智能體任務排名開源第一,幻覺率上升,Token消耗大

海外評測DeepSeek-V4:智能體任務排名開源第一,幻覺率上升,Token消耗大

每日經濟新聞
2026-04-25 13:27:09
事態升級,中方軍艦越聚越多,四川艦和遼寧艦匯合,菲日休想鬧事

事態升級,中方軍艦越聚越多,四川艦和遼寧艦匯合,菲日休想鬧事

甜到你心坎
2026-04-25 09:50:11
華誼兄弟7年虧80億申請破產,王中磊落魄兒子美國瀟灑

華誼兄弟7年虧80億申請破產,王中磊落魄兒子美國瀟灑

圓夢的小老頭
2026-04-25 08:49:42
楊絳說:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

楊絳說:當你的孩子主動給你買衣服、買吃的,或者主動給你發紅包時,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下。因為..

大愛三湘
2026-04-25 09:51:37
小寶與王某雷,誰探訪花的數量更多?

小寶與王某雷,誰探訪花的數量更多?

挪威森林
2026-01-31 12:15:26
戲劇性一幕!匈牙利新總理官宣:正式任命安妮塔?歐爾班為外長!

戲劇性一幕!匈牙利新總理官宣:正式任命安妮塔?歐爾班為外長!

楓塵余往逝
2026-04-24 12:07:08
CBA最新消息!曝張慶鵬確定下課,姜偉澤或離開吉林男籃

CBA最新消息!曝張慶鵬確定下課,姜偉澤或離開吉林男籃

體壇瞎白話
2026-04-25 09:08:21
金價大消息!媽媽為女兒買近1斤黃金當嫁妝,總價60余萬元,省了近5000元,“工藝金條更保值,是留給女兒的‘壓箱底’資產”

金價大消息!媽媽為女兒買近1斤黃金當嫁妝,總價60余萬元,省了近5000元,“工藝金條更保值,是留給女兒的‘壓箱底’資產”

山東教育電視臺
2026-04-25 10:52:39
網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

網紅莫氏雞煲涼透了!從通宵排隊到空無一人,終究逃不過曇花一現

阿郎娛樂
2026-04-23 15:28:38
悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

悲催!37歲名牌大學畢業、年薪30萬女醫生被技術男嫌棄,當場崩潰

火山詩話
2026-04-24 06:14:58
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
2026-04-25 19:39:00
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

現場視頻:殲-15掛彈起飛硬剛外軍航母編隊滋擾

頭條要聞

現場視頻:殲-15掛彈起飛硬剛外軍航母編隊滋擾

體育要聞

火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

娛樂要聞

鄧超最大的幸運,就是遇見孫儷

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

旅游
手機
本地
時尚
公開課

旅游要聞

去馬登鄉尋找杜鵑花海,結果誤打誤撞,領略了數千畝蘋果花的風韻

手機要聞

W16周排名出爐:vivo第四、小米第五,冠軍還是它

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

上新|| 入夏第一件短袖,買它!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版