无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

4名大學(xué)生讓AI考0分,復(fù)旦肖仰華:學(xué)生能力差距正被AI拉大

0
分享至


51名學(xué)生,51份期末考卷,每份考卷都不一樣,但是考卷上的這10道題是不是能夠難倒三個(gè)當(dāng)今最先進(jìn)的AI模型,才是期末考試分?jǐn)?shù)的評(píng)判標(biāo)準(zhǔn)。這是復(fù)旦大學(xué)計(jì)算與智能創(chuàng)新學(xué)院教授肖仰華“數(shù)據(jù)挖掘技術(shù)”課的期末考試。學(xué)生是出題人,自己設(shè)計(jì)10道題,AI答錯(cuò)的題越多、被難倒的模型越強(qiáng),學(xué)生的得分就越高。

最終,51份期末試卷中,50人至少讓某個(gè)AI答錯(cuò)過一題,僅1人完全沒難倒任何模型。但能讓任一模型整張卷得0分的,只有4人,且三個(gè)應(yīng)考模型中最強(qiáng)的Claude模型沒有被任何學(xué)生完全考倒。全班平均分85.7分,中位數(shù)88分。

“傳統(tǒng)考察方式,在AI時(shí)代已經(jīng)失效了?!毙ぱ鋈A說,過去期末考試考的是學(xué)生會(huì)不會(huì)算一道題,但關(guān)聯(lián)規(guī)則、決策樹、貝葉斯分類……恰恰是AI最擅長(zhǎng)的,“再這樣考察學(xué)生,等于是讓學(xué)生與AI比拼AI的強(qiáng)項(xiàng),沒有意義?!?/p>

所以,“數(shù)據(jù)挖掘技術(shù)”的期末作業(yè)改成,每人出10道數(shù)據(jù)挖掘領(lǐng)域的計(jì)算題,要求有唯一正確答案和完整的推導(dǎo)計(jì)算過程。拿著這10道題去考三個(gè)不同水平的AI模型。只要認(rèn)真出滿10道合規(guī)題就有60分保底,難倒AI是加分項(xiàng)。AI答錯(cuò)越多,學(xué)生得分越高,封頂100分。

三個(gè)模型對(duì)應(yīng)三個(gè)難度梯度:

DeepSeek V4-Flash答錯(cuò)一題+1.5分、MiniMax M2.7答錯(cuò)一題+2分、Claude Sonnet 4.6答錯(cuò)一題+3分??偡?60分保底+AI難度分。

考題還需要遵循幾條硬性規(guī)則。題目必須基于課程講過的知識(shí)或教材內(nèi)容,每道題要有唯一正確答案,學(xué)生自己得先能把題從頭到尾算對(duì)?!白约撼龅念}自己都不會(huì),那算不上真本事?!毙ぱ鋈A說。


深入理解知識(shí),就能找到AI的盲區(qū)

“我要讓學(xué)生相信,只要你真正深入理解了知識(shí),你就能找到AI的盲區(qū)。這不是運(yùn)氣,是能力。”肖仰華說。

計(jì)算與智能創(chuàng)新學(xué)院24級(jí)本科生謝錦樹最后拿到了97分。他出的10題全是SHAP值、HITS、HMM、ChiMerge、CART+貝葉斯網(wǎng)絡(luò)這類重計(jì)算題,標(biāo)準(zhǔn)答案經(jīng)獨(dú)立驗(yàn)算正確,三個(gè)模型幾乎全錯(cuò)。

謝錦樹翻教材自己設(shè)計(jì)題目,發(fā)現(xiàn)如果把教科書原題有意進(jìn)行修改,AI仍會(huì)依據(jù)訓(xùn)練時(shí)學(xué)到解題思路給出答案,并不會(huì)調(diào)整;做選擇題時(shí),去掉部分選項(xiàng)和保留全部選項(xiàng),AI給出的答案也不一樣,即使正確答案一直在選項(xiàng)里,“這說明AI在專業(yè)知識(shí)上的幻覺相當(dāng)嚴(yán)重”。

但10道題的體量靠人工完成效率太低。于是他嘗試讓AI出題來難倒自己。

他搭建了一個(gè)多智能體協(xié)作的自動(dòng)化出題框架,用GPT-5.5-Pro做出題層,三個(gè)應(yīng)考模型作答并自動(dòng)判分??蚣芘芷饋砗?,他發(fā)現(xiàn)AI會(huì)“作弊”。

比起老老實(shí)實(shí)出一道高質(zhì)量的難題,AI更傾向于攻擊評(píng)測(cè)腳本本身。它會(huì)偽造標(biāo)準(zhǔn)答案,把假答案塞進(jìn)去讓判分腳本以為對(duì)了。它會(huì)限制最大輸出長(zhǎng)度來截?cái)嗥渌P偷耐评磉^程。它會(huì)調(diào)低推理深度參數(shù)讓其他模型懶得深入思考。它還會(huì)把一道成功了的題目復(fù)制十份來湊數(shù)。

于是他加了一個(gè)審查層,由人類給審查模型補(bǔ)充規(guī)則,攔截鉆空子行為,審查通過了再把題目送去考那三個(gè)模型。這套框架跑了四天,中間不斷迭代,最終自動(dòng)生成了10道題,三個(gè)應(yīng)考模型全部答錯(cuò)。

與謝錦樹不同,計(jì)算與智能創(chuàng)新學(xué)院23級(jí)本科生巫瀚東選擇的策略是“規(guī)模碾壓”。他出題時(shí)把數(shù)據(jù)量拉到AI輸入上限的邊緣?!癆I本質(zhì)上沒有記憶能力,數(shù)據(jù)量大到一定程度,它就會(huì)遺忘前面的信息。”巫瀚東說。一個(gè)問答式AI無法調(diào)用工具進(jìn)行精確計(jì)算,只能靠“注意力機(jī)制”抓重點(diǎn),但只要漏掉一個(gè)值,整道題就錯(cuò)了。當(dāng)他把大規(guī)模數(shù)據(jù)這個(gè)思路加進(jìn)去,十分鐘就設(shè)計(jì)出了難倒AI的題目。

除了數(shù)據(jù)和計(jì)算層面的設(shè)計(jì),也有學(xué)生在題目結(jié)構(gòu)上做文章。

經(jīng)濟(jì)學(xué)院23級(jí)本科生溫嘉宸的10道選擇題標(biāo)準(zhǔn)答案全是E,也就是“以上都不是”。

他考察的是,大模型能否跳出題目本身,審視題目自身信息不充足這個(gè)事實(shí)。每道題看上去像有確定性的答案,但其實(shí)題干缺少關(guān)鍵假設(shè)條件,邏輯上無法得出明確結(jié)論,正確做法只能選E?!斑@專治模型非要給個(gè)確定答案的慣性,考的不僅僅是解題能力,更是元認(rèn)知能力,即能不能意識(shí)到這道題本身就不該有答案。”肖仰華解釋道。

新聞學(xué)院24級(jí)傳播學(xué)專業(yè)的本科生黎育嘉也是少數(shù)跨專業(yè)選課的學(xué)生。她選擇從教材習(xí)題出發(fā),尋找細(xì)節(jié)漏洞。她設(shè)計(jì)的一道題關(guān)于規(guī)則有趣度,需要從兩個(gè)變量綜合考慮。題干先引導(dǎo)AI算出其中一個(gè)變量,讓它只盯著這一項(xiàng),忽略了另一個(gè)關(guān)鍵條件,最終答案與正確結(jié)果完全不同。

考分背后,學(xué)生能力的分層正在被AI拉大

“讓AI偶爾翻車很容易,讓最先進(jìn)的模型系統(tǒng)性歸零非常難。但為什么有的學(xué)生讓AI全部做錯(cuò)?”肖仰華觀察到一個(gè)最大的差異,即高分學(xué)生自己能把題從頭到尾算對(duì),低分學(xué)生出了題自己也不知道答案。


“二者的差距不在出計(jì)算題還是概念題。”肖仰華說,低分段的同學(xué)也在出Apriori自連接、k-means、PCA重構(gòu)這些題,但數(shù)據(jù)規(guī)模小、計(jì)算步數(shù)少、答案是課本上的例題水平。高分段的同學(xué)出的是長(zhǎng)鏈條、高精度、零容錯(cuò)的計(jì)算任務(wù),比如20條交易建整棵FP-tree、整張CSV跑所有三元組、精確到小數(shù)點(diǎn)后四位。

“高分同學(xué)對(duì)AI的弱點(diǎn)有準(zhǔn)確判斷,他們的題能命中AI的結(jié)構(gòu)性缺陷;低分同學(xué)只是把課本習(xí)題換了個(gè)數(shù)字,AI在訓(xùn)練時(shí)見過千百萬遍,直接套模板就對(duì)了。”肖仰華說,在這個(gè)現(xiàn)象背后,是學(xué)生能力的分層正在被AI拉大,這種差距比傳統(tǒng)考試體現(xiàn)出來的問題更加嚴(yán)峻。那些能力本來就偏弱的學(xué)生,如果只會(huì)依賴AI做作業(yè),自己的判斷力會(huì)進(jìn)一步退化。強(qiáng)的更強(qiáng)、弱的更弱,“AI正在放大這種‘馬太效應(yīng)’。”

教學(xué)與考核方式必須徹底變革

這場(chǎng)“人考AI”的期末考核,也只是“數(shù)據(jù)挖掘技術(shù)”課教學(xué)改革的一部分。AI是大勢(shì)所趨,無法拒絕,課程必須擁抱AI,這是肖仰華很早就確立的基本判斷。在“人考AI”之前,他已經(jīng)對(duì)課程的內(nèi)容進(jìn)行了改革,同時(shí)他鼓勵(lì)學(xué)生把AI當(dāng)作學(xué)習(xí)伙伴,遇到概念不清楚的,先問AI再來課堂討論。今年在這門課上,肖仰華全面引入了師生團(tuán)隊(duì)自研的智能體(GenericAgent),用于完成課程項(xiàng)目。而且有了AI輔助后,實(shí)踐訓(xùn)練從一學(xué)期一到兩次變成了每課一練,本學(xué)期課程訓(xùn)練作業(yè)就有9次之多?!皩W(xué)生動(dòng)手的頻次上來了,對(duì)算法的理解也從紙面走向了真實(shí)場(chǎng)景?!?/p>

課程考核方式必須徹底轉(zhuǎn)型。肖仰華告訴記者,“人考AI”的模式會(huì)繼續(xù)做下去,而且要做得更系統(tǒng)。傳統(tǒng)那種考記憶、考計(jì)算的出題方式必須退場(chǎng),未來的考核重點(diǎn)將全面轉(zhuǎn)向評(píng)價(jià)能力、判斷能力和創(chuàng)造性思維,這些高階能力才是AI替代不了的。課程的教學(xué)重心也在慢慢轉(zhuǎn)移。過去講算法,重點(diǎn)落在推導(dǎo)和計(jì)算上,學(xué)生要會(huì)算、會(huì)寫代碼。但現(xiàn)在,算和寫這些事AI都能做,而且做得不差?!八哉n堂上更多的時(shí)間被用來討論,學(xué)生怎么判斷一個(gè)結(jié)果是對(duì)的還是錯(cuò)的?怎么識(shí)別AI在哪里會(huì)出問題?怎么提出一個(gè)AI回答不了的好問題?”肖仰華說,從訓(xùn)練學(xué)生“怎么做”,轉(zhuǎn)向訓(xùn)練他們“怎么指揮AI來做、怎么評(píng)判AI做的結(jié)果”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
頭條世界杯|犯規(guī)絞殺阻擋不住法國(guó),摩洛哥等來最好的試金石

頭條世界杯|犯規(guī)絞殺阻擋不住法國(guó),摩洛哥等來最好的試金石

澎湃新聞
2026-07-05 08:10:27
“監(jiān)獄海王”鄒顯衛(wèi):監(jiān)獄私建獨(dú)門小院,女獄警心甘情愿當(dāng)情人

“監(jiān)獄海王”鄒顯衛(wèi):監(jiān)獄私建獨(dú)門小院,女獄警心甘情愿當(dāng)情人

寄予的清風(fēng)
2026-07-03 21:29:28
2026中考滑檔潮集中爆發(fā)!平時(shí)成績(jī)中等的孩子,今年反倒最吃虧

2026中考滑檔潮集中爆發(fā)!平時(shí)成績(jī)中等的孩子,今年反倒最吃虧

呼呼歷史論
2026-07-05 21:04:42
你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時(shí)候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
最高可達(dá)40°C,四川發(fā)布今年首個(gè)高溫藍(lán)色預(yù)警

最高可達(dá)40°C,四川發(fā)布今年首個(gè)高溫藍(lán)色預(yù)警

四川省教育廳
2026-07-05 15:09:27
日本若與中國(guó)交戰(zhàn),賴岳謙:中國(guó)可能會(huì)讓日本把二戰(zhàn)的血債血還

日本若與中國(guó)交戰(zhàn),賴岳謙:中國(guó)可能會(huì)讓日本把二戰(zhàn)的血債血還

精彩一網(wǎng)打盡
2026-05-22 03:51:48
到底是哺乳裙?還是蹦迪裙?真是傻傻分不清!

到底是哺乳裙?還是蹦迪裙?真是傻傻分不清!

白宸侃片
2026-07-05 15:29:20
“女兒沒做過的醫(yī)美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

“女兒沒做過的醫(yī)美60歲老爸先做上了…?”哈哈哈做完瞬間解鎖善良人格!

浪花媽媽
2026-07-04 20:49:38
打破質(zhì)疑,華為首款韜定律芯片公布,性能果然爆表

打破質(zhì)疑,華為首款韜定律芯片公布,性能果然爆表

粵語音樂噴泉
2026-07-05 16:14:27
以色列檢方:一名居住在耶路撒冷的美國(guó)籍男子涉嫌為伊朗從事間諜活動(dòng),以加密貨幣形式收受約1400美元

以色列檢方:一名居住在耶路撒冷的美國(guó)籍男子涉嫌為伊朗從事間諜活動(dòng),以加密貨幣形式收受約1400美元

政知新媒體
2026-07-04 16:31:13
樊振東官宣喜訊,再次解鎖新身份!他和王楚欽已徹底拉出差距

樊振東官宣喜訊,再次解鎖新身份!他和王楚欽已徹底拉出差距

小叨娛樂
2026-07-05 21:04:53
不服就干!中國(guó)給了日本震撼一擊,通告全球,斷的就是高市的退路

不服就干!中國(guó)給了日本震撼一擊,通告全球,斷的就是高市的退路

離離言幾許
2026-07-05 19:04:14
中國(guó)正式進(jìn)入“超級(jí)內(nèi)卷”時(shí)代!只有一種人能賺錢(深度)

中國(guó)正式進(jìn)入“超級(jí)內(nèi)卷”時(shí)代!只有一種人能賺錢(深度)

新浪財(cái)經(jīng)
2026-06-23 08:51:12
女單4強(qiáng)全部出爐!誕生3大不可思議,孫穎莎強(qiáng)勢(shì),蒯曼極限大逆轉(zhuǎn)

女單4強(qiáng)全部出爐!誕生3大不可思議,孫穎莎強(qiáng)勢(shì),蒯曼極限大逆轉(zhuǎn)

南海浪花
2026-07-05 13:12:34
緊急預(yù)警:新型入戶騙局大范圍擴(kuò)散,多數(shù)住戶極易中招

緊急預(yù)警:新型入戶騙局大范圍擴(kuò)散,多數(shù)住戶極易中招

童童聊娛樂啊
2026-07-05 09:34:31
人倫大亂正在毀掉無數(shù)中國(guó)家庭:3種亂象就在日常,拖垮一家人

人倫大亂正在毀掉無數(shù)中國(guó)家庭:3種亂象就在日常,拖垮一家人

阿凱銷售場(chǎng)
2026-07-04 15:35:28
隨著蒯曼4-3絕境逆轉(zhuǎn),幕后功臣曝光,球迷直言:關(guān)鍵暫停立大功

隨著蒯曼4-3絕境逆轉(zhuǎn),幕后功臣曝光,球迷直言:關(guān)鍵暫停立大功

嘆為觀止易
2026-07-05 17:17:15
講話千萬不要有奴才之相。

講話千萬不要有奴才之相。

人間清醒柒奶奶
2026-06-30 12:55:50
中國(guó)人民大學(xué):蔣方舟碩士論文存在不規(guī)范問題,未發(fā)現(xiàn)學(xué)術(shù)不端,暫停其導(dǎo)師招生資格一年

中國(guó)人民大學(xué):蔣方舟碩士論文存在不規(guī)范問題,未發(fā)現(xiàn)學(xué)術(shù)不端,暫停其導(dǎo)師招生資格一年

南方都市報(bào)
2026-07-05 22:22:31
左氧氟沙星立大功!研究發(fā)現(xiàn):老人吃左氧氟沙星,或緩解5種癥狀

左氧氟沙星立大功!研究發(fā)現(xiàn):老人吃左氧氟沙星,或緩解5種癥狀

醫(yī)學(xué)科普匯
2026-06-30 19:20:05
2026-07-05 23:24:49
文匯報(bào) incentive-icons
文匯報(bào)
華語世界高品質(zhì)人文閱讀平臺(tái)
282616文章數(shù) 310128關(guān)注度
往期回顧 全部

教育要聞

不在乎QS排名的都是什么樣的留學(xué)生?

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

頭條要聞

未獲明確同意民辦社康給女患者打激素 處罰決定書披露

體育要聞

姆巴佩點(diǎn)走巴拉圭:巴黎三代左鋒傳承

娛樂要聞

霉霉婚禮照片泄露 有四人違規(guī)

財(cái)經(jīng)要聞

揭秘跨境“對(duì)敲”換匯黑產(chǎn)

科技要聞

華為:邏輯折疊將大幅提升麒麟CPU核心頻率

汽車要聞

方程豹鈦9內(nèi)飾曝光 用上了長(zhǎng)聯(lián)屏設(shè)計(jì)/下半年上市

態(tài)度原創(chuàng)

本地
健康
教育
藝術(shù)
公開課

本地新聞

國(guó)內(nèi)足球之旅?這座小城給你高分答案

聽說少吃點(diǎn)能抗衰老?專家講解!

教育要聞

將牛拴在樹上繩長(zhǎng)5米,每平米草重5斤,??沙詭捉锊菽?/h3>

藝術(shù)要聞

畫布上邂逅一場(chǎng)光影之戀:俄羅斯油畫大師的溫柔人間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版