上周直播的時(shí)候,發(fā)現(xiàn)Anthropic的skills倉(cāng)庫(kù)居然有更新了。
點(diǎn)進(jìn)去一看,然后居然發(fā)現(xiàn)了一個(gè)超級(jí)剛需的Skills迎來(lái)了更新。
就是這個(gè),甚至可以說(shuō)是整個(gè)Skills生態(tài)的基石。
Skill-creator。
可以說(shuō),現(xiàn)在小龍蝦的能力能這么強(qiáng),有一半的原因都要?dú)w功于Skills,而這些Skills能被創(chuàng)造出來(lái),幾乎都要?dú)w功于這個(gè)母Skills,Skill-creator。
我相信,任何一個(gè)看過(guò)我們過(guò)去關(guān)于Skills的文章,或者玩過(guò)Skills的朋友,都絕對(duì)不可能對(duì)這個(gè)Skill-creator陌生。
簡(jiǎn)單總結(jié)就是,這是Anthropic官方出的Skills生成器。
你可以用嘴描述出你的需求,然后直接用Skill-creator,幫你做成一個(gè)Skill。
如果有不了解的,可以去看一下我們過(guò)去的這一篇文章:自認(rèn)為寫的還是比較詳細(xì)的。
這周終于有時(shí)間,詳細(xì)翻了一下這次更新的Skill-creator的文檔,然后發(fā)現(xiàn),這次真的可以說(shuō),是史詩(shī)級(jí)更新也不為過(guò),強(qiáng)了太多太多了。
![]()
所以我覺(jué)得,值得寫一篇文章,來(lái)給大家聊聊,這次Skill-creator更新的新特性和新功能。
真的,所有的skills,都值得重新優(yōu)化一遍。
非常簡(jiǎn)單的說(shuō),這次他們一口加了4個(gè)全新的能力,分別是:
1. 評(píng)估系統(tǒng),跑完直接告訴你這個(gè)skill到底行不行。
2. 基準(zhǔn)測(cè)試,把通過(guò)率、耗時(shí)、token用量,全都量化。
3. 多代理并行測(cè)試,每個(gè)測(cè)試在干凈的環(huán)境里獨(dú)立跑,支持A/B盲評(píng),結(jié)果不互相污染。
4. 描述調(diào)優(yōu),可以自動(dòng)幫你改skill描述,該觸發(fā)的觸發(fā),不該觸發(fā)的就別亂觸發(fā)。
之前的Skill-creator其實(shí)一直有個(gè)痛點(diǎn),就是你生成完的Skills,其實(shí)是個(gè)黑盒,你完全不知道,這個(gè)Skills到底好不好用,它的質(zhì)量怎么樣,它的觸發(fā)機(jī)制合不合理。
用我們現(xiàn)代經(jīng)常提的工業(yè)化體系來(lái)說(shuō),就是缺少了一個(gè)很重要的東西,評(píng)估機(jī)制。
評(píng)估太重要了,一個(gè)好的評(píng)估,是真的可以引領(lǐng)方向的。
而現(xiàn)在,新版的Skill-creator,直接把整個(gè)評(píng)估體系,全都補(bǔ)上了。
我極力推薦大家,一定要更新到最新版。
更新方式也究極無(wú)敵簡(jiǎn)單,你直接把這段話,發(fā)給你的Agent就行,無(wú)論是Claude code、OpenClaw、OpenCode等等等等:
https://github.com/anthropics/skills/tree/main/skills/skill-creator,這個(gè)skills更新了,幫我更新到最新版本
對(duì),就這么一句話。
然后你的Agent,就會(huì)自己去更新了。
![]()
很快,就更新完了。
![]()
我用一個(gè)案例,來(lái)給大家演示一下新版Skill-creator的能力。
在之前有一篇文章中,我把Github上的yt-dlp做成了一個(gè)Skill,能從YouTube、B站等各種視頻網(wǎng)站下載視頻。
![]()
但其實(shí)我們后來(lái)發(fā)現(xiàn),光能下載視頻還不夠。
我還希望拿到視頻鏈接之后,能直接生成文字版的講稿。
而且如果是英文或其他語(yǔ)言的視頻,最好能直接給我中英雙語(yǔ)的講稿文檔。
所以正好,借著這個(gè)機(jī)會(huì),我就用skill-creator又搓了一個(gè)新skill。
提示詞很簡(jiǎn)單。
我想創(chuàng)建一個(gè)skill,我希望能夠?qū)崿F(xiàn)我給了一個(gè)視頻鏈接,它能夠把文字版的講稿發(fā)給我,如果是別的語(yǔ)言,最好是把原語(yǔ)言版和中文版的講稿文檔給我。
它會(huì)先問(wèn)你幾個(gè)問(wèn)題,確認(rèn)需求細(xì)節(jié),然后開(kāi)始幫你設(shè)計(jì)整個(gè)skill。
![]()
大概3到5分鐘,這個(gè)Skill就設(shè)計(jì)完了。
我拿一個(gè)OpenClaw創(chuàng)始人的YouTube訪談視頻來(lái)試一下。
![]()
就給了一個(gè)YouTube的鏈接。
五分鐘后,中文版的講稿就出來(lái)了。
![]()
但是,其實(shí)有個(gè)問(wèn)題。。。
這一大坨文字堆在一起,字又小又?jǐn)D。
根本沒(méi)法看。
這時(shí)候你就可以繼續(xù)對(duì)話,讓它給你優(yōu)化,幫你改進(jìn)這個(gè)skill。
![]()
新版的Skill-creator,在改進(jìn)的能力上,也有一些提升。
改進(jìn)之后的效果:
![]()
幾乎完美。
排版清晰,段落分明,這才像個(gè)文檔該有的樣子。
但這還沒(méi)完。
但這個(gè)時(shí)候,一個(gè)頭疼的問(wèn)題就來(lái)了,我害怕我的skills觸發(fā)會(huì)打架。
因?yàn)槲椰F(xiàn)在有兩個(gè)skill都跟視頻鏈接相關(guān)。
一個(gè)是yt-dlp,負(fù)責(zé)下載視頻到本地。
一個(gè)是剛做的講稿生成,負(fù)責(zé)把視頻轉(zhuǎn)成文字。
兩個(gè)skill的觸發(fā)條件都是給一個(gè)視頻鏈接,我害怕他們會(huì)打架,就是出現(xiàn)該觸發(fā)的不觸發(fā),不該觸發(fā)的亂觸發(fā)。
那就可以使用Skill-creator的評(píng)估體系了,讓它來(lái)幫你,進(jìn)行優(yōu)化skill描述。
它受會(huì)先讀取你當(dāng)前skill的描述,然后告訴你接下來(lái)要做四件事:
![]()
自動(dòng)生成兩組查詢,應(yīng)觸發(fā)的10條和不應(yīng)觸發(fā)的10條。
設(shè)計(jì)得很有意思。
故意把邊界情況都擺進(jìn)去,逼模型在模糊地帶做判斷。
![]()
然后,直接生成了一個(gè)網(wǎng)頁(yè),讓你確認(rèn),特別牛逼。
真的,我用到的時(shí)候都驚呆了。
![]()
所有查詢排在界面里,每一條右邊有個(gè)開(kāi)關(guān),標(biāo)著是否應(yīng)該觸發(fā)。
你可以逐條看一遍,覺(jué)得哪條判斷不對(duì),直接關(guān)就行。
打個(gè)比方,第三條這種情況,我不想讓它再觸發(fā)了,我就直接讓它關(guān)掉就行。
![]()
然后還有不應(yīng)該觸發(fā)的10條,我看了一遍,沒(méi)啥問(wèn)題。
![]()
所有的都確認(rèn)之后,這時(shí)候,你點(diǎn)導(dǎo)出評(píng)估集,就完事啦。
確認(rèn)完樣本之后,優(yōu)化循環(huán)會(huì)在后臺(tái)啟動(dòng),最多跑5輪迭代。
每一輪做三件事來(lái)幫你進(jìn)行測(cè)試和評(píng)估,整個(gè)過(guò)程大約需要10-20分鐘。
![]()
它害會(huì)定期匯報(bào)進(jìn)度。
跑完之后就是你就能看到一個(gè)巨型表格。
![]()
每一列是一個(gè)查詢樣本,每一行是一個(gè)迭代版本的描述。
綠色勾對(duì)勾表示觸發(fā)成功,紅色叉×表示沒(méi)觸發(fā)。
![]()
藍(lán)色列是測(cè)試集,其余是訓(xùn)練集。
![]()
它把樣本分成60%訓(xùn)練集和40%測(cè)試集,在訓(xùn)練集上迭代優(yōu)化,最終用測(cè)試集上的表現(xiàn)來(lái)選,防止過(guò)擬合。
跑完之后,最優(yōu)的描述會(huì)自動(dòng)寫回你的SKILL.md,全程不用你動(dòng)手。
Anthropic官方在自己6個(gè)文檔類skill上測(cè)了一下,5個(gè)觸發(fā)率都有提升。
僅僅就用新版的skill-creator優(yōu)化了一下,真的很牛逼。
![]()
通過(guò)這一步,能大大提升你的Skills的觸發(fā)準(zhǔn)確率。
但觸發(fā)對(duì)了,并不等于OK。
所以,你的Skill裝上并且能穩(wěn)定觸發(fā)之后,到底在實(shí)際任務(wù)上表現(xiàn)如何,這個(gè)能力,也還要評(píng)估一下。
我就繼續(xù)拿這個(gè)剛做好的skill來(lái)跑一遍,帶你大家看看整個(gè)過(guò)程。
直接對(duì)剛剛那個(gè)skill進(jìn)行一下評(píng)估。
![]()
它會(huì)先把你的skill文件完整讀一遍,搞清楚這個(gè)skill的核心流程是什么。
![]()
然后它會(huì)問(wèn)你:你更想測(cè)哪個(gè)方面?
我選了全面評(píng)估。
它根據(jù)skill的功能,自動(dòng)設(shè)計(jì)了三類測(cè)試場(chǎng)景,同時(shí)設(shè)計(jì)了量化驗(yàn)收標(biāo)準(zhǔn)。
![]()
確認(rèn)方案之后,它一次性啟動(dòng)了4個(gè)獨(dú)立子代理,同時(shí)跑。
![]()
這次4個(gè)并行的Agent來(lái)進(jìn)行測(cè)試,就很香了。
以前其實(shí)你也可以做一些簡(jiǎn)單的評(píng)估,但是,最大的問(wèn)題,就是會(huì)按順序跑,一個(gè)跑完再跑下一個(gè)。
但是大家都知道,上下文管理有多重要,前一個(gè)任務(wù)積累的上下文,會(huì)污染后一個(gè)的結(jié)果。
你以為是skill的功勞,但,其實(shí)完全是對(duì)話歷史幫了忙。
這次的評(píng)估,就對(duì)味了很多。
每個(gè)代理都在完全干凈的環(huán)境里獨(dú)立運(yùn)行,有自己的token 計(jì)數(shù)和時(shí)間指標(biāo)。
互相之間零交叉。
結(jié)果更快,數(shù)據(jù)更干凈。
等待的時(shí)候,它也順手就把量化評(píng)分腳本也準(zhǔn)備好了。
等測(cè)試結(jié)果回來(lái)之后,就直接自動(dòng)檢查格式是否符合要求,很多小細(xì)節(jié)全都在里面。
![]()
測(cè)試跑完,瀏覽器會(huì)里彈出評(píng)估查看頁(yè)面,有兩個(gè)標(biāo)簽頁(yè)。
輸出標(biāo)簽頁(yè),可以直接看每個(gè)測(cè)試用例的輸出。
下面還有一個(gè)反饋框,你可以直接標(biāo)注哪里不對(duì)、哪里需要改進(jìn)。
這些反饋會(huì)被存起來(lái),下次改進(jìn)skill的時(shí)候直接用。
![]()
另一個(gè)是基準(zhǔn)測(cè)試標(biāo)簽頁(yè),可以看有skill vs 無(wú)skill。
通過(guò)量化對(duì)比,一目了然。
![]()
數(shù)據(jù)這塊,也是極度量化。
![]()
有skill的通過(guò)率100%,無(wú)skill基線9%,差值91.5%。
費(fèi)用上,有skill每次大約4000token,無(wú)skill1750token,差了2250。
但這是skill帶來(lái)的額外消耗,對(duì)比產(chǎn)出的結(jié)果,值得。
但評(píng)估的價(jià)值遠(yuǎn)不止于此。
Anthropic官方也舉了個(gè)例子。
他們有個(gè)PDF skill,之前在處理表格時(shí)會(huì)出錯(cuò)。
Claude需要把文字精確的放在特定坐標(biāo)上,但因?yàn)闆](méi)有明確的字段做引導(dǎo),經(jīng)常放歪。
這個(gè)問(wèn)題在評(píng)估過(guò)程中被發(fā)現(xiàn),再進(jìn)行修復(fù)改進(jìn)定位邏輯后,問(wèn)題就解決了。
![]()
也就是說(shuō),找到問(wèn)題之后不用從頭來(lái)過(guò)。
評(píng)估結(jié)果會(huì)存在本地,下次你用skill-creator改進(jìn)這個(gè)skill的時(shí)候,它會(huì)把上次標(biāo)注的問(wèn)題直接帶進(jìn)去,針對(duì)那里改。
改完再跑一遍評(píng)估,看有沒(méi)有提升。
測(cè)試、發(fā)現(xiàn)、修、再測(cè),這個(gè)循環(huán)是完整的。
Anthropic把軟件開(kāi)發(fā)的一些嚴(yán)謹(jǐn)做法,比如測(cè)試、基準(zhǔn)、迭代改進(jìn)等等,這次引入Skills的創(chuàng)作流程。
真的,牛逼太多了。
這絕對(duì)對(duì)于所有人來(lái)說(shuō),都是一個(gè)史詩(shī)級(jí)增強(qiáng)。
你要知道,小龍蝦為什么那么強(qiáng),能做那么多的事,其實(shí)真不是因?yàn)樗旧碛卸嗯1疲兇馐且驗(yàn)椋砩蠏斓腟Kills,太多了,那都是一個(gè)一個(gè)的技能包。
可以說(shuō),Skills,就是整個(gè)Agent未來(lái)大繁榮生態(tài)的基石,而我自己,也一直極力的看好和強(qiáng)力推廣各種各樣的Skills。
所以,我極度建議,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都進(jìn)行優(yōu)化和評(píng)估一遍。
當(dāng)然,你得先分清楚,你寫的Skills是哪種。
因?yàn)楸举|(zhì)上,Skills其實(shí)分兩種。
第一種是能力提升型。
就是教Claude做它本來(lái)不擅長(zhǎng)的事。
比如官方的前端設(shè)計(jì)skill、文檔創(chuàng)建skill,里面寫了大量技巧,是你光靠Prompt根本拿不到的效果。
我們大多數(shù)人自己搓的skill,基本也都是這類。
第二種官方叫編碼偏好型。
就是告訴Claude按你的規(guī)矩來(lái)。
Claude本身每一步都能做,但你的skill把這些步驟按你團(tuán)隊(duì)的流程串起來(lái)了。
比如一個(gè)會(huì)議紀(jì)要整理skill,按你們公司固定的格式,自動(dòng)把錄音轉(zhuǎn)成帶行動(dòng)項(xiàng)的文檔。
或者一個(gè)周報(bào)生成skill,從各個(gè)平臺(tái)里拉數(shù)據(jù),按你要的格式排好。
你可以把這種,理解成一個(gè)Workflow,就是一個(gè)工作流。
對(duì)這兩種類型,評(píng)估的方向會(huì)稍微不太一樣。
對(duì)于能力提升型,測(cè)的是模型更新之后這個(gè)skill還有沒(méi)有存在的必要。
用A/B測(cè)試對(duì)比,有skill和沒(méi)skill各跑一次。
結(jié)果如果差不多,這個(gè)skill就可以退休了。
![]()
編碼偏好型測(cè)的是另一件事,它有沒(méi)有老老實(shí)實(shí)按你的流程走?
有沒(méi)有漏步驟?有沒(méi)有自作主張改了順序?有沒(méi)有忘了你特別說(shuō)過(guò)的某個(gè)要求?
所以會(huì)稍稍有一些區(qū)別,這個(gè)大家在自己評(píng)估的時(shí)候,可以注意一下。
回頭想想,以前造完一個(gè)skill,其實(shí)也就是自我感覺(jué)良好。
但說(shuō)實(shí)話,全是黑盒,根本不知道該怎么評(píng)估。
現(xiàn)在就舒服多了。
評(píng)估跑一遍,數(shù)據(jù)擺出來(lái),好不好用,一眼就見(jiàn)真章。
所有的Skills,真的都值得重新優(yōu)化和評(píng)估一遍。
Skills生態(tài)。
感覺(jué)又要迎來(lái)一波大繁榮了。
以上,既然看到這里了,如果覺(jué)得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見(jiàn)。
>/ 作者:卡茲克、可達(dá)
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.