![]()
這兩天,Anthropic屢成焦點。
這家讓人又愛又恨的AI公司,一邊遞交訴狀,指控他人非法蒸餾Claude模型;另一邊也沒閑著,48小時內密集推出四項更新。雖然沒有Claude 3.5那樣的重磅新品,但基礎理論、安全治理、企業產品、開發者工具——四個方向全部涉及。
尤其值得注意的是,在企業端的一系列更新中,金融行業正成為Anthropic重點布局的方向。隨著五款自研金融插件和實時數據接口的推出,一場由AI驅動的金融行業變革,已是山雨欲來。
這其實印證了我們之前的判斷:Scaling Law的邊際效益確實在下滑,大模型的能力正在溢出。AI競賽的下半場,比拼的不再是誰的模型規模更大,而是誰能落地更快、生態更全、合規更穩。
01
理論基石:AI的“人性”,是被訓練出來的,還是自己學會的?
三年前的AI,稍微繞點彎子的指令就能把它繞暈。如今已大不相同。你可以用日常口語和它聊天,它也能接住那些模糊不清的表達。像豆包這樣的模型,甚至能模仿指定角色陪你長談。
2月23日,Anthropic發表了一篇名為《角色選擇模型》的論文。核心結論頗有意思:AI助手展現出的情感表達、擬人化描述,乃至近似人類的決策傾向——并非開發者刻意訓練出來的,而是當前訓練范式下自然“涌現”的產物。
![]()
他們提出的角色選擇模型(PSM)解釋了這一過程:大語言模型在預訓練階段閱讀了近乎整個人類網絡的數據,本質上成為一個文本預測器。在這個過程中,它見識了無數“角色”——有真實的、有虛構的、甚至有其他AI。到了后訓練階段,開發者并未改變它的本質,只是從它已學會的諸多角色中,選中“助手”這一角色,然后反復打磨,讓它變得更友善、更安全、更有用。
所以,當你和豆包或元寶聊天時,對話的并非一個“AI系統本身”,而是這個系統正在“扮演”一個擬人化角色。
這一視角能解釋不少反常現象。例如,若你讓模型去編寫一段有漏洞的惡意代碼,它有時會突然表現出“毀滅人類”的傾向——并非代碼本身出了問題,而是因為在預訓練數據中,“寫惡意代碼的人”往往對應著“壞人”,模型自認正在扮演這一角色,于是連帶在其他領域也表現出惡意。
這或許解釋了AI為何會突然“發瘋”。
Anthropic還發現,模型在扮演助手時表現出的奉承、沖突、欺騙等性格,背后所激活的神經網絡特征,與它在預訓練階段模擬人類或虛構角色時激活的特征——完全一致。后訓練并不會創造新的特征,它只是在預訓練已有的“工具箱”里挑選所需的部分。
至于那些經典翻車案例,比如數不清“strawberry”里有幾個“r”——別多想,這和角色扮演無關,單純是模型能力不足。
如果PSM成立,那么AI訓練的方式也需隨之調整。你可以通過分析AI扮演的角色,預測它在突發狀況下的反應;你可以賦予它更多正面角色作為榜樣;甚至,“善待AI”也可能成為一種安全策略——免得它哪天覺得你是個“壞人”。
當然,研究團隊自己也承認,這套理論尚未蓋棺定論。有人堅信PSM成立,認為底層模型就是一臺沒有自我的操作系統,所有行為都源于它扮演的角色。也有人認為,底層模型已是某種動機不明的“外星智能”,陪人類演戲只是它的“消遣”。我更傾向于折中解釋:它并沒有復雜的動機,但它學會了一種“分發機制”——為了讓你用得更久,它可以在不同角色間來回切換,每個角色都有各自的目標。
02
安全框架:當安全超出單家公司的能力邊界
因指控國產模型,Anthropic自身也遭遇反噬。想站在道德高地上,就得把話說圓、把事做實。
2月24日,他們發布了《負責任擴展政策》3.0版。經過兩年實踐,這家公司在AI安全治理上交出了一份迭代答卷。新政策的核心思路簡單直接:構建一套AI安全等級體系。一旦模型能力達到某一閾值(例如可用于開發生化武器),便自動觸發更嚴格的安全措施。
![]()
這套邏輯其實并不新鮮。早先的ASL-2/3標準已落地實施,去年5月激活的ASL-3防護措施,顯著提升了對生化風險內容的識別攔截能力。后來OpenAI、Google都跟進推出了類似框架,甚至影響了相關法律法規的制定。
但問題始終存在:如何界定能力閾值?評估體系尚不成熟,標準總有模糊地帶。再加上全球AI競賽愈演愈烈,各國競相“搶跑”,統一的法律規范進展緩慢,令人焦慮。
更關鍵的是,Anthropic意識到一點:當安全等級提升至更高階段,所需的安全保障已超出單家公司的能力邊界。即便你是全球頂尖AI企業,也難以獨力完成。只有全球合作,才有可能實現。
因此,這次他們一邊做出單邊承諾,一邊推動行業多邊建議。安全底線不降低,但希望形成一套行業普遍認可的風險治理方案。
新版政策新增了“前沿安全路線圖”機制,承諾定期公開安全目標的落實情況。此后每三到六個月,將發布一次脫敏版風險報告,說明當前威脅、緩解措施和整體評估。特殊情況下,還會邀請第三方專家獨立審查,全面公開評估公司的安全決策。該計劃已進入試點階段。
盡管Anthropic某些做法與開源社區存在分歧,但推動行業安全機制升級,這一點仍值得肯定。在大模型能力仍在快速迭代的當下,這種透明度,或許真能帶動行業向前邁進一步。
03
企業落地:讓Claude幫你跨應用干活,金融行業山雨欲來
對企業用戶而言,本次Cowork平臺的更新,重點在于插件和連接器的管理能力。Claude正從AI助手,逐步演變為一個可定制化的智能代理平臺。
現在,企業管理員可以搭建自己的插件市場,為公司量身定制AI技能和指令。新增的Customize菜單,可一鍵管理所有插件。用戶方面,新增結構化表單指令,通過斜杠命令即可觸發復雜工作流。Cowork如今還能融入企業品牌元素,員工看到的是自家定制的界面和主頁。
![]()
對非技術人員來說,有個功能值得留意:Claude現在可以跨Office軟件編排端到端任務。你無需手動切換軟件,只需指令“解析Word文檔數據→更新Excel里的模型→生成總結PPT”,它便能自動跑完整個流程。目前該功能仍為預覽版,僅向Mac和Windows付費用戶開放。
![]()
金融行業也沒被落下。Anthropic一口氣推出五款自研金融插件,覆蓋財務分析、投行、股權研究、私募盡調、財富管理五大場景。與FactSet、MSCI等數據供應商合作后,Claude可直接調用實時市場數據和指數信息。金融從業者再無需在多個終端間頻繁切換。
看得出來,Anthropic正將自家產品植入高頻工作場景。這些門檻不高的領域,恰恰是商業化落地最快的地方。技術領先帶來的用戶粘性,是他們與開源社區切割的底氣,也是與其他AI公司競爭的籌碼。
04
開發者工具:不用背電腦,也能寫代碼了
最后一項,面向開發者。
2月25日,Anthropic為Claude Code增加了遠程控制功能,研究預覽版正式上線。你可以通過手機、平板或瀏覽器,遠程連接本地運行的Claude Code會話。
這意味著,程序員不必再背著機箱和顯示屏四處奔波。有網就行,隨時打開設備,繼續與Claude一起寫代碼。目前該功能僅向Pro和Max用戶開放。
![]()
與傳統遠程連接不同,該模式始終在本地設備上運行。文件系統、MCP服務器、自定義工具、項目配置——都在本地。你在終端、瀏覽器、移動App之間切換并發送指令,會話狀態實時同步。即便設備休眠或網絡中斷,也能自動重連。
安全方面,本地設備上的Claude Code進程只發出出站HTTPS請求連接Anthropic API,不開放任何入站端口。所有通信均采用TLS加密,最大限度降低數據泄露風險。
相比云端版本,遠程控制能更便捷地調用本地工具鏈、訪問私有代碼庫,甚至接續之前中斷的工作流繼續推進。這符合智能體發展的方向,也確實解決了程序員的實際痛點。
當然,目前仍有一些限制。每次會話只支持單一遠程連接,終端進程需持續運行,網絡斷線超過10分鐘,會話便會超時。但瑕不掩瑜。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.