无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

端側跑大模型,現在也太簡單了

0
分享至

機器之心編譯

最近,我們都在關注旗艦級大模型的進步,其實本地運行的 AI 模型也迎來了重要的分水嶺。

在可行性和實用性方面,很多新模型已經實現了性能的跨越,不論智力、智能體(Agent)能力還是工具鏈成熟度,在最近半年里都有巨大的提升。

看起來已經能做到「點兩下就能跑」了。

本文作者 Vicki Boykis 是一家創業公司的創始機器學習工程師,主要從事推薦系統 / 個性化 / 信息檢索方面的工作。

此前,她曾在 Mozilla.ai 從事 LLM 和 LLM 基礎設施方面的工作,也曾在 Duo、Tumblr、Automattic 和 Comcast 從事機器學習和推薦系統方面的工作。

她最近發表的博客文章,在 HackerNews 上成了爆款:



我從本地模型剛推出時就開始和它們合作,現在它們已經做得出乎意料地好了。

我有一臺 2022 年款 M2 Mac,配備 64 GB 內存和 1TB 存儲空間。基于這樣的硬件,我一直都在使用:

  • Mistral 7B
  • Gemma 3
  • OpenAI OSS-20B
  • Qwen 3 MOE,以及其他一些 Qwen 變體,例如 Qwen 2.5 Coder。

在許多不同的系統設置中,例如:

  • 使用 Open WebUI 的原始 llama.cpp 文件
  • llama-cpp-python
  • Ollama
  • llamafiles
  • LM Studio

現在的本地模型,是個什么水平?

在大模型興起后,本地模型運行緩慢、難以使用是常態,而且對于大多數編程任務來說準確率不高。本地模型嚴重落后的觀點在很大程度上是正確的,直到 2025 年 8 月 OpenAI GPT-OSS 的發布才讓我們改變了這種看法。我沒有確鑿的科學證據 —— 我個人判斷一個模型是否足夠好的標準是「我是否需要將其與 API 模型進行比對」,而 GPT-OSS 是我第一個開始大幅減少這種比對次數的模型。

因此,我主要使用本地模型作為快速、個性化的谷歌,來解答不需要時效性的開發問題。

但是隨著谷歌最新發布的 Gemma 4 系列產品,我終于能夠在本地進行智能體編碼,并且循環的準確率 / 速度達到了前沿模型的 75% 左右,這真是令人難以置信。

目前為止,我一直使用 gemma-4-26b-a4b LM Studio 實現作為我的默認本地模型。到目前為止,我使用本地設置完成了以下工作:將一個 Python 腳本(原本是一個 notebook)重構為一個包含 5-6 個模塊的倉庫,并對該模塊進行代碼檢查,以確保泛型使用正確的類型提示(現在大多數前沿模型都會自動執行此操作,但并非總是如此)。



我還用它來校對一些博客文章、編寫單元測試,以及搭建一個基于雙塔模型的推薦系統倉庫,看看智能體在空白環境下會如何運作。以下是它生成的內容,雖然非常基礎,但仍然遠遠超出了我去年所能想象的范圍:





請注意,由于我將所有智能體工作流運行在具有有限執行權限的 Docker 容器中,因此環境受到限制。

我還在開發一款應用,用于篩選 arXiv 論文中的熱門話題。出于好奇,我讓 Pi 查看了我之前的 LM Studio 會話日志,想弄清楚我使用 LM Studio 的目的是什么:





不出所料,自從我開始參與 Rijksearch 項目以來,



這些任務都不是什么突破性的任務(再次強調,都是大量的個性化 Google / 文檔查找),但處理這些任務確實讓我的 GPU 和 RAM 得到了充分的使用,KV 緩存增長到了 64 GB RAM。



但對我來說,更重要的一點是,就在 6 個月前,這類任務即使再簡單,對于本地模型來說也是不可能完成的。

Gemma-4-12b-qat 雖然剛發布不久,但其性能與規模相比已經給我留下了深刻的印象。模型架構本身就非常有趣,并提出了一系列引人深思的問題,例如「如果我們受到性能和價格的限制,我們需要在架構上做出哪些權衡?」—— 這個問題在目前瘋狂的 token 淘金熱潮中還沒有真正被提出過。

本地運行 Agent 模型

但別光聽說,自己動手試試吧!如果你想運行本地智能體流程,你需要一個本地模型推理引擎、一個智能體框架以及本地模型工件。你需要配置智能體框架,使其指向你的本地推理端點,也就是通過推理引擎提供的已下載模型工件。

就我的本地設置而言,我目前使用 Pi 作為智能體框架,LM Studio 作為推理服務器,盡管如果我直接使用 llama.cpp 可能會更快 —— 這是未來實驗的一個潛在方向。

這篇文章(https://patloeber.com/gemma-4-pi-agent/)很容易理解,它指導我們如何用 Pi 和 LM Studio 設置智能體編碼,雖然我對文章中的設置做了一些調整。

1、模型:該文章推薦 Gemma 26B A4B,但 gemma-4-12b-qat 更新、更小、更快,而且準確性沒有太大損失。

2、安全性:我將所有 Pi 會話都運行在 Docker 容器中,并只授予其 bash 權限,這樣它就無法運行 Python 代碼或進行網頁瀏覽,盡管我計劃在另一個鏡像中允許 curl 用于我正在進行的一些研究工作。

3、智能體配置:由于我所有程序都在 Docker 中運行,所以我編輯了 Pi 的配置 models.json,以便讓 Pi 與模型通信。

"lmstudio": { "baseUrl": "http://host.docker.internal:1234/v1",

"api": "openai-completions",

"apiKey": "not-needed",

"models": [ { "id": "google/gemma-4-12b-qat",

"input": [ "text",

"image" ] } ] }

這是我的 Docker Compose 配置:

services:

pi:

build:

context: .

dockerfile: Dockerfile

image: pi-agent:0.74.0

init: true

stdin_open: true

tty: true

extra_hosts:

- "host.docker.internal:host-gateway" environment:

ANTHROPIC_API_KEY: ${ANTHROPIC_API_KEY:-} OPENAI_API_KEY: ${OPENAI_API_KEY:-not-needed} GEMINI_API_KEY: ${GEMINI_API_KEY:-} OPENAI_API_BASE: ${OPENAI_API_BASE:-http://host.docker.internal:1234/v1} # note that you'll need to specify a base if you also use OpenAI to access OpenAI's actual completions endpoint WHATEVER_API_KEY: ${WHATEVER_API_KEY:-} volumes:

- ${HOME}/.pi/agent/models.json:/config/models.json

- ${WORKSPACE:-.}:/workspace

- pi-config:/config

- pi-sessions:/sessions

working_dir: /workspace

volumes:

pi-config:

pi-sessions:

這是運行的 bash 腳本 pi。

#!/usr/bin/env bash

# Pi — Start the containerized Pi agent.

# Directory containing this script and the compose files.SCRIPT_DIR="(dirname "${BASH_SOURCE[0]}")" && pwd)"

# Workspace to mount into the container. WORKSPACE_DIR="${WORKSPACE:-$(pwd)}"case "$WORKSPACE_DIR" in

*) WORKSPACE_DIR="WORKSPACE_DIR" && pwd)" ;;

esacexport WORKSPACE="$WORKSPACE_DIR"

sandbox="${PI_SANDBOX:-0}"pi_args=()

while (($#)); do case "$1" in

--sandbox) sandbox=1 ;;

--no-sandbox) sandbox=0 ;;

*) pi_args+=("$1") ;;

esac shift

done

compose_files=( -f "$SCRIPT_DIR/docker-compose.yml" )if [[ "$sandbox" == "1" ]]; then # an even more secure sandbox compose_files+=( -f "$SCRIPT_DIR/docker-compose.sandbox.yml" )fi

# Derive a container name from the workspace directory's basename.# Sanitize to characters Docker accepts: [a-zA-Z0-9][a-zA-Z0-9_.-]*repo_slug="WORKSPACE_DIR" | tr -c 'a-zA-Z0-9_.-' '-' | sed 's/^-*//')"[[ -z "$repo_slug" ]] && repo_slug="workspace"container_name="pi-${repo_slug}-$$"

api_key_args=( -e OPENAI_API_KEY

-e DEEPSEEK_API_KEY

-e ANTHROPIC_API_KEY

-e GEMINI_API_KEY

cmd=( docker compose

--project-directory "$SCRIPT_DIR" "${compose_files[@]}" run --rm

--name "$container_name" "${api_key_args[@]}" pi

if ((${#pi_args[@]})); then cmd+=("${pi_args[@]}")fi

exec "${cmd[@]}"

我構建了 Docker 容器,并修改了它自身倉庫中的文件。然后,我在我正在編輯的倉庫中運行 Pi,這樣 Pi 就會啟動 Docker,從而避免因直接操作我的物理硬盤而擦除文件或目錄。此外,json 通過將自定義模型配置傳輸到容器中,運行在容器中的 Pi 也能夠訪問這些配置。所有這些在我的實驗中都運行良好。

本地模型仍然存在一些問題:推理速度可能較慢,上下文窗口較小且受限于你自己的硬件和生態系統,盡管像 LM Studio 和 HuggingFace 的「使用此模型」按鈕之類的工具已經大大簡化了相關工作。早期版本存在提示模板不匹配的問題。不過,這些問題通常都能很快得到修復。毋庸置疑,我不確定它是否已經完全準備好用于生產軟件開發。

不過,其優勢眾多,而且該生態系統至關重要,值得投資,尤其是在當下。本地化模式最吸引人的地方之一在于,你可以深入了解幾乎所有方面,例如實時觀察 token 推斷過程。



并觀察 token 的流入 / 流出。



你可以進行諸如更改本地上下文窗口、觀察性能提升或下降等操作,并深入了解 GPU 如何處理令牌。你可以更改系統提示符和量化設置。你可以對比不同的模型。你還可以更改和分析測試框架。

可能性無窮無盡,工具也只會越來越好。

參考內容:

https://vickiboykis.com/2026/06/15/running-local-models-is-good-now/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
退休要變天?若不出意外的話,2026年延遲退休將迎來4大轉變

退休要變天?若不出意外的話,2026年延遲退休將迎來4大轉變

阿萊美食匯
2026-06-24 08:37:56
35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

烈史
2026-05-30 13:23:41
稀土原來是我們農村的常見物

稀土原來是我們農村的常見物

蜉蝣說
2026-06-23 18:04:44
梅西第三場必須輪休,兩大替身誰會首發?

梅西第三場必須輪休,兩大替身誰會首發?

小潌拍客在北漂
2026-06-24 09:12:29
《中餐廳10》里昆凌的5個圈粉細節,才是她贏下周杰倫的全部籌碼

《中餐廳10》里昆凌的5個圈粉細節,才是她贏下周杰倫的全部籌碼

喵喵娛樂團
2026-06-23 16:34:00
蔡和森向警予之子:你想不想見出賣我母親和夏明翰烈士的大叛徒?

蔡和森向警予之子:你想不想見出賣我母親和夏明翰烈士的大叛徒?

水木史記
2026-06-24 03:52:17
對俄總攻開始?32國接到通知,德國已介入,澤連斯基當眾下死命令

對俄總攻開始?32國接到通知,德國已介入,澤連斯基當眾下死命令

快看張同學
2026-06-23 11:33:13
“開屏廣告沒了!”網友反饋稱百度地圖、高德地圖、網易云音樂等APP均已取消

“開屏廣告沒了!”網友反饋稱百度地圖、高德地圖、網易云音樂等APP均已取消

都市快報橙柿互動
2026-06-24 09:14:06
注意!南浦大橋即將全封閉施工三個月,交通分流方案公布→

注意!南浦大橋即將全封閉施工三個月,交通分流方案公布→

新浪財經
2026-06-23 21:35:12
別吹梅西了!阿根廷隱藏核心徹底爆發,斯卡洛尼離不開他

別吹梅西了!阿根廷隱藏核心徹底爆發,斯卡洛尼離不開他

瀾歸序
2026-06-24 05:57:33
東南亞人口拐賣最新套路:20萬一個人,落地就被賣進園區!

東南亞人口拐賣最新套路:20萬一個人,落地就被賣進園區!

命運自認幽默
2026-06-22 01:28:36
沉默96小時后,臺當局公開道歉,蔣萬安開始行動,兩岸已簽約成功

沉默96小時后,臺當局公開道歉,蔣萬安開始行動,兩岸已簽約成功

鐵錘簡科
2026-06-24 14:10:05
世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態

世界杯歷史性梅羅對決,阿根廷vs葡萄牙,C羅首次表態

余飩搞笑段子
2026-06-24 10:40:34
A股:緊急提醒2.5億股民!從今天6月24日起,A股或迎大級別調整行情?

A股:緊急提醒2.5億股民!從今天6月24日起,A股或迎大級別調整行情?

趨勢清風俠
2026-06-24 07:21:04
陪玩陪睡只是皮毛!繼關曉彤后,向佐再曝“猛料”,謝娜也沒逃過

陪玩陪睡只是皮毛!繼關曉彤后,向佐再曝“猛料”,謝娜也沒逃過

趣文說娛
2026-06-21 23:14:56
上世紀有人將一棵草種在密封玻璃瓶中,54年過去了,植物還在生長

上世紀有人將一棵草種在密封玻璃瓶中,54年過去了,植物還在生長

怪羅
2026-06-20 23:02:20
嘉年華?法媒:C羅雙響就像全村過年!比賽毫無含金量 淘汰賽或現原形

嘉年華?法媒:C羅雙響就像全村過年!比賽毫無含金量 淘汰賽或現原形

煙潯渺渺
2026-06-24 11:37:23
世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

世界杯小組賽前兩輪收官,最新奪冠概率:法國跌至第2,葡萄牙第6

球場沒跑道
2026-06-24 13:51:38
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
9000歐拒得漂亮!董路這巴掌,打醒的是整個中國青訓的遮羞布

9000歐拒得漂亮!董路這巴掌,打醒的是整個中國青訓的遮羞布

觀星娛記
2026-06-13 11:13:49
2026-06-24 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13346文章數 142680關注度
往期回顧 全部

科技要聞

豆包專業版上線:定價68-500元每月

頭條要聞

鄭麗文稱國民黨追求和平但不放棄自我防衛 國臺辦回應

頭條要聞

鄭麗文稱國民黨追求和平但不放棄自我防衛 國臺辦回應

體育要聞

字母哥,會把凱爾特人拆了嗎?

娛樂要聞

向佐向佑兄弟合體直播!母子終于和解

財經要聞

爆料人:如果我錯了,賠償坐牢都接受

汽車要聞

施鵬澤:為什么奧迪E7X強調座艙氣味安全?

態度原創

家居
本地
時尚
公開課
軍事航空

家居要聞

綠意盎然 自然之境

本地新聞

吃一次廣東龍舟飯,才懂什么是豪華盛宴

被40萬人追更的火焰魔術師,重塑古老燈工玻璃

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗代表:霍爾木茲海峽已免費開放

無障礙瀏覽 進入關懷版