1968 年的舊金山,計算機科學(xué)家道格拉斯·恩格爾巴特在一場后來被稱為「演示之母(The Mother of All Demos)」的發(fā)布會上,拿出一個帶著兩個金屬輪子的木制小盒子,向世界介紹了一個新物種:鼠標(biāo)。
那是人類第一次公開用手上的鼠標(biāo),去牽引屏幕里的數(shù)字光標(biāo)。此后的幾十年里,這根小箭頭幾乎無處不在。它穿過辦公軟件、游戲界面、瀏覽器窗口和無數(shù)張電子表格,成為人類進入數(shù)字世界時最熟悉、也最沉默的向?qū)А?/strong>
![]()
然而在這半個多世紀(jì)里,計算機的算力、形態(tài)和應(yīng)用場景幾乎改頭換面,鼠標(biāo)光標(biāo)的本質(zhì)幾乎沒有變過:它知道自己停在屏幕上的哪個坐標(biāo),知道 X 和 Y,卻不知道你指向的是一行代碼、一張發(fā)票,還是一張風(fēng)景照。
面對眼前不斷閃爍的像素,它能做的事情依舊相當(dāng)樸素:點擊,拖拽,等待下一次點擊。
今天,Google 要用 Gemini 重新發(fā)明鼠標(biāo)光標(biāo)。
![]()
在剛剛落幕的 Android Show 上,Google 幾乎把圍繞 Android、AI 與硬件生態(tài)的規(guī)劃攤在了臺面上。其中,一項名為「魔法指針(Magic Pointer)」的新功能,給古老的鼠標(biāo)光標(biāo)裝上了「眼睛」和「大腦」。
Google 的意圖不言而喻,未來的 AI 交互不該依賴冗長的提示詞,只需像在現(xiàn)實生活中一樣,指著屏幕說一句:「把這個,移到那里。」那么問題來了,當(dāng)鼠標(biāo)光標(biāo)終于學(xué)會「看懂」屏幕,它究竟會把人機交互帶向哪里?
![]()
這根睜開眼睛的 AI 箭頭,到底能干嘛?
要理解這項技術(shù)的意義,必須先看清當(dāng)下 AI 工具最別扭的一面:交互成本。
過去幾年,大語言模型的能力一路狂飆,但使用門檻居高不下。為了讓 AI 準(zhǔn)確理解意圖,用戶被迫學(xué)習(xí)一套復(fù)雜的「提示詞工程」:設(shè)定角色、補充背景、限定輸出格式。為了一個簡單的需求,寫出幾百字小作文更是家常便飯。
不僅如此,典型的 AI 工具通常運行在獨立的網(wǎng)頁或應(yīng)用窗口中,頻繁打斷用戶的工作流。比如當(dāng)你在閱讀一份 50 頁的 PDF 時想讓 AI 總結(jié)一張圖表,通常需要經(jīng)歷:截圖 -> 保存 -> 打開瀏覽器 -> 進入 AI 網(wǎng)頁 -> 上傳圖片 -> 輸入提示詞。
![]()
Google 將這種繁瑣的跨應(yīng)用操作稱為「AI 繞路(AI detours)」。這種跳轉(zhuǎn)不僅效率低下,也容易打斷人們工作時的注意力集中狀態(tài),即所謂的「心流」。
為此,Google 提出的第一個交互原則,就是「保持心流」。在他們展示的實驗性 AI 光標(biāo)原型中,AI 的能力不再局限于某個特定的 App 或網(wǎng)頁,而是附著在鼠標(biāo)光標(biāo)上,隨時待命。
觸發(fā)方式也盡量克制:無需記憶任何快捷鍵,只需輕輕「晃一下」鼠標(biāo),AI 界面便會基于當(dāng)前懸停的內(nèi)容自動浮現(xiàn),給出極具語境的操作建議。選中圖,它會詢問是否「對比」;懸停于段落之上,它會主動提供潤色方案。
![]()
整個過程沒有任何需要學(xué)習(xí)的指令,完全跟著直覺走。來看幾個極其直觀的場景:
第一,看圖說話的終極形態(tài)。
當(dāng)你在瀏覽一張卡通的城市風(fēng)景照時,傳統(tǒng)鼠標(biāo)只能點擊圖片放大。但現(xiàn)在,你只需把 AI 光標(biāo)懸停在照片背景里的一棟建筑上,然后對著麥克風(fēng)說一句:「給我移動圖片的元素到這。」
![]()
不需要解釋「這兒」是誰,也不需要描述建筑外觀。AI 光標(biāo)會直接理解你所指向的像素,識別出對應(yīng)元素,并成功移動。
過去,鼠標(biāo)只能告訴系統(tǒng)「我點了哪里」;現(xiàn)在,它開始告訴系統(tǒng)「我指的是什么」。
第二,少寫提示詞,多用自然指代。
當(dāng)你在網(wǎng)頁上看到一份極其復(fù)雜的烘焙菜譜,你不需要復(fù)制粘貼,也不需要寫「請將以下菜譜里的所有食材分量乘以二」這種書面語。你只需要用光標(biāo)高亮那段文字,然后隨口說一句:「把『這些』的分量翻倍。」
![]()
唰的一下,AI 直接在原地給你改寫了一份新菜譜。
第三,將像素轉(zhuǎn)化為可交互實體。
在計算機眼里,屏幕只是幾百萬個發(fā)光的像素點。但 AI 光標(biāo)能將死板的像素(Pixels)轉(zhuǎn)化為活的實體(Entities)。
比如,你正在看一段旅行 Vlog,視頻里閃過一家看起來很棒的餐廳。你按下暫停,把光標(biāo)指過去,原本死氣沉沉的視頻畫面瞬間變成了一個真實的、可交互的地點,旁邊直接彈出了這家餐廳的訂座鏈接。
![]()
再比如,你隨手拍了一張寫滿鬼畫符的便利貼,鼠標(biāo)一指,墨跡直接變成了一個可以打勾的 To-Do List。發(fā)現(xiàn)了嗎? 以前,是你去找 AI;現(xiàn)在,是 AI 順著你的鼠標(biāo),乖乖來到了你的指尖。
殺死 AI 提示詞,回歸人類直覺
仔細(xì)想想,人類最強大的溝通工具其實是代詞。
當(dāng)你和同事坐在屏幕前修改設(shè)計稿時,你絕對不會字正腔圓地說:「請將屏幕左上角坐標(biāo) (X:120, Y:350) 處的藍(lán)色矩形向右移動 50 個像素。」你只會指著屏幕說:
「把這個,往右挪一點,弄淡一點。」
「那個餐廳看起來不錯,怎么去?」
「這段代碼里的這個報錯是什么意思?」
在日常生活中,我們極度依賴「這個」和「那個」。手勢配合著極簡的口語,才是人類最高效的溝通密碼。究其原因,我們身處同一個物理空間,共享著同一套視覺上下文。
![]()
Google 敏銳地抓住了這一點,并將其提煉成了一條產(chǎn)品原則:擁抱「這」與「那」的力量(Embrace the power of This and That)。
與其強迫人類去學(xué)習(xí)復(fù)雜的提示詞框架,不如反其道而行之,把表達(dá)意圖的臟活累活從我們身上剝離出去,讓機器去適應(yīng)人類最慵懶、最本能的「指手畫腳」。
好消息是,這套交互方式已經(jīng)開始落地。Chrome 瀏覽器里的 Gemini 從今天起率先支持;Google 全新推出的筆記本電腦產(chǎn)品線 Googlebook,則將「Magic Pointer」直接內(nèi)置進了操作系統(tǒng)層面,覆蓋所有應(yīng)用。
Googlebook 的野心不止于鼠標(biāo)。Google 將這個產(chǎn)品線定義為「Android 手機的完美伴侶」。
![]()
類似蘋果的 iPhone 鏡像,用戶可將 Android 應(yīng)用無縫投射到 Googlebook 桌面,以原生比例運行,并在文件管理器中跨設(shè)備自由穿梭,徹底打破手機、平板與筆記本的生態(tài)壁壘。此外,Gemini 還能依你所需,在桌面生成專屬動態(tài) Widget(比如旅客的實時航班卡片)。
在硬件設(shè)計上,所有 Googlebook 機型都會在機身上集成一條「Glowbar」發(fā)光條,讓你一眼就能分辨出它與傳統(tǒng) Chromebook 或 Windows 筆記本的區(qū)別。
![]()
首批 Googlebook 將由宏碁(Acer)、華碩(Asus)、戴爾(Dell)、惠普(HP)和聯(lián)想(Lenovo)制造,預(yù)計今年秋天上市。
有意思的是,三星缺席了這份名單。近期的消息顯示,三星可能正在籌備一款搭載 Google 新系統(tǒng)的 Galaxy 筆記本,其下一場 Unpacked 發(fā)布會據(jù)傳定在 7 月 22 日。
至于底層的驅(qū)動核心,Google 雖未指名道姓,但通篇強化的「為智能而生的現(xiàn)代操作系統(tǒng)」以及 Android 與 ChromeOS 的深度融合,種種跡象均指向了傳聞已久的 「Aluminum」系統(tǒng)。
這意味著,AI 開始成了操作系統(tǒng)級別的基礎(chǔ)設(shè)施。而當(dāng) AI 真正化身為你的鼠標(biāo)光標(biāo),它便擁有了介入萬物的權(quán)限——所見即所得,所指即所控。
AI 人機交互,迎來十字路口
回望 1968 年,那個驚艷世界的初代鼠標(biāo),功能簡單得令人發(fā)指:追蹤位置。 這五十多年來,鼠標(biāo)加了滾輪、加了側(cè)鍵、甚至加了風(fēng)扇和配重塊,但它的靈魂依然是一張白紙:它準(zhǔn)確地標(biāo)記著坐標(biāo),卻永遠(yuǎn)無法理解坐標(biāo)背后的意義。
Google 的 AI 光標(biāo)完成了交互史上罕見的進化:它不僅知道你在哪,更知道那是什么。
過去一年,無數(shù)拿了融資的創(chuàng)業(yè)公司擠破頭,試圖造出下一個「AI 時代超級入口」。大家瘋狂地卷對話框的擬真度、卷 Agent 的復(fù)雜工作流。但 Google 這次用行動給全行業(yè)結(jié)結(jié)實實地上了一課:
最好的科技是什么?是潤物細(xì)無聲。聊天框(Chatbox)從來都不是 AI 的最終形態(tài),它只是一種過渡期的妥協(xié)。最好的 AI,應(yīng)該退居幕后,成為一種附著在你日常動作上的基礎(chǔ)設(shè)施,而不僅僅是某個需要單獨打開的應(yīng)用。
![]()
從黑底白字的命令行(CLI),到圖形界面的鼠標(biāo)點擊(GUI),再到移動時代的觸屏滑動(NUI)。過去幾年,大語言模型讓我們短暫地倒退回了打字交流的時代,讓無數(shù)人患上了 Prompt 焦慮癥。
但今天過后,我們知道了,那不過是黎明前的一段彎路。真正好用的 AI,終究要學(xué)會像人類一樣思考:看懂你的每一個眼神,聽懂你的每一句「把這個,放到那兒去」。
58 年前,當(dāng)?shù)栏窭埂ざ鞲駹柊吞匚兆∧莻€簡陋的木制鼠標(biāo)時,他的終極夢想是「增強人類的智慧」。
58 年后,當(dāng) AI 附身于這個古老的指針,機器終于開始真正「看懂」這個世界。屬于提示詞工程師的時代終將落幕,人機交互的終極閉環(huán),也將在一句句含糊不清的「這個、那個」中,向前邁出歷史性的一大步。
附體驗地址:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true
https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true
*封面由 AI 生成
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.