14年Web開發(fā)經(jīng)驗,管過團(tuán)隊、扛過故障、熬過無數(shù)on-call夜。去年12月一個客戶投訴拖了三周沒解決——這位客戶之前從沒出過錯,我的直覺告訴我:問題在工具,不在人。
當(dāng)時用New Relic做鏈路追蹤,Sentry盯異常。兩個系統(tǒng)各說各話,查個問題要來回切。更憋屈的是,我付著兩份訂閱費,換來的卻是碎片化的排查體驗。夠了,我要造一個更好的。
理想很具體:高效(能扛IoT級高吞吐)、開箱即用(別讓創(chuàng)業(yè)公司再養(yǎng)一個運維團(tuán)隊)。
r/golang社區(qū)推薦的"標(biāo)準(zhǔn)答案",讓我踩了第一個坑
Reddit上高票答案是OpenTelemetry + Prometheus + Grafana。我研究了自建方案:至少跑3個獨立服務(wù)——OTel Collector收數(shù)據(jù)、Prometheus存指標(biāo)、Grafana做可視化。每個都有自己的運維負(fù)擔(dān),加起來就是三倍的心力消耗。
我要的是Sentry那種開箱感,Datadog那種一體化體驗。這個生態(tài)給的卻是碎片化的硬骨頭。情緒上頭,我開始在Reddit上跟人對線:OpenTelemetry不實用、效率低、設(shè)計有問題。
這個結(jié)論錯得離譜,但我花了三個月才想明白。
協(xié)議本身是無辜的,我把生態(tài)的鍋扣給了協(xié)議
OpenTelemetry的核心協(xié)議設(shè)計得相當(dāng)漂亮。它提供了一個極度靈活的中間層,讓高效、廠商無關(guān)的集成成為可能。Collector + Prometheus + Grafana的組合只是其中一種玩法,不是唯一解,更不是最優(yōu)解。
我真正想要的平臺,完全可以繞過這套"標(biāo)準(zhǔn)棧",直接基于協(xié)議本身重建。這個認(rèn)知反轉(zhuǎn)來得太晚,已經(jīng)浪費了大量時間。
回頭看,我的初始項目Traceway走了另一條路:自定義協(xié)議、Go語言專屬。它能收trace、span、metric,也做了開發(fā)者工具加速排障。但"自定義"三個字本身就是天花板——鎖死語言、鎖死生態(tài)、鎖死未來。
三個月造輪子后,我理解了生態(tài)困境的真正來源
OpenTelemetry的周邊生態(tài)為什么難用?不是因為協(xié)議設(shè)計差,而是因為"靈活"被誤讀為"必須自己組裝"。廠商們樂于提供半成品,讓用戶在集成泥潭里掙扎,最后乖乖去買他們的托管服務(wù)。
這是一個經(jīng)典的激勵錯位:協(xié)議越開放,周邊工具越碎片化;工具越碎片化,用戶越傾向于付費托管。SaaS廠商沒有動力做真正開箱即用的開源方案——那等于斷自己財路。
我的Traceway后來轉(zhuǎn)向了:擁抱OpenTelemetry協(xié)議,但拒絕默認(rèn)的復(fù)雜架構(gòu)。目標(biāo)沒變——給中型創(chuàng)業(yè)公司一個省心的選擇——但路徑徹底換了。
給同樣在調(diào)研可觀測性方案的人
如果你也在Reddit上搜過"OpenTelemetry好不好用",大概率會看到兩種極端:要么吹成銀彈,要么踩進(jìn)泥里。我的教訓(xùn)是——先分清你在評價協(xié)議本身,還是評價某個廠商的集成方案。
協(xié)議是基礎(chǔ)設(shè)施,生態(tài)是商業(yè)戰(zhàn)場。前者值得信任,后者需要警惕。
你現(xiàn)在用的可觀測性工具,有多少時間花在查文檔、調(diào)配置、跨系統(tǒng)對時間戳上?如果這個數(shù)字超過30%,問題可能不在你。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.