核酸檢測系統(tǒng)崩潰,東軟該不該背鍋?

以下文章來源于:深藍觀

微信圖片_20220906134917.jpg

 譚卓曌丨撰文

王晨丨編輯

9月2日晚,一個讓成都人難忘的周五。疫情又起的成都進行全民大篩時,核酸系統(tǒng)崩潰,群眾又冷又餓在雨天中排隊數(shù)小時。

其背后的軟件廠商——東軟集團被罵上熱搜。這一醫(yī)療信息化領域的“老大”、中國第一家上市的軟件公司,一夜之間被扒個底朝天,背上了“一個經(jīng)不起考驗的核酸系統(tǒng)”的罵名。

而此時,東軟也被“翻舊帳”:今年4月份,上海疫情時,當由萬達信息提供的“健康云”系統(tǒng),在做全民核酸篩查時被切換為東軟系統(tǒng)時,也一度陷入癱瘓。

成都這次核酸系統(tǒng)故障,技術層面的討論不止。有人猜測東軟沒有做好數(shù)據(jù)庫的分庫分表,有人認為東軟沒有進行壓力測試……

無論是哪一種分析,東軟都被打上了“技術不行”的標簽。

在行業(yè)人士看來,核酸檢測系統(tǒng)并非是簡單的“技術”系統(tǒng),而是一個響應甲方需求的應急、而又不算規(guī)范的“項目”。在實力上,東軟并非如此不堪,雖然在某些具體技術上,可能不及互聯(lián)網(wǎng)大廠,但在項目集成上,這一老牌信息化廠商在業(yè)界口碑并不算差。

9月3日下午,東軟做出回應,認為目前出現(xiàn)的系統(tǒng)響應延遲、卡頓等現(xiàn)象與核酸檢測系統(tǒng)軟件無關,而是網(wǎng)絡出現(xiàn)故障。對于這樣一份被認為是甩鍋式的回應,不買賬的不僅是成都人民。

在疫情下,全民核酸檢測這兩年里,杭州、澳門 、西安、上海等十多個城市先后有過核酸系統(tǒng)崩潰故障。有的軟件供應商快速解決問題,而有的問題卻遲遲得不到解決?!斑@么多城市已經(jīng)有過前車之鑒,為什么還一個個接著出現(xiàn),難道這個問題的鍋只甩給軟件廠商?

上述人士對全民指責軟件廠商不解,他認為技術的漏洞向來不是最重要的癥結所在。軟件廠商真正難辭其咎的是在于企業(yè)管理層面,是否愿意砸資金、砸預算、砸團隊?據(jù)業(yè)內人士分析,僅成都一個城市,需要的軟件廠商運營人員應該有百人左右。而作為甲方,面對一個非高頻使用、但一旦進入應急狀態(tài)要求極高的核酸檢測軟件時,是否愿意加大投入?“成都的問題需要引起其它城市管理層的注意,否則隨著天氣變冷,出現(xiàn)類似的問題將非常麻煩?!?/span>

而這些問題如不厘清,東軟不會是最后一個眾矢之的。


-01-

技術和管理存在不足

東軟被送上熱搜的當天,另一個西南省份——貴州省的核酸檢測系統(tǒng)同樣出現(xiàn)異常。但這一新聞,在云上貴州大數(shù)據(jù)公司發(fā)布的真摯致歉信中,悄無聲息地收尾了。

在使用健康碼做全民核酸檢測的這兩年里,有更多類似信息被湮滅。

據(jù)紅星新聞整理,2020年5月6日,杭州健康碼無法打開;2021年5月7日,澳門健康碼連續(xù)兩日出現(xiàn)異常情況;2021年8月2日,山東健康碼卡頓;2021年12月20日,西安一碼通崩潰;2021年12月25日,天津健康碼出現(xiàn)異常;2022年1月10日,廣東地區(qū)日常使用的粵康碼和天津市核酸檢測系統(tǒng)相繼被曝系統(tǒng)崩潰;2022年4月14日,上海健康云故障——這也是出現(xiàn)在東軟系統(tǒng)上線時。

 “每當一個城市核酸系統(tǒng)出現(xiàn)問題,信息化領域就討論一兩天?!币患裔t(yī)療信息化服務商高層對此已司空見慣。

他所在的公司原本負責地級市的醫(yī)療信息化項目,當中標西北某一個省份的健康碼運營后,系統(tǒng)訪問量從原來的幾十萬擴增到幾百萬,系統(tǒng)一下子出現(xiàn)卡頓。

核酸系統(tǒng)崩潰的原因幾乎都是因為并發(fā)量太大。好比一個衣柜里放了鞋子、衣服、褲子,有人要穿鞋,有人拿衣服,有人拿褲子,當所有人都涌入一個衣柜門的時候,衣柜就不夠用。這個時候,技術人員需要把鞋放一起,把上衣歸置起來,把褲子疊一塊,多開幾個衣柜門。還是不夠用,開更多的門,逐步去優(yōu)化。

網(wǎng)絡也是如此,在同一時間節(jié)點,當千萬級別的訪問量全部涌向目標服務器時候,就如早高峰時期的高速路出口,全線擁堵。行業(yè)技術控們把這種情況稱為高并發(fā)。

硬件和軟件上,任何一個小毛病和小細節(jié),都會導致最終的崩盤。具體原因,需要根據(jù)“系統(tǒng)日志”,這一記錄了系統(tǒng)運行狀況的東西來一一排查。硬件基礎設施,包括服務器的內存、網(wǎng)絡存儲,還有國家特別重視的安全問題。剩下的才是架構設計、代碼、數(shù)據(jù)庫這些軟件應用系統(tǒng)。

至于東軟的問題到底出在哪里,上述人士認為,沒有拿到東軟系統(tǒng)的日志情況之下,很難下判斷。它的健康碼中間連了多少個第三方系統(tǒng)、有多少接口,目前都不清楚。

看似簡單的核酸碼背后,有無數(shù)的第三方系統(tǒng)與接口,這一些看不見的鏈接,如毛細血管般縱橫交錯。一旦一方出了差錯,也會影響最終運行。

毋庸置疑的是,東軟在技術和管理的細節(jié)層面存有不足。“我們給醫(yī)院做系統(tǒng)的時候,同樣的系統(tǒng),在別的醫(yī)院可以,但到了某一個醫(yī)院就不行,這里涉及到每家公司給的接口、形式不一樣。雖然中間程序是一樣的,但整個接口方式,提供的硬件,都是有偏差的?!币晃恍袠I(yè)人士提及,在訪問量沒那么大的時候,這些小毛病都被掩蓋掉,但突然一秒鐘就上來幾十萬或幾百萬訪問的時候,是不容許企業(yè)犯錯的。而東軟,很顯然在細節(jié)上沒有處理好。

好的系統(tǒng)都是用出來的。不用的時候,都會覺得那些是小問題,一旦用起來,尤其是在訪問量大的時候,小毛病就會以幾何級數(shù)無限倍放大。

而多位業(yè)內人士認為,東軟系統(tǒng)在多個北方城市核酸檢測時應用過,沒出過太大的問題,但這些運行良好的城市往往是人口在1200萬以下的中小規(guī)模的城市。“一旦進入人口2000萬以上的大型城市,進行全民核酸檢測的時候,東軟應該這方面的經(jīng)驗有限?!睎|軟在上海和成都出現(xiàn)問題,都因為這兩個城市都是人口超過2000萬人的超級城市,且做的是全城大篩。

一位核酸檢測企業(yè)人士回憶,后來東軟在上海的問題得以解決,是讓核酸檢測機構在夜里某個時段不集中上傳檢測結果——相當于在一條馬路上用分流的方式,解決了擁堵的問題。


-02-

標題:上海疫情兩個系統(tǒng)切換

上海核酸檢測,在今年4月中旬之前應用的是萬達信息的健康云。健康云系統(tǒng)也曾在4月初上海市疫情剛起時,有過一次系統(tǒng)崩潰,“但很快,問題就得以解決,主要還是帶寬等資源的問題。”一位業(yè)內人士回憶。

4月上旬,在上海,健康云的系統(tǒng)切換成了東軟的核酸檢測系統(tǒng)。東軟系統(tǒng)剛上線時,也出現(xiàn)過和成都此次類似的系統(tǒng)崩潰。

在上海一些核酸檢測企業(yè)看來,健康云系統(tǒng)是對核酸檢測企業(yè)比較友好的系統(tǒng),從用戶掃碼檢測,到裝車、運輸?shù)綄嶒炇?,每一步企業(yè)都可以從后臺查到。這意味著,一旦出了問題,企業(yè)很容易查到問題出在哪一步。當一些居民著急等核酸結果,電話給檢測企業(yè)時,企業(yè)工作人員憑借身份證號碼就能查到核酸檢測結果。

而核酸檢測企業(yè)和部分區(qū)和區(qū)以下的政府部門是沒有權限查看東軟系統(tǒng)內部核酸檢測進展的。當有居民在未出結果時致電檢測企業(yè)時,企業(yè)難以憑借居民身份證信息查詢。

但另一方面,相關人士認為,雖然對核酸檢測企業(yè)的服務不夠開放,東軟系統(tǒng)更有助于疫情集中管理。

東軟系統(tǒng)條碼不和居民身份證具體信息關聯(lián),意味著條碼可提前印刷,采樣的時候節(jié)省時間。但采樣時節(jié)省下的時間,需要上傳前預留信息核對的時間——這意味著壓縮了核酸檢測企業(yè)的檢測時間。


-03-

應急軟件的投入難題

“疫情總是突發(fā),給東軟的時間,并不是特別充裕,時間來不及的情況下,就會出岔子?!?/span>一位行業(yè)人士透露,這也是目前對所有的信息化廠商的考驗。疫情總是突如其來,如何在應急條件之下,快速解決并發(fā)量大的問題。

2011年,12306網(wǎng)站剛上線時,同樣因為卡頓而被噴得狗血淋頭。搶票軟件的加入,更加劇了它的堵塞。在春運高峰這一“極端條件”之下,網(wǎng)上購票的希望幾乎渺茫。而這就是一個邏輯比較簡單的賣票軟件,而就是這么一個簡單的軟件,一位行業(yè)人士指出,阿里卻用了好幾年的時間,投入了高昂費用,系統(tǒng)才得以優(yōu)化。

但核酸檢測不可能給廠商充足的時間調試。“在好幾個廠商跟平臺連接的情況下,解決高并發(fā)量的問題,就如同被束住手、束住腳,非常難。”一位行業(yè)人士指出。

某些地方健康碼工程,一開始只是一個獨立的小項目,由某一個大公司的小團隊在開發(fā)運作。但隨著防疫任務越來越重要,系統(tǒng)也需要升級迭代。從經(jīng)濟角度考量,不可能再推倒重來,企業(yè)只能開著飛機換引擎。原來用以代步的小奧拓,如今承載著賽車的職能,在這種情況下,給它改裝,難上加難。

這也涉及到政府和廠商是否愿意投入的問題。

核酸碼系統(tǒng),并不是高頻用的一個軟件系統(tǒng)。但使用的時候,對企業(yè)要求又極高,最高訪問量會突破原來系統(tǒng)極限,這就需要一筆新的投入來維護升級。實際上,無論是作為甲方的政府,還是乙方的廠商,都不愿意在硬件上投入過多。“一旦想到平時不用,投入意味著浪費。而往往是出了問題之后,才覺得這個事情很重要?!币晃会t(yī)療信息化從業(yè)人員坦言。

另外一些廠商則認為,核酸碼的業(yè)務場景不復雜,因此在前期投入中,尤其不愿意在騰訊云、阿里云服務器上投入過多。

他透露,某一個GDP較為落后的省會城市在服務器上的投入,一開始只有幾十萬的費用,因為疫情防控,最終到了百萬級別。這對于地方財政拮據(jù)的省份而言,已是一筆不菲的投入。

騰訊、阿里、華為等公司的云計算服務器,可以按月購買,擴容能力強,是應急情況之下的最佳選擇。但大多數(shù)地方衛(wèi)健委不會把這些高度敏感的數(shù)據(jù)交給第三方,反而更愿意購買實體服務器。

這些大鐵殼子般的實體服務器,帶來數(shù)據(jù)安全的同時,在應急條件之下會暴露一個缺陷:空間是否夠用。


-04-

多方協(xié)同問題

扒開技術層面的這一層外衣,管理問題會逐一顯現(xiàn)。

“每個城市疫情的應急預案里,原則上要考慮到最高峰的那個點上,到底有多大的并發(fā)量?!?/span>上述人士認為,這屬于項目管理本身的細節(jié)問題。

哪怕臨時通知說12點之后全員核酸,在這個情況下,管理上怎么應對,如何去協(xié)同?就小毛病而言,幾個廠商一起來跑一遍系統(tǒng),逐一排查軟件硬件,類似這樣的演練是必要的。

但事實上是,某個城市什么時候發(fā)生疫情,什么時間點做核酸,都是不可控的。核酸檢測采樣的調度、居民的安排,這些都是不確定因素,為急需確定性和規(guī)范化的軟件設計增加了難度。

“我們之前在西北那個省份,也沒做事先的排查。臨時通知上線系統(tǒng),真的來不及?!?/span>

這也是網(wǎng)民在指責東軟失職的一個關鍵點——內部的壓測是否到位?

這涉及到了與其他廠商的協(xié)同問題。一個系統(tǒng)工程背后,除了系統(tǒng)集成商之外,包括多個分包商。西安的一碼通,曾集結了電信、東軟、美林和安恒等公司。

大多數(shù)情況之下的壓測,各個廠商有點“各自為政”的意思。一般,軟件廠商會自己測試自己,鮮少幾家聯(lián)合起來測驗。“不同廠商坐在一起的時候,大家都覺得自己沒有問題,都會覺得是別人的問題。理由也會一致,我們的系統(tǒng)在別的地方跑過,沒出岔子。”

原則上,監(jiān)督管理部門要把所有廠商叫在一塊協(xié)同作戰(zhàn)。但一個廠商負責人坦言,在沒有頂層統(tǒng)籌的強壓之下,廠商之間的溝通和協(xié)調很難達成。甚至應對這一局面,各家的心思都極為微妙。

“每個廠家在系統(tǒng)上的投入都是一筆巨額開支,在應急狀態(tài)之下,如果上面領導沒表態(tài),也沒明確是公益性質還是有償?shù)母冻?,廠家相應選擇也是謹慎的?!?/span>

但東軟這一事件,也給一家醫(yī)療信息化廠商帶來一個集體反思——在系統(tǒng)部署之初,根據(jù)城市規(guī)模,先測算一下最高峰值訪問量,經(jīng)過應急演練、壓測演練之后,必須得和政府提出相應的資源配置。

在常州,一個500多萬人口城市,曾經(jīng)也出現(xiàn)過系統(tǒng)故障。在組織核酸檢測時,大白會提示,“打開場所碼,截屏即可,不要在同一時間點,大家都涌入一個系統(tǒng)中?!?/span>

這是技術層面之外,一個城市應急預案的管理能力問題。


聲明:本文觀點僅代表作者本人,不代表煜森資本立場,歡迎在留言區(qū)交流補充;如需轉載,請務必注明文章作者和來源。如涉及作品內容、版權和其它問題,請在本平臺留言,我們將在第一時間刪除。