“雙11”幕後:支付寶曾差4秒就崩潰,今年只需十幾人待命

類別: 新奇

今天的天貓“雙11”臨近了。2016年的“雙11”,支付寶交易峰值達到每秒12萬筆,是前一年的1.4倍,但你可能意料不到:支付寶專門為此提供技術保障的不到30人。

“今年‘雙11’,技術保障人員會降到十幾人,到2019年,‘雙11’將從一年一度的‘支付大考’變為常態化。”10月25日,螞蟻金服副總裁、首席技術架構師胡喜告訴澎湃新聞(www.thepaper.cn)。

在大家印象中,“雙11”當天,阿里應該是所有員工嚴陣以待,公司裡到處是帳篷、睡袋,桌上堆滿“紅牛”。

“以前確實是這樣,但現在越來越輕鬆了,希望今年不喝‘紅牛’,能慢悠悠喝紅酒。”胡喜笑稱。

“雙11”幕後:支付寶曾差4秒就崩潰,今年只需十幾人待命

2016年的“雙11”,支付寶交易峰值達到每秒12萬筆,是前一年的1.4倍。

澎湃新聞了解到,三四年前,支付寶還要將公司80%左右的技術人員投入“雙11”技術保障。更早的2010年,即“雙11”啟動第二年,支付寶當時幾百名技術人員全部坐在電腦前。

“一有問題立馬要處理,不行就重啟機器,容量不夠就加機器,靠‘人肉雲端計算’撐著。”胡喜告訴澎湃新聞,可問題還是出現了,險些讓支付寶乃至整個淘寶崩盤。

2010年“雙11”前,支付寶的系統規劃是按每年增長100%的餘量預估的,即系統保持一倍餘量。

“大家都覺得肯定夠了,出現問題也可以等到交易量增長到一定程度時加資源。”螞蟻金服技術長程立回憶,但當天零點剛過,交易量迅速攀升到平時最高值三倍,到7點還沒有下降。

“我們意識到當天的交易量一定會遠超系統容量。”程立說,所有技術人員如臨大敵,開始不停“搬資源”,哪裡有富餘的計算資源就拿來應急,再不夠就“砍業務”,把一些暫時可以犧牲的業務砍掉,將資源搬過來。

到23時59分30秒,眼看“雙11”就要結束,支付寶核心賬務系統突然報警。一名當時在場的技術人員向澎湃新聞描述:“嘀嘀嘀的警報聲讓每個人發急,負責資料庫的同事衝過來喊‘資源馬上耗盡!趕緊殺掉非關鍵應用!’”

那時,支付寶的賬務資料庫還沒有拆分,而所有交易都經過虛擬賬戶,一旦核心賬務系統出問題,支付寶所有業務都會停掉,資料庫再想恢復要很長時間——出現這種情況,對淘寶和支付寶都是災難性的。

幾秒鐘內,技術團隊決定臨時把一個會計系統的應用“殺掉”,騰出系統資源。

負責訊息系統的技術人員爭分奪秒地在機器上敲入一行行程式碼,緊急殺掉非關鍵應用。鍵入最後一行程式碼,將一個會計系統的應用“殺掉”,把資源釋放出來時,離資料庫崩潰只剩四秒。

“我們開始反思,支付寶怎麼頂住每年‘雙11’的業務量?”程立說,傳統型構架已無法支撐,“雙11”倒逼支付寶開始搭建雲端計算技術構架。

胡喜說,2010年是支付寶技術發展的拐點,“我們分析了整個業界架構,支付寶遇到的問題已不是任何現有業界技術可以解決的,必須自己趟出解決之道。”

從傳統型構架向雲端計算構架過渡,支付寶花了三年,自主研發了中介軟體、資料庫、大資料平臺。這個雲端計算架構,使後來的天貓“雙11”平穩進行。

“如果這件事做得晚一點,這幾年的‘雙11’就別想挺過來。”程立說,現在螞蟻金服已開始研發下一代構架,是一個適應資料開放、互聯、全球化的架構。

“2016年‘雙11’的技術保障可以說毫無壓力,理論上可以做到每秒百萬級的交易支付能力,今年應該會更輕鬆。”胡喜表示。

“雙11”幕後:支付寶曾差4秒就崩潰,今年只需十幾人待命原文請看這裡