中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時
7分鐘,這是來自中國的一支團隊“合力出成績”、一舉打破的世界紀錄:全球首次將人類全基因組分析,推進分鐘級時代。這支團隊,由三家來自中國的機構共同組建。他們這次所做的具體任務,叫做30X人類全基因組測序(WGS)胚系變異分析。
訪問:
阿里云超品周:1核2G云服務器0.26折起 秒殺價38元/年
(其中,“30X”是指全基因組測序的深度)
而在這個團隊之前,同等條件下完成這項任務所需的時間,卻長達近24小時之久。
所以咱就是說,現在的“battle”結果就是——24小時vs 7分鐘,性能整個提升了200多倍!
與此同時,在相同條件下的計算成本還降低了80%,存儲成本也下降30%。
但更重要的一點是,這事可能和你我都息息相關。
因為基因預測的一個用途,就是檢測罹患多種疾病的可能性,鎖定個人病變基因,以此來提前預防和治療。
(P.s.世界著名演員安吉麗娜朱莉就這么做過。)
聽起來確實是個好事,但如果放到過去,由于既耗時又費錢,能做得起基因預測的人屈指可數。
但今時不如往日,隨著算力、AI、大數據技術的不斷發展和融合,讓基因測序這樣數據密集型應用變得越發親民。
而這一次的“7分鐘”,可以說是把基因測序這件事往“平民時代”更推近了一步。
△圖源:美國國家衛生研究院(NIH)
那么接下來的問題便是,為什么這支隊伍的方法,就能做到“快好省”呢?
從24小時到7分鐘,他們是怎么辦到的?
人類全基因組測序要做的事,就是對未知基因組序列的物種進行個體的基因組測序。
但非常明顯的一個難題,就是其數量過于龐大。
畢竟對象可是組成人體2.5萬基因的約30億堿基對,換算成容量大小則約為3GB。
但這還不算完,為了保障基因數據的完整性,在此基礎上還需要做30次的平行測試。
如此一來,在最終測序完成之后,全基因組的數據量便將達到約100G。
而且隨著技術的不斷迭代演進,數據的存儲已經從最初的人類基因組開始細分擴展,逐步涉及到腫瘤、遺傳病的檢測等等。
也正是因為數據量和數據種類的日益龐大,使得這方面的工作數據存儲,動輒便以PB為單位來保存。
這就直接影響到了諸如基因采樣、樣本制作、數據下機、生信分析以及后基因測序等環節。
但更為重要的是,諸如基因這樣的數據,隱私安全是非常值得注重的一環,而也正因為數據量的爆發式增長,使得數據安全管理、存儲和分析變得異常困難。
團隊在面對這些挑戰所選擇的突破口,并不是大多數人以為的強行堆算力,而是用底層數據存儲的飛躍來做到提速。
簡單來說,就是通過把以往不能合并處理的海量數據,打破它們之間的壁障,讓整體的處理效率“更上一層樓”。
具體而言,他們所提出的解決方案便是大規模多組學數據并行加速分析平臺。
據介紹,華西醫院在這項工作中主要負責頂層設計,包括多模態組學數據分析和基因應用等。
華為在存儲方面,提供高性能數據存儲和基因數據管理系統的技術支持。
……
而縱觀整個流程,數據存儲的環節最為重要,可以說是貫穿始末:
基因測序階段:存儲系統需要足夠的穩定性,來保障過程不被中斷;
基因數據分析階段:要有足夠處理小文件等任務的能力;
數據歸檔階段:能夠將基因數據長期、安全、完整地保存起來。
由此可見,存儲系統就像是一根“定海神針”,牢牢地把握著海量數據任務的“命脈”。
那么接下來的一個問題便是——團隊此次能夠打破世界紀錄,它的專屬“定海神針”又是什么?
世界頂級選手在背后發力
不賣關子,團隊在這項任務中的存儲系統,便是來自華為面向高性能數據分析(HPDA)的分布式存儲OceanStor Pacific系列。
它是一種可大規模橫向擴展的智能分布式存儲,可以hold住高性能計算、AI應用、數據庫、大數據分析和海量數據備份歸檔等業務需求。
而OceanStor Pacific之所以能協助團隊在此次任務中打破世界紀錄,是因為它自身就是頭頂“世界頂級選手”光環的那種存儲系統。
在國內范圍來看,更是獨秀一枝,不論是整體、文件存儲、對象存儲還是塊存儲方面,都是穩居市場第一。
而且不僅是市場方面的表現,從性能榜單上來看亦是如此。
這不,就在前不久IO500(高性能計算領域針對存儲性能最權威世界排行榜之一)發布的最新榜單中,華為存儲HPDA Lab(由華為OceanStor Pacific存儲支撐)位列第二。
那么問題來了,OceanStor Pacific系列存儲憑什么?
從官方對它的介紹中,我們挖到了一條線索,那便是“新一代”:
這個“新”,可以總結為三個方面。
首先是超高密設計。
以OceanStor Pacific 9950為例,它具備單框8節點,5U、80盤位的特性。
而之所以能如此“能裝”,是因為它將各種SSD(固態硬盤)都設計的非常小巧:
另外一款5U、120盤位的OceanStor Pacific 9550,更是能夠達到單框最大可提供2.4PB的裸容量。
如此超高密度的設計,便可以支撐海量數據的存儲。
基于這樣的硬件設計之下,便是華為存儲的第二個特性——“多到一,一到多”,具體來講就是:
多套存儲變一套,一套存儲支持多樣化算力。
導致這樣做的原因,根本上是高性能存儲面臨的負載類型越發復雜多樣。
傳統的做法就是來一個負載類型,就部署一個對應類型的存儲;但這樣做的結果,就是容易產生“孤島現象”,而且不利于提高整體的效率。
而理想的狀態就是存儲系統可以滿足一個“既要又要”——高帶寬、高IOPS。
(帶寬型方面的衡量標準是單位時間內的數據總吞吐量;而IOPS則是單位時間內能處理的總的IO請求量、以及每個IO的處理時延。)
對此,華為存儲所采用的策略就有點“隨機應變”的味道了。
例如存儲系統在面對大文件時,就對應“大I/O”,采用直通方式將數據寫到磁盤。
這樣做的結果,就讓大文件的寬帶處于業界2倍的水平。
而當與之相對的小文件到來時,就對應“小I/O”,主要是將數據聚合后寫到磁盤:
如此一來,就可以在理想的時延下提升磁盤空間的利用率,而且小文件的隨機性能也達到了業界的5倍。
OceanStor Pacific系列存儲的第三個獨特性,便是打通協議的“任督二脈”。
華為存儲提出這個特性的大背景,是因為現在在處理諸如基因測序這樣的任務時,數據往往會呈現多種格式,例如文件、對象、大數據等等。
也正因如此,以往在整個數據處理過程中,單是數據轉化、拷貝、加載這樣的工作就占到了35%的時間。
于是,為了這方面的提高效率,就需要新的“協議互通”技術。
而這種新技術并不是指“共池”,在本質上是有著很大的區別。
“共池”主要共享硬件資源池,是在一套硬件上劃分出多個獨立的邏輯資源池,并根據不同的數據類型做部署。
但問題在于每個邏輯資源池只支持一種協議訪問,也就是說跨協議的時候,還是需要經過“數據拷貝”的過程:
華為存儲提出的“協議互通”技術則不然,實現的是多個協議共用一個硬件資源池。
而且還是同時支持文件、對象、大數據等多種協議訪問的那種:
換言之,現在當一份數據“走進”存儲系統后,不再需要做任何的轉換了,可以直接被其它協議直接訪問。
這便是打通協議“任督二脈”的奧義所在了。
而也正是因為剛才講到的這些獨有“功夫”,華為存儲,這個世界級選手所涉足的領域早已不僅限于基因測序。
還有眾多諸如此類的海量數據場景,例如能源勘探、氣象海洋、智能制造、超算中心等等。
……
不難看出,華為在數據存儲這一塊,可謂是內修功法、外用其力。
那么最后一個問題便是:
數據存儲,為什么這么重要?
因為一個非常明顯的趨勢是:
在智能時代之下,數據存儲已經成為數據密集型應用的瓶頸。
或許你會說,數據量大,哪怕是PB級別,把算力堆上去不就可以了嗎?
確實,在過去一段時間里,在處理像基因測序、生物制藥等數據密集型應用時,大家似乎都會關注其背后的高性能計算(HPC)的效果如何。
每年的HPC Top 500 高性能計算機排行榜,也成為公眾備受關注的“保留節目”。
但隨著數據爆發式的增長,以及AI技術的不斷推陳出新,數據密集型應用的發展不再僅僅聚焦在算力方向。
正如IDC所統計的那般:
全球67%的高性能計算中心已經在使用AI、大數據相關技術。
換言之,HPC、AI和大數據,它們三個融合的速度正在加快。
也正因如此,數據密集型應用正在步入一個新的時代——高性能數據分析(HPDA)。
在這個時代之下,類似自動駕駛、基因測序等任務,對于數據分析的實時性要求越來越高。
而要實現這一點,也正如剛才我們所闡述的,離不開“數據存儲系統”這一夯實的底座。
唯有這根“定海神針”足夠穩固、扎實,且需得具備技術上的創新,才能保證其上層的工作以及上層與之的交互暢通無阻。
但比起應用方面的絲滑,通過推進新一代存儲系統(即HPDA)來進一步發展數據密集型應用,這件事還具有更深遠的意義。
例如油氣地震勘探也在進入海量數據時代,需要采用大量的高性能計算和大數據分析技術。
但痛點也正如剛才我們提到的,其間的任務絕不是單一的,所產生的數據類型、結構也是紛繁復雜。
而通過新一代存儲系統的優勢,就可以做到規模化統一部署,以此來提高整體流程的效率。
再如超算中心、智能醫療、自動駕駛,甚至是宇宙探測等,均是需要HPDA的能力來完成對海量數據的高效分析。
這些亟需注入“新力量”的領域,恰恰正是科技、經濟強國所發力的地方。
從另一種角度來看,新一代數據存儲正在成為國家的關鍵基礎設施,堪稱“國之重器”。
而華為OceanStor Pacific系列存儲,無論是從市場份額、技術實力排名等等,均已成為國產新一代數據存儲系統中的不二之選。
但比起亮眼的成績,在最重要的實際行動方面,華為OceanStor Pacific系列存儲也已經是處于“進行時”了。
至于接下來在HPDA時代中,新一代數據存儲的技術進步還將結出怎樣的碩果,是值得拭目以待了。
訪問:
阿里云 - 最高1888元通用代金券立即可用
推薦
直播更多》
-
特斯拉公司CEO埃隆馬斯克 向Twitter發出收購要約
和外界預期的一樣,特斯拉公司 CEO 埃...
-
特斯拉公司CEO埃隆馬斯克 向Twitter發出收購要約
和外界預期的一樣,特斯拉公司 CEO 埃...
-
筆記本電腦代工廠廣達發布公告 配合防疫政策暫時停工
筆記本電腦代工廠廣達今(13)日發布公告...
-
英特爾公司宣布斥資30億美元 擴建美國奧勒岡州D1X工廠
英特爾公司宣布斥資 30 億美元,擴建...
-
莆田電信積極組織開展安全運營專項工作 強化員工安全意識
為全面落實穩字當頭、穩中求進的云網安...
-
精準落實優惠稅率 河北高企稅費減免超百億元
近日,記者從河北省稅務局獲悉,2021年...
資訊更多》
焦點
- 奇瑞新能源一季度達成50013輛銷量 實現255.4%同比增長
- 昆山重新調整劃定5個靜態管理區 延長靜默期7天
- 受蘋果用戶隱私政策調整影響 科技巨頭2022年營收將減少近160億美元
- 加快湖北數字化轉型 5G信息技術重塑制造業發展形態
- 斯坦福大學團隊發表論文 展示大腦運動皮層神經網絡如何實現新記憶索引
- 廣東首座華南唯一 廣州匯云數據中心入選2021年國家新型數據中心名單
- 慢性疾病嚴重威脅我國居民健康 低齡化趨勢明顯
- 消除線路施工安全隱患 智慧光網云守護系統成為工地“火眼金睛”
- IMT-2020推進組蜂窩車聯工作組第二十次全體會議 近日在線上舉行
- 氣候變暖將珊瑚推向耐熱極限 人工智能助力尋找耐熱珊瑚