品牌名稱
科大訊飛
企業(yè)規(guī)模
1001-5000人

科大訊飛AI超大規(guī)模高性能存儲集群

482次閱讀

客戶簡介

科大訊飛在語音識別、自然語言理解、機(jī)器學(xué)習(xí)推理及自主學(xué)習(xí)等領(lǐng)域保持著國際前沿技術(shù)水平,是國內(nèi)當(dāng)之無愧的人工智能領(lǐng)頭羊。科大訊飛的基礎(chǔ)架構(gòu)團(tuán)隊,需要為各個人工智能團(tuán)隊及業(yè)務(wù)部門提供穩(wěn)定、高性能的訓(xùn)練存儲平臺,同時管理近千臺高性能GPU服務(wù)器,訓(xùn)練使用的存儲平臺性能如何,直接影響業(yè)務(wù)部門的訓(xùn)練效率。

 

挑戰(zhàn)

1.為了滿足眾多人工智能業(yè)務(wù)部門訓(xùn)練的需要,科大訊飛用于模型訓(xùn)練的數(shù)據(jù)平臺必須具備以下特性:

2.保證高帶寬、低延時的讀寫特性,從而為GPU服務(wù)器提供足夠的數(shù)據(jù)輸入,確保GPU的高效使用

3.支持十億級別的小文件及部分大文件混合的讀寫場景,滿足大量特征文件或聚合后的文件存儲需求

4.支持?jǐn)?shù)千臺高性能計算節(jié)點的并發(fā)訪問

5.為逐步容器化的訓(xùn)練任務(wù)提供無縫數(shù)據(jù)訪問能力

 

收益

滿足持續(xù)擴(kuò)容需求

經(jīng)歷短短幾個月時間,總數(shù)據(jù)規(guī)模已達(dá)到近10PB,存放近百億用于訓(xùn)練的音頻、視頻、圖片文件,單集群峰值帶寬近十GB/s。

訓(xùn)練時間大幅縮短

相對于曾經(jīng)使用的其它商業(yè)存儲,YRCloudFile的高帶寬、低延時特性,能夠使GPU等計算服務(wù)器的計算效率達(dá)到飽和,從而將單次訓(xùn)練時間由一周縮短至兩天

訓(xùn)練精度提升

由于單次訓(xùn)練時間的縮短,使算法工程師對模型進(jìn)行更多的迭代成為可能。迭代次數(shù)越多,輔以算法的優(yōu)化,使科大訊飛的訓(xùn)練精度得到不斷提升。