引言
隨著云原生應(yīng)用對可遷移性、擴(kuò)展性和動態(tài)特性的需求,對云原生存儲也帶來了相應(yīng)的密度、速度、混合度的要求,所以對云存儲基本能力之上又提出了在效率、彈性、自治、穩(wěn)定、應(yīng)用低耦合、GuestOS 優(yōu)化和安全等方面的訴求。
新的企業(yè)負(fù)載/智能工作負(fù)載容器化、遷云、存儲方面遇到的性能、彈性、高可用、加密、隔離、可觀測性及生命周期等方面的問題,不但需要存儲產(chǎn)品層次的改進(jìn),還需要在云原生的控制/數(shù)據(jù)平面的改進(jìn),推進(jìn)云原生存儲和云存儲的演進(jìn)。下文將分別介紹一下問題場景及問題,探討可行的解決方案,最終可以得出云原生存儲、云存儲目前可以做什么和未來還需要做什么。
存儲性能
1. 長時延增加
場景
高性能計算場景中,集中處理批量數(shù)據(jù),通過容器集群,同時啟動數(shù)千 Pod,彈出數(shù)百 ECS 對共享性文件系統(tǒng)讀寫。
問題
重負(fù)載終負(fù)載下時延增加,高延遲毛刺增多,讀寫穩(wěn)定性不足。
解決方案
分散負(fù)載到多文件系統(tǒng),通過容器編排分散 IO 到多文件系統(tǒng)
存儲產(chǎn)品的盤古 2.0 改造
2. 集中式高吞吐寫對共享存儲池沖擊
場景
高性能計算場景中,集中處理批量數(shù)據(jù),10Gbps 讀寫請求進(jìn)入同一存儲集群。
問題
同一存儲集群中的帶寬擠占,造成訪問質(zhì)量下降。
解決方案
分散負(fù)載到多文件系統(tǒng)和多個存儲集群/多個可用區(qū),通過容器編排分散 IO 到多文件系統(tǒng);
使用獨(dú)占高性能并行文件系統(tǒng)。
**3. 峰值吞吐不足**
場景
大規(guī)模生物數(shù)據(jù)處理,文件數(shù)目少,峰值吞吐高 10Gbps-30Gbps,請求密集 1W/s。
問題
接近獨(dú)占集群的極限帶寬。
解決方案
讀寫分流,分流讀請求到 OSS,寫請求負(fù)載分流到獨(dú)占文件系統(tǒng)和本地/遠(yuǎn)程塊存儲,通過容器編排分散 IO 到多文件系統(tǒng);
使用應(yīng)用層分布式緩存降低網(wǎng)絡(luò)讀 IO;
存儲產(chǎn)品的盤古 2.0 改造。
時延增加導(dǎo)致 GPU 等待
場景
多機(jī)多卡 GPU 訓(xùn)練,直接讀取 OSS 數(shù)據(jù),讀密集型。
問題
時延增加導(dǎo)致 IOwait 和 GPU 等待。
解決方案
應(yīng)用層透明 POSIX 讀訪問 OSS;
使用應(yīng)用層分布式緩存降低網(wǎng)絡(luò)讀 IO。
存儲彈性
場景
數(shù)據(jù)庫擴(kuò)容, MySQL and etc;元數(shù)據(jù)管理應(yīng)用在線擴(kuò)容 Zookeeper/etcd;本地盤存儲容量無法擴(kuò)容。
解決方案
云盤在線擴(kuò)容,應(yīng)用控制面文件系統(tǒng)/邏輯卷離線,在線擴(kuò)容能力;
單機(jī)云盤掛載密度;
存儲產(chǎn)品 ESSD 的替換使用。
存儲高可用
場景
應(yīng)用運(yùn)維,系統(tǒng)運(yùn)維;塊存儲隨容器遷移的穩(wěn)定性和可發(fā)現(xiàn)性。
解決方案
控制平面聲明式存儲快照,備份,定時快照備份,本地快照加速備份和恢復(fù);控制平面云盤 SerialNum 的可發(fā)現(xiàn)性改造。
存儲的加密
場景
用戶應(yīng)用的全鏈路數(shù)據(jù)加密需求;操作系統(tǒng)盤加密。
解決方案
產(chǎn)品存儲的 CMK,BYOK 支持控制平面的加密聲明支持RAM 權(quán)限的最小化控制
存儲的隔離性
場景
單盤多應(yīng)用共享,單機(jī)日志盤塊存儲切分
單塊本地盤/云盤吞吐能力不足
文件系統(tǒng)多租戶環(huán)境的容量配額
集群級文件系統(tǒng)共享訪問的權(quán)限控制
解決方案
控制面 LVM 切分,控制面塊存儲 blkio buffer IO 應(yīng)用級限速
控制面 LVM 多盤聚合和條帶
存儲產(chǎn)品共享文件系統(tǒng)的目錄級 Quota
控制面文件系統(tǒng)的目錄級 ACL
存儲的可觀測性
場景
多租戶 Zookeeper/etcd,租戶/應(yīng)用級的 IO 指標(biāo)監(jiān)控和預(yù)警。
解決方案
控制面應(yīng)用級 IO Metrics 采集能力
控制面設(shè)備級 IO Metrics 采集能力
控制面掛載點(diǎn)級 IO Metrics 采集能力
存儲的生命周期
場景
共享文件系統(tǒng)/緩存系統(tǒng)的聲明式創(chuàng)建和刪除。
解決方案
Operator: 云盤/本地盤 (TiDB)
Operator: 文件系統(tǒng),CPFS
Operator: 對象存儲
云原生存儲 v2
針對以上在新的計算模式下,存儲方面遇到的性能,彈性,高可用,加密,隔離,可觀測性,生命周期等方面的問題,不但是需要存儲產(chǎn)品層次的改進(jìn),更需要在云原生的控制/數(shù)據(jù)平面的改進(jìn),在不久的將來實(shí)現(xiàn)穩(wěn)定,安全,自治,和效率并舉的云原生存儲 v2。
穩(wěn)定:阿里云存儲的全品類支持可觀測性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14);安全:全連路數(shù)據(jù)存儲的可靠/可信存儲支持,CSI 快照加密,系統(tǒng)盤加密;自治:云盤快照 /本地快照 ,離線在線的存儲擴(kuò)容能力, 元數(shù)據(jù)自動發(fā)現(xiàn);效率:I/O 隔離 、可伸縮性/云盤再次分割提升密度/分布式存儲緩存。
需要在云原生應(yīng)用層、存儲云產(chǎn)品層、底層存儲適配和存儲核心層都需要做相應(yīng)的改進(jìn)和提升才有可能提供更加穩(wěn)定,安全,自治和高效的面向應(yīng)用的云原生存儲。
總結(jié)
云原生存儲是云存儲 UI 和效率等能力的集合;分層存儲,不重新發(fā)明輪子;新的工作負(fù)載推進(jìn)云原生存儲和云存儲的演進(jìn),云原生控制平面實(shí)現(xiàn)效率,自治方面能力,從數(shù)據(jù)面提升存儲穩(wěn)定和減小安全隱患,云存儲繼續(xù)夯實(shí)性能,容量,彈性,密度等基礎(chǔ)能力,共建云原生環(huán)境下的存儲生態(tài)。
在云原生存儲 v2 的演進(jìn)過程中,仍然需要容器團(tuán)隊和存儲團(tuán)隊,通力合作,共同提升的云原生時代的存儲能力。
-
gpu
+關(guān)注
關(guān)注
28文章
5271瀏覽量
136069 -
云存儲
+關(guān)注
關(guān)注
7文章
781瀏覽量
47381
發(fā)布評論請先 登錄
塊RAM存儲器中的地址沖突場景
瀚高數(shù)據(jù)庫深度參編國家標(biāo)準(zhǔn)《信息技術(shù) 云原生關(guān)系數(shù)據(jù)庫管理系統(tǒng)技術(shù)要求》正式發(fā)布
云原生全球廣域網(wǎng)架構(gòu)深度科普:從單點(diǎn)集中到全域互聯(lián)
微電網(wǎng)穩(wěn)定性理論在實(shí)際應(yīng)用中面臨哪些挑戰(zhàn)
如何評估憶聯(lián)Gen5 eSSD UH812a在AI場景中的性能表現(xiàn)
時空安全隔離裝置在實(shí)際應(yīng)用場景中的價值與意義
NVIDIA BlueField-4數(shù)據(jù)處理器重塑新型AI原生存儲基礎(chǔ)設(shè)施
在“放開”與“限制”的夾縫中:構(gòu)建不依賴“地點(diǎn)”的芯片出廠能力
如何評估電能質(zhì)量在線監(jiān)測裝置在實(shí)際場景中的適配性?
氣象多要素在各場景中的實(shí)際運(yùn)用
K8s存儲類設(shè)計與Ceph集成實(shí)戰(zhàn)
中軟國際全場景AI實(shí)踐
【原創(chuàng)】labview布爾控件機(jī)械動作中單擊時轉(zhuǎn)換和其它值變化的區(qū)別以及實(shí)際場景應(yīng)用
云原生環(huán)境里Nginx的故障排查思路
云原生存儲在實(shí)際場景中可以做什么
評論