### **1. 確認故障原因**
- **主機異常**:檢查OSD所在主機是否掉電、關機或業務網絡異常。
- 操作路徑:UIS管理平台 →【存儲】→【存儲管理】→【節點管理】→【存儲節點】
- 異常表現:主機狀態顯示"暫無數據"。
- **OSD進程異常**:
```bash
ssh 登錄故障節點 # 通過管理網IP登錄
ceph osd tree # 查看所有OSD狀態
ps -ef | grep ceph-osd # 檢查OSD進程是否運行
```
- 若進程未啟動,手動拉起:
```bash
systemctl start ceph-osd@
```
- **軟連接丟失**:
```bash
lsblk # 定位故障磁盤對應的OSD目錄(如ceph-4)
ll /var/lib/ceph/osd/ceph-
```
- 若軟連接丟失,修複:
```bash
ceph-disk activate-all # 重建軟連接
```
- **硬盤物理故障**:
- 觀察服務器硬盤故障指示燈。
- 若確認硬件故障,需更換硬盤(操作前需備份數據並聯係技術支持)。
---
### **2. 更換故障硬盤流程**
若確認為硬盤故障,按以下步驟操作:
1. **刪除故障盤**:
```bash
ceph osd tree # 確認down狀態的OSD ID
ceph osd crush remove osd.
ceph auth del osd.
ceph osd rm osd.
```
2. **物理更換硬盤**:
- 關機更換或開啟BIOS熱插拔功能(NVMe盤需檢查VMD配置開啟熱插拔)。
3. **新盤加入集群**:
- 前台操作:UIS管理平台 →【硬盤管理】→ 單擊【校正磁盤信息】→ 將新盤加入硬盤池。
- 等待數據重構完成(觀察集群健康狀態恢複)。
---
### **3. 特殊場景處理**
- **緩存盤故障導致數據盤down**:
若為緩存盤(如Scache/Flashcache SSD)故障,需同步更換緩存盤及關聯的數據盤,並重建加速分區。
- **更換後其他磁盤異常**:
檢查BIOS中VMD配置是否開啟熱插拔(NVMe盤),未開啟可能導致連鎖異常。
---
### **4. 注意事項**
- **數據安全**:更換前確保備份關鍵數據,優先聯係400技術支持協助。
- **版本差異**:
- UIS 6.0版本需處理journal加速盤分區;
- UIS 6.5+版本無journal盤,需區分Scache/Flashcache緩存類型。
若上述步驟無法定位問題,請提供:
① `ceph -s`輸出;
② 故障節點日誌(`/var/log/ceph/`);
③ 硬盤槽位及告警燈狀態。
為您推薦相似問題:
UIS硬盤出現故障
如果能明確判斷硬盤硬件故障,可以先聯係硬件側安排派單硬盤,硬盤到了後參考H3C UIS超融合一體機部件更換配置指導 更換硬盤章節操作硬盤更換,具體路徑:首頁>支持>文檔與軟件>文檔中心>H3C UIS超融合一體機部件更換配置指導
//www.yolosolive.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/?CHID=882395#_Toc150790496
如果操作有困難,建議聯係400協助。
處理步驟
1. 定位故障OSD及磁盤
在任意節點後台執行:
ceph osd tree 確認具體哪些OSD處於down狀態
lsblk 查看磁盤與OSD的對應關係
記錄異常OSD編號(如osd.XX)及對應的物理磁盤(如/dev/sdX)。
2. 重啟異常OSD進程
登錄故障OSD所在節點,執行重啟命令(以osd.112為例):
systemctl restart ceph-osd@112.service
注意:若多個OSD異常,優先重啟公共OSD(通過ceph health detail查看PG關聯的公共OSD)。
3. 檢查恢複狀態
重啟後執行:
ceph -s 確認集群健康狀態是否恢複為HEALTH_OK
watch ceph -s 持續觀察1分鍾,確認數據恢複進度
若健康度仍未恢複,檢查ceph health detail輸出,確認是否有殘留異常PG。
4. 處理硬件故障(若存在)
若重啟後OSD仍down,或日誌提示磁盤錯誤(如medium error):
更換硬盤:
前台刪除故障磁盤(需集群健康度100%時操作)。
按《[H3C UIS超融合一體機部件更換配置指導](//www.yolosolive.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/)》更換硬盤並重新加入集群。
緊急處理:
ceph osd crush remove osd.XX 移除故障OSD(謹慎操作,需確認數據已遷移)
ceph auth del osd.XX
ceph osd rm osd.XX
5. 檢查網絡與節點狀態
確認故障節點網絡無波動(如接口頻繁up/down)。
檢查節點根分區空間:
df -h / 若低於70%會觸發告警,需清理日誌或擴容
6. 聯係技術支持
若上述操作後問題未解決,或需換盤協助:
撥打BOB登陆
技術服務熱線:400-810-0504。
關鍵注意事項
操作順序:先重啟OSD,無效再排查硬件/換盤。
健康度監控:更換硬盤前確保集群健康度100%,否則需等待數據平衡完成。
日誌排查:檢查/var/log/messages是否有磁盤I/O錯誤或RAID卡告警。
以上流程依據知識庫中《H3C
UIS超融合管理平台 應急故障恢複指導-5W106》《UIS超融合一體機部件更換配置指導》等文檔整理。若現場環境存在差異,請以最新官方文檔為準。
暫無評論
親~登錄後才可以操作哦!
確定你的郵箱還未認證,請認證郵箱或綁定手機後進行當前操作
舉報
×
侵犯我的權益
×
侵犯了我企業的權益
×
抄襲了我的內容
×
原文鏈接或出處
誹謗我
×
對根叔社區有害的內容
×
不規範轉載
×
舉報說明
暫無評論