問

UIS 3200 數據磁盤後台downl了

UIS超融合

3天前提問

0關注
0收藏，113瀏覽

zhiliao_kfYy1G

zhiliao_kfYy1G 零段

粉絲：0人關注：10人

問題描述：

4節點，前台web界麵顯示磁盤異常，從後台看是ceph osd 查看磁盤down 了

組網及組網描述：

4節點，前台web界麵顯示磁盤異常，從後台看ceph osd 查看磁盤down 了；這種情況如何處理。存儲健康降到80% 多

附件下載： 2.JPG

4 個回答

按時間按讚數

知不了一點

知不了一點二段

粉絲：1人關注：0人

### **1. 確認故障原因**
- **主機異常**：檢查OSD所在主機是否掉電、關機或業務網絡異常。
- 操作路徑：UIS管理平台 →【存儲】→【存儲管理】→【節點管理】→【存儲節點】
- 異常表現：主機狀態顯示"暫無數據"。
- **OSD進程異常**：
```bash
ssh 登錄故障節點 # 通過管理網IP登錄
ceph osd tree # 查看所有OSD狀態
ps -ef | grep ceph-osd # 檢查OSD進程是否運行
```
- 若進程未啟動，手動拉起：
```bash
systemctl start ceph-osd@.service # 替換為實際ID（如systemctl start ceph-osd@12.service）
```
- **軟連接丟失**：
```bash
lsblk # 定位故障磁盤對應的OSD目錄（如ceph-4）
ll /var/lib/ceph/osd/ceph- # 檢查journal軟連接是否存在
```
- 若軟連接丟失，修複：
```bash
ceph-disk activate-all # 重建軟連接
```
- **硬盤物理故障**：
- 觀察服務器硬盤故障指示燈。
- 若確認硬件故障，需更換硬盤（操作前需備份數據並聯係技術支持）。

---

### **2. 更換故障硬盤流程**
若確認為硬盤故障，按以下步驟操作：
1. **刪除故障盤**：
```bash
ceph osd tree # 確認down狀態的OSD ID
ceph osd crush remove osd. # 移除CRUSH映射
ceph auth del osd. # 刪除認證密鑰
ceph osd rm osd. # 刪除OSD
```
2. **物理更換硬盤**：
- 關機更換或開啟BIOS熱插拔功能（NVMe盤需檢查VMD配置開啟熱插拔）。
3. **新盤加入集群**：
- 前台操作：UIS管理平台 →【硬盤管理】→ 單擊【校正磁盤信息】→ 將新盤加入硬盤池。
- 等待數據重構完成（觀察集群健康狀態恢複）。

---

### **3. 特殊場景處理**
- **緩存盤故障導致數據盤down**：
若為緩存盤（如Scache/Flashcache SSD）故障，需同步更換緩存盤及關聯的數據盤，並重建加速分區。
- **更換後其他磁盤異常**：
檢查BIOS中VMD配置是否開啟熱插拔（NVMe盤），未開啟可能導致連鎖異常。

---

### **4. 注意事項**
- **數據安全**：更換前確保備份關鍵數據，優先聯係400技術支持協助。
- **版本差異**：
- UIS 6.0版本需處理journal加速盤分區；
- UIS 6.5+版本無journal盤，需區分Scache/Flashcache緩存類型。

若上述步驟無法定位問題，請提供：
① `ceph -s`輸出；
② 故障節點日誌（`/var/log/ceph/`）；
③ 硬盤槽位及告警燈狀態。

為您推薦相似問題：
UIS硬盤出現故障
如果能明確判斷硬盤硬件故障，可以先聯係硬件側安排派單硬盤，硬盤到了後參考H3C UIS超融合一體機部件更換配置指導更換硬盤章節操作硬盤更換，具體路徑：首頁>支持>文檔與軟件>文檔中心>H3C UIS超融合一體機部件更換配置指導
//www.yolosolive.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/?CHID=882395#_Toc150790496
如果操作有困難，建議聯係400協助。

暫無評論

zhiliao_kfYy1G

zhiliao_kfYy1G 知了小白

粉絲：0人關注：10人

謝謝

暫無評論

zhiliao_sEUyB

zhiliao_sEUyB 九段

粉絲：142人關注：10人

處理步驟
1. 定位故障OSD及磁盤
在任意節點後台執行：
ceph osd tree 確認具體哪些OSD處於down狀態
lsblk 查看磁盤與OSD的對應關係
記錄異常OSD編號（如osd.XX）及對應的物理磁盤（如/dev/sdX）。
2. 重啟異常OSD進程
登錄故障OSD所在節點，執行重啟命令（以osd.112為例）：
systemctl restart ceph-osd@112.service
注意：若多個OSD異常，優先重啟公共OSD（通過ceph health detail查看PG關聯的公共OSD）。
3. 檢查恢複狀態
重啟後執行：

ceph -s 確認集群健康狀態是否恢複為HEALTH_OK
watch ceph -s 持續觀察1分鍾，確認數據恢複進度
若健康度仍未恢複，檢查ceph health detail輸出，確認是否有殘留異常PG。
4. 處理硬件故障（若存在）
若重啟後OSD仍down，或日誌提示磁盤錯誤（如medium error）：
更換硬盤：
前台刪除故障磁盤（需集群健康度100%時操作）。
按《[H3C UIS超融合一體機部件更換配置指導](//www.yolosolive.com/cn/Service/Document_Software/Document_Center/Home/H3Cloud/00-Public/Maintenance/Troubleshooting/H3C_UIS_CG-BJGH-Long/)》更換硬盤並重新加入集群。
緊急處理：
ceph osd crush remove osd.XX 移除故障OSD（謹慎操作，需確認數據已遷移）
ceph auth del osd.XX
ceph osd rm osd.XX
5. 檢查網絡與節點狀態
確認故障節點網絡無波動（如接口頻繁up/down）。
檢查節點根分區空間：
df -h / 若低於70%會觸發告警，需清理日誌或擴容

6. 聯係技術支持
若上述操作後問題未解決，或需換盤協助：
撥打BOB登陆技術服務熱線：400-810-0504。
關鍵注意事項
操作順序：先重啟OSD，無效再排查硬件/換盤。
健康度監控：更換硬盤前確保集群健康度100%，否則需等待數據平衡完成。
日誌排查：檢查/var/log/messages是否有磁盤I/O錯誤或RAID卡告警。
以上流程依據知識庫中《H3C UIS超融合管理平台應急故障恢複指導-5W106》《UIS超融合一體機部件更換配置指導》等文檔整理。若現場環境存在差異，請以最新官方文檔為準。