MCCS + WDRBD환경에서 Diskless상태가 되어 서비스 불가 현상

 1. Environment   

    OS: Windows 2012

    MCCS 4.4.2 , WDRBD_1.4.2 (복제구성)

 2. Symptoms

    1) 운영중인 1번 서버의 disk status가 갑자기 diskless로 변경되면서 2번 서버로 failover 발생.


    2) 그 후 다음날 2번 서버도 운영 중 갑자기 diskless로 변경됨. 

        이때 1번 서버가 이미 diskless였으므로 failover대상 node가 없어 오프라인됨. 업무 downtime 발생.

 3. Cause

    – 장애 발생 시점. Symantec System Recover(SSR) 2013 R2가 설치 되었다는 로그가 확인 됨.
    – 사내에서 재현 테스트 진행
      장애상황과 동일하게 SSR 설치 마무리 시점에 diskless로 빠지면서failover발생
      reboot이나 up진행 시 정상적으로 connect가 되면서 uptodate로 변경 됨
      =>SSR 설치 완료 시점에 system disk를 scan하는 부분이 있는 것으로 추정되며 당시 

          WDRBD meta disk를 인식되지 않은 disk로 판단하여 포맷 및 access를 시도하는 절차가 확인 됨, 

          이때   diskless로 status가 변경 됨

 4. Solution

    – 당시 up, attach등을 시도하였지만 한대의 서버status가 diskless에서 변경되지 않아 미러 디스크

      재 생성 후 정상 확인

 5. Workaround

    고객사에 SSR설치 시 MCCS 가이드 전달

    * SSR(Symantec System Recover)설치시 가이드
    1) Group lock
    2) Standby server SSR install and reboot
        SSR설치 시점 target볼륨은(peer-disk) diskless로 변경이 됨
    3) drbdadm status로 uptodate상태 확인
    4) Group switchover to standby server
    5) Active server SSR install and reboot
        SSR설치 시점 target볼륨은(peer-disk) diskless로 변경이 됨
    6) drbdadm status로 uptodate상태 확인