none
两台集群节点网络同时中断,客户机无法访问服务器 RRS feed

  • 问题

  • 技术问题描述:
                7
    19日,两台集群节点网络同时中断,客户机无法访问服务器;

    808日,两台集群节点网络再次同时中断,客户机无法访问服务器;
    问题出现环境(软件/硬件):
               
    微软AD 域控制器(主域控制器win 2008,额外域控制器win 2008 R2

    微软MSCS集群(win 2008 R2MSCS集群,Lotus服务)
    问题重现步骤:
               
    无法重现;
    初步分析:
               
    已经联系过IBM 技术支持,将Lotus服务器日志发给IBM做分析,答复日志未见异常,建议找Microsoft技术支持
    2013年8月12日 9:53

全部回复

  • 那麼網絡真的有同時間斷線嗎? 還是群集服務出現虛報?

    如果事實是真的斷線, 那麼應該先從連接埠, 交換機上查明原因,

    假如單個交換機出現重啟, 斷電等等情況, 它就是整個群集架構的Single Point Of Failure

    要確切解決這問題, 可以考慮佈署多台交換機, 還有使用Teaming NIC以作備援之用


    邊幫助, 邊鍛鍊

    2013年8月12日 10:07
  • 这个问题和交换机没有关系的。

    因为在该交换机上同时接入的服务器不止这两台,集群节点网络中断时候,这台交换机上相连的其他服务器网络是正常的。

    还有,怪异的是,两次故障时,两个节点的网络是同时中断的,并且两台服务器的日志一直都在报DNS的错误,可惜这里发不了图片,我把具体描述文字出来吧:

    事件ID:1579

    任务类别:网络名称资源

    源:Microsoft-Windows-FailoverClustering

    详细描述:群集网络名称资源“群集名称”无法更新适配器"public“上的名称”mcng01.example.com"的DNS记录。错误代码“DNS operation refused.(9005)”。请确保可以从该群集节点访问DNS服务器并且联系DNS服务器管理员以验证群集标识是否可以更新DNS记录"mcng01.example.com"。

    2013年8月13日 5:43
  • 如果只從錯誤訊息開始排除錯誤, 請檢查

    服務器所屬的網域DNS Zone有沒有允許動態更新?

    另一個原因可能是群集所屬的A Record沒有允許改變資料,

    請試試手動刪除群集相關的DNS紀錄再重新建立, 請確保在有網絡技術人員協助下去做

    再來試試把服務Failover到群集點上, 看看有沒有繼續出現錯誤


    邊幫助, 邊鍛鍊

    2013年8月13日 6:53
  • hi,justin,非常感谢,按你第二个截图的方法,删除A记录并重建后,关于DNS的报错已经消除了。  关于MSCS的错误,经检查发现其中一个节点的Lotus服务的恢复模式设置为:第一次失败后重启计算机。  经过分析,考虑可能是因为这个原因导致其中一个节点出故障后无法切换。  后将恢复模式设置为:无操作。  测试故障转移,可以成功。  现在正在观察中。
    2013年8月19日 2:19