技術的ひとりごと(備忘録)

いろいろな備忘録的な何か

録画サーバが暴走して家庭内LANを落としてしまう問題のまとめ (kp41問題)

備忘録と、ナレッジ共有のためにメモを残す。

 --------------------------------------------------------------------------

 【はじめに】

今年の5月頃から、自宅のLANがダウンする現象が、1~2週間に1回程度の頻度で発生するようになった。バッファローのGbEハブが正常に動作せず、ハブ配下の機器のネットワークリンクが途切れる、という状況であった。

 

いろいろ試した結果、TV録画用サーバとGbEハブのリンクを切断すると、ネットワークが100%復旧することがわかった。この時、TV録画用サーバは電源が入っているのにもかかわらずブラックアウトした状態となっていた。

 

この現象は、7月中旬までの間、不定期に発生することとなった。

 

【最初の切り分け】

LANがダウンした際の、TV録画用サーバの状態を調べたところ、以下の様な特徴的現象が発生していた。

  • モニターの表示が途絶える(ディスプレイには No Signalと表示される状態。正常なVGAの信号がでなくなっている?)
  • キーボードを押しても全く反応しない。CapsLock+ShitやNumLockを押してもLEDが明滅しないので、キーボードとの接続も途絶しているようである。
  • 前述のとおり、オンボードNICをハブやルータ等の機器に接続すると、接続した機器が動作しなくなってしまう。

問題発生時は、TV録画用サーバと接続した機器のアクセスランプが激しく点滅するため、ブロードキャストストームが発生しているようである。

問題再現時に、以下構成でパケットキャプチャを試みてみたが、異常パケットは一切検出されなかった。(ローカルアドレス宛のNetBIOS系のトラフィックがいくつか見えた程度で、内外との通信は一切キャプチャできなかった。)

 

☆キャプチャ時の構成

  • 応答不能状態のNW機器とパケットモニタ用PCを接続
  • 該当サーバのNICとパケットモニタ用PCのNICを接続
  • 当該サーバ(Windows7)の再起動にイベントをログを確認すると、異常動作の前兆となるログは一切記録されていない状態。
  • 正常なシャットダウンをせずにOSが起動したことから、いわゆる、KP41問題が発生した状態に一致する。

 

 【様子見を経て】

さらに経過観察を続けたところ、TV録画用サーバにて動画のエンコードを行なっていると、今回の現象が高確率で発生する事がわかった。

エンコードをしたまま数時間放置すると、間違い無く発生するので、高いCPU負荷が要因となって問題が発生するものと思われる。

 

【TV録画用サーバの調査】 

該当サーバは今年の4月にSATAカードの追加とHDD2台の増設を行なっていた。

色々切り分け行なってみたところ、SATAカードを外すと、問題が発生しなくなることがわかった。SATAカードとその他の要素の相性で問題が発生しているようである。

 

なお、SATAカードのポートにつなげていたHDDを外すだけでは、状況が改善しなかったため、カード上のハードウェアか、ドライバあたりに原因がありそうである。

 

SATAカードを取り外すより前の段階で、『KP41対策』として一般に案内されている「電源設定の変更」だとか「CPU/Memoryの電圧設定の変更」などを試してみたが、全く効果が無かった。

 --------------------------------------------------------------------------

 取り急ぎのメモとしては以上である。(とは言いつつ、メモを書くだけでも結構期間が開いてしまった。)

ナレッジ共有のため、問題が発生したサーバの構成とか、もう少し具体的な状況説明を後日まとめてアップしようかと思います。

 

以上。