2010年3月16日火曜日

1/4の確率でつながらない

このエントリーをはてなブックマークに追加
タイトル通り憂鬱です。昨晩(3月15日)20時過ぎから本日(3月16日)午後1時半ごろまで、一部のIPアドレスからftp.jaist.ac.jpにつながらないという現象が起きていました。一部のIPアドレスというのは、全アドレスのちょうど1/4です。アグリゲートした4つのインターフェイスのうち1つが死んでいたため、インターフェイスを振り分けるハッシュ関数で、死んだインターフェイスに当たってしまったIPアドレスからftp.jaist.ac.jpに一切つながらない状態でした。

こういう事故を防ぐために、LACP (Link Aggregation Control Protocol)があるのですが、前回1つインターフェイスが死んだときは、縮退せずに全部のインターフェイスが応答しなくなったため、何かおかしいということで切ってしまいました。今回はLACPなしで1本だけ死んだため、中途半端につながらない状態が長時間続いてしまいました。一部のアドレスだけつながらないものですから、BANされたのではないかと、身に覚えのある海外のサーバ管理者からお詫びのメールをいただく始末。いえいえ悪いのはこちらなんですよ。

本質的な原因はさっぱりわからないのですが、このところのトラブルはインターフェイスを4本アグリゲートしてから起きているので、以前のように2本ずつ2組に戻しました。性能はだいぶ落ちますが、このところのトラブルはひどいので、これで様子を見ます。

0 件のコメント:

コメントを投稿