「au大規模通信障害」はKDDIだけの問題ではない

7月3日、都内で行われた記者会見で頭を下げるKDDIの高橋誠社長(右)と吉村和幸取締役執行役員専務技術統括本部長(筆者撮影)

KDDIは7月3日、日曜日の午前中、障害がまだ収まっていない中、発生理由を完全には突き止められていない状況で記者会見を行った。7月2日午前1時35分から始まり、翌日3日夜になっても完全復旧に至っていない携帯電話網の大規模障害に関する説明のためだ。

会見の場に現れたKDDIの高橋誠社長は「過去を振り返って最も大きな通信障害」と肩を落とした。影響回線数は最大で3915万件に上り、警察や消防署への緊急通話を含む音声通話が極端に接続しにくい状況になった。

通例であれば障害対応を終え、原因について分析したのちに記者会見が行われる。しかし、影響を受ける利用者や社会的な影響が大きく、障害復旧までに時間がかかっていることもあり、全貌が見えない段階での報告を行うよう総務省からの指示もあって、未確認の事項が多い中での会見となった。

会見の始まった3日11時に西日本、17時30分ごろには東日本エリアの復旧作業が終了し、4000万台近い移動体通信機を一気に稼働させることはできない。この記事を書いている4日朝の段階でも、通信できないユーザーは残っており、完全に収束するまでの時間は現時点では見えていない。

時間、影響範囲、規模、すべてが過去最大の障害に

すでに報道されているように、今回の問題は音声通話機能を提供するVoLTE交換機(データ通信網を通じて通話サービスを提供するための交換機、実体はコンピューターサーバー)に極端に接続しにくい状態となり、事実上、音声通話が行えなくなったことで発生した。

すべての音声サービスが使えなくなっていたため、警察や消防への緊急電話も接続できなかった。KDDIは3Gシステムの運用を今春にやめていたため、音声契約を含む携帯電話端末のすべてが、VoLTE交換機を通じた音声通話サービスを使っている。

データ通信を司るコアネットワークには問題がなかったため、端末によってはデータ通信は引き続き可能であり、LINEなどのアプリを通じて通話ができていたようだ。

時間帯によっても状態が異なっていたようだが、iPhoneの場合、アンテナピクトの表示がない場合でもデータ通信ができていたが、Android端末の中にはVoLTE交換機との接続が確立できない場合、データ通信が行えない作りになっていたため、通話、データ通信ともに使えなくなっている端末もあった。

しかし、この障害の影響はスマートフォンのユーザーだけではない。

物流システム、コネクテッドカー、気象観測センサー、銀行のATM、一部空港におけるスタッフ用無線機なども使えないケースが出るなど、社会インフラ全体に与えた影響は大きい。

もちろん、KDDIへの責任追及は免れないだろう。しかし、障害発生から拡大に向かった経緯を追いかけてみると、問題はKDDIのシステムだけではないとも思える。

大規模障害が起きる原因となった最初の輻輳(ふくそう)が発生する可能性については、VoLTEが導入される頃に議論されていたテーマだった。

携帯電話サービスを提供する側だけで対応できるのか。輻輳を防ぐための予備的な検討が、約10年前に検討されていたVoLTE導入時の端末設備等規則を決める際、十分な議論がされていなかった可能性もある。

障害発生プロセス、判明していること

障害発生のトリガーとなったのは、多摩にあるKDDIのネットワークセンターにあるルーター(データ通信網との接続を仲介する装置)が機能しなかったことだ。KDDIは全国6拠点にネットワーク設備を構え、18台のVoLTE交換機が稼働しているというが、多摩のネットワークセンターはその一つで関東地区のサービスを提供している。

定期メンテナンスでこの中のルーターを交換したところ、その設定あるいは機器そのものに問題があり、データ通信サービスを提供するコアネットワーク側からVoLTE交換機に接続できない状態になった。

これが2日午前1時35分ごろのことだ。

この時点で、該当ネットワークセンターにつながる端末(主にスマートフォン)では音声通話が使えない状態だが、全国に問題が広がっていたわけではない。ルーターの問題発生アラートが上がり、一部端末で音声通話ができない状態であることがわかったため、15分後の1時50分にシステムを切り戻し(フォールバック処理、システム更新で問題が起きた場合に正常だった元のシステムに戻すこと)が行われた。

直後にKDDIは事故対策本部を立ち上げ、障害対策の準備を始めるが、2時17分にはVoLTE交換機への輻輳が発生。音声通話のサービスに極端に接続しづらい状況となった。この時点で一部端末ではデータ通信も不通になった模様だ。

輻輳とは通信要求が集中し能力を超えてしまうことで応答が極端に遅くなり、通信内容の破棄や再送信が繰り返し発生するなど、さまざまな理由により有効な通信帯域が極端に減じてしまう現象だ。輻輳が発生すると何らかの制限、制御を行わない限り、事実上、通信不能になってしまう。

今回の場合、VoLTE交換機に接続できなくなっていた端末が、最初の問題を発生させたシステムをフォールバックさせた際、一斉にVoLTE交換機にアクセスしたことで発生したという。

KDDI自身、まだシステムログ(システムがどのように動いたかの記録)を分析しきれていない段階であると話しており、なぜ輻輳するに至ったのか細かな経緯はわかっていない。というのも、その後、KDDIが当初想定していた範囲外まで障害の領域が広がっていたからだ。

不明点が多い障害拡大のプロセス

VoLTE交換機へのアクセス障害を復旧させたことで、一気に端末からの接続要求が集中、輻輳に至ったというKDDIの説明だが、実際に輻輳するまでの経緯は実のところよくわかっていない。

VoLTE端末は通話を利用しない場合でも、50分に1度、VoLTE交換機との接続を確立させる設計になっている。通常ならばランダムなタイミングで行われる接続だが、15分間停止したことで一気にまとまった数の端末が、VoLTE交換機にアクセスしたのかもしれない。

ただしKDDIは「15分という時間が問題だったのか、もっと短くとも同じことが起きるのかを含め、現時点では短時間で輻輳に至った原因は突き止められていない」とも話した。

KDDIは全国6拠点で18台のVoLTE交換機を運用している。VoLTE交換機への接続要求がある程度集中し、応答が遅れることはあったとしても、ごく短時間、問題が起きることがあったとしても、全国の拠点で接続要求を分けあう仕組みがあるという。

ルーターに問題を抱えた状況では、そうした負荷の分散もできなかっただろうが、復旧させた時点でそうしたシステム側の対策は動いていたと推察される。

また3時からは基地局への信号接続要求の制限、VoLTE交換機への発呼処理のリセットと流量制限を実施し、その後、データ、音声ともにさらなる流量制限を行うことで鎮静化を図ろうとした。

端末からの要求を事業者側が制御することはできないが、基地局側で接続を制限すれば輻輳を緩和できる。災害時に固定電話の通話制限を行うことで輻輳を緩和するのと同様の措置だ。

ところが今回はそれだけでは問題が収まらなかった。

加入者データベースにも輻輳が発生

携帯電話ネットワークでは加入者データベース(DB)という規模の大きな、そしてシステム稼働のうえで極めて重要なデータベースがある。このデータベースには接続している全端末の識別子、課金情報、データセッション、VoLTEパラメーター、位置情報などが格納され、サービスを提供する際に必ず参照、定期的に更新されている。

この加入者DBにも輻輳が発生していたからだ。

音声通話サービスを行うために、加入者DBを管理する装置(PWG)はその情報をVoLTE交換機に送っている。ところが輻輳が発生しているため、加入者DBの情報をVoLTE交換機に送っても応答せず、ここでも輻輳が発生していたという。

そこで加入者DBからVoLTE交換機へのアクセスを制限するため、一部のPWGを切り離すことでVoLTE交換機へのアクセス負荷低減を行った。これが15時22分の段階だ。ところが、これでもサービスは正常にならなかった。

なぜなら加入者DBの内容が、完全には同期されない状態になってしまっていたからだ。そこで、すべてのPWGを切り離してDBのデータ不一致を解消する作業を進め、修正対策の作業が完了したのが、西日本エリアは翌3日の11時、東日本エリアは17時30分。

記者会見はこの作業が進められている11時から2時間以上をかけて行われたため、まだ不明な点は多い。たとえばVoLTE交換機が収容された設備のルーターがフォールバックされた後に、各端末がどのように振る舞い、それがシステムにどのような影響を与えたのかなど、輻輳に至る核心は不明なままだ。

輻輳を防ぐための技術基準見直しも必要か?

復旧作業が終了したとはいえ、4日午前、本記事を執筆している時点では、まだ着信できない状態の利用者も残っている。3900万回線を超える加入者DBを管理するPWGは東日本に9台、西日本に8台あり、それぞれのデータ不一致解消の確認は行われたが、今度は大量の回線が接続された状態に戻していかねばならない。このため現在でも収容量を50%に制限している状況だ。

KDDIは問題なくシステムが稼働していることを確認しながら戻していき、完全にネットワークの稼働が正常に戻った段階で100%に戻す予定とのことだ。

これだけの規模の問題だけに、KDDIの責任は逃れられないと言えるが、一方で現代の移動体通信システムが極めて複雑で、単純な設備容量の増強だけでは対応できないことも見え始めているのではないだろうか。

今回、障害の原因となったVoLTE交換機だが、約10年前となるVoLTE導入時の総務省情報通信審議会では、音声通話システムをデータ通信に置き換える際、端末側にどのような技術基準を求めるかなどが議論されていた。
というのも、当時、ひかり電話など固定系IP(インターネットプロトコル)電話で、障害復旧時に一斉に識別情報を加入者DBに登録し始めることを防ぐよう、端末側にも輻輳対策が求められていた。VoLTEはIP電話の仕組みを携帯電話のデータ通信網で実現する技術だが、携帯電話の場合は基地局側から端末に対して発信規制する仕組みがあるため、あらためてVoLTE向けに対策する必要はないとの意見がNTTドコモやKDDIなどから出されていた。

今回の事故との直接的な因果関係は判別できないが、単純なVoLTE交換機へのアクセス集中だけならば、ここまでの事故には至らなかっただろう。今回の障害の分析結果を待って、あらためて業界全体で端末への技術基準も含めた再議論が必要かもしれない。

(本田 雅一 : ITジャーナリスト)

ジャンルで探す