auの通信障害なぜ起こったのか、時系列順に解説!補償は?対策は?

auユーザーの皆さん、だいじょうぶ~?

通信障害がトレンド入りしてるけど、何があったの~?!

よくわかんないけど、昨日からずっとスマホ圏外なんだ😢

 2022年07月02日01:35から続いている、auの通信障害について、KDDIは3日午前11時に記者会見を開き謝罪・説明をしました。影響回線数は最大で3,915万回線に及んでいます。

 というわけで今回は、auの通信障害について原因の解説と対策を考えていこうと思います。

注意 -WARNING-

今回は、リアルタイムでお届けするため、表現があいまいな箇所や、根拠に欠ける情報が含まれる可能性があります。あらかじめご了承ください。

※2022/07/03 20:00時点での情報で執筆しております。

今回の障害の概要

まずは今回の障害の概要から見ていきましょう。KDDIの高橋社長は会見で以下のように説明しています。

■7月2日(土)1:35~
 全国中継網のVoLTE交換機で輻輳が生じたことにより、全国で、音声通信およびデータ通信がご利用しづらい状況が発生しています。

KDDI 3日11:00の会見より引用

簡単に言えば、VoLTE交換機と呼ばれる機械に通信アクセスが集中したことで、パンクしてしまったというわけです。

用語解説:VoLTE

VoLTE(ヴォルテ)はVoice over LTEの略です。スマートフォンや携帯電話のLTE/4Gネットワーク上で音声通話を実現するために標準化団体の3GPPで制定した標準規格のことです。
VoLTE導入以前はリアルタイム性が要求される音声通話に関して、通常の4Gとは別で3G回線を使用していましたが、VoLTEでは4Gネットワーク網の中で専用線を用意してパケットとして送信することで、回線の利用効率が向上しています。

用語解説:VoLTE交換機

VoLTE交換機とは、音声データが届いたときにVoLTEでの通話データを認識して適切なサーバーに送る機械のことです。少し詳しく言えば、APNに”ims”を含むデータを受けるための機械です。高速道路でいえばインターチェンジのような役割です。

影響

今回の障害による影響の範囲は以下の通りです。

影響の範囲

発生日時:2022/07/02 1:35~ 3日8時時点で完全復旧はできていません。
影響エリア:全国
最大影響回線数:約3,915万回線

 現在auは、個人・法人向けスマートフォン/携帯電話だけでも3,580万回線を抱えており、ほかにもMVNOや楽天へのローミング、IoT回線やホームプラスなど様々な顧客がいます。今回は全国の加入者データベースを巻き込んだ非常に大きなエリアでの障害ですので、その影響は計り知れません。

 今回の障害で意外なところでは、金融機関の店舗外ATMの停止配送ドライバーとの連絡が途絶える空港スタッフが業務連絡できない、さらにはアメダスでの気象データが収集できなくなるなど、その影響の範囲は業界を問わず多岐にわたります。そういえば1日中雨予報だった明石市で朝しか雨が降らなかったのもそのせいでしょうか。

 また、電気通信事業法では、110番や119番などの緊急通報を扱う通信サービスにおいて3万人以上の利用者が1時間以上通信ができない状況が発生した場合に、それを「重大な事故」と位置付けて総務省への報告義務を負います。今回の通信障害は、重大な事故の基準をいずれも満たしてしまっています。

障害が起きた詳しい理由・対応

では、ここからは、今回の事故が発生した理由を時系列順に解説していきます。

①トラヒックのルート変更中に設備障害が発生

当時、メンテナンスの一環としてVoLTE交換機を交換中に何らかの設備障害が発生したことで、音声トラヒックのルートが新しいVoLTE交換機に変更されず、全国の音声通話回線が約15分間途絶えてしまいました。

用語解説:トラヒック

トラヒックとは通信回線において、一定時間内にネットワーク上で転送されるデータ量のことです。「トラフィック」といえば皆さんも聞いたことがあるでしょうか… 高速道路でいえば、道路を走る車のようなものです。

②ルート変更の切り戻しを行う

15分間通信が途切れたことを受けて、トラヒックのルートを一度元の状態に戻しました。
電気や通信においては、何か問題が発生した場合に一度元の状態に戻そうということはよくあることです。

③切り戻しをした際にアクセスが集中

ルートの切り戻しを行ったことで、VoLTE交換機自体は正常に接続されたものの、回復後にアクセスが集中した上に、さらにアクセス集中による再接続要求が大量に発生し、輻輳が発生しました。

用語解説:輻輳

輻輳(ふくそう)とは、さまざまな物が一か所に集中する状態を指します。通信分野においてはインターネット回線でアクセスが集中し、混雑することを輻輳と呼んでいます。高速道路でいえば、渋滞のようなものです。

ここまでが、事故が発生した経緯です。ここから先はそれへの対処のプロセスに入ります。
めちゃめちゃコアな話になりますので、しんどくなったら飛ばして次に行ってください(笑)

④VoLTE交換機の負荷低減対処を実施

2日の深夜3:00~15:22にかけて、VoLTE交換機への負荷を軽減させるための措置を取りました。

VoLTE交換機の負荷低減対処

1. 無線設備で信号接続要求の流量制御を実施
2. VoLTE交換機の呼処理プロセスのリセットと流量制御を実施
3. 無線設備でデータ・音声接続要求の流量制御を実施

つまり、通信トラヒックそのものを制限することで、VoLTE交換機に異常にかかっていた負荷を軽減しようと考えたわけです。

⑤加入者DBの処理負荷が増加

15:22になると今度は加入者データベース(DB)の処理負荷が増加し始めました。

そもそも、通信は仕組みとして最初に加入者DBにアクセスして加入者の位置情報を含むステータスを書き込み、その後VoLTE交換機にアクセスする仕組みなので、VoLTE交換機の障害や制限による負荷が加入者DBにも波及してしまったというわけです。

その後、加入者DBの負荷を軽減するため、PGWと呼ばれる装置を西日本、東日本でそれぞれ2台ずつ切り離しました。

用語解説:加入者DB

加入者DB(データベース)とは、各SIMカードの様々なステータスを記録しているデータベースのことです。高速道路で例えれば、オービス(速度違反自動取締装置)、あるいは鉄道のATSやJR西日本のSIUNTRASのようなものです。

用語解説:PGW

PGWとは、LTEサービスの基盤となるコアネットワークを構成するネットワーク装置の一つ。コアネットワークをと外部ネットワークを接続する機能を持ち、パケットの転送、モバイル端末へのIPアドレスの付与、接続切断の処理などを行う機能を持ちます。高速道路でいえば…ETCシステムのようなものでしょうか。

⑥加入者DBデータ不一致

加入者DBへの負荷が軽減されたことで、あとはゆっくりと回復していくと思われていましたが、さらにある悲劇が発生しました。加入者DBデータ不一致です。

文章を書いてて意味が分からなくなってきたので、今回の障害に関わる部分を切り出して、図にまとめてみました。

加入者データベースは、契約者が通話やデータ通信をしていない状況でも端末と通信設備との間で、50分に1回の頻度で通信を行い、常に最新のステータスを記録しています(上の図の①)。その情報の1つに位置情報も含まれています。その後、加入者DBではその最新のステータスを処理し、必要な設備と情報を共有することで、高品質な通信を維持しているのがモバイルのっとワークの仕組みです。

その加入者DBで処理された情報の中から、VoLTE交換機には位置情報が反映されますが、VoLTE交換機ではその位置情報が適切であるかを判断したのちに正常な通信が行われるそうです(図の②)。

しかし、先ほどVoLTE交換機は負荷軽減のためにトラヒックの制限を行いました。それにより加入者DBからVoLTE交換機に位置情報が書き込めず、VoLTE交換機と加入者DBの間で不一致が発生しエラーが起きてしまったというわけです。

⑦加入者DBデータ不一致への対処

では、この加入者DBデータの不一致をどのように解消するのでしょうか。

ここで、先ほど出てきたPGWについて、セッションをリセットすることで、改めて新しいステータスを加入者DBとVoLTEに書き込み、加入者DBデータの不一致を解消しようと考えたわけです。

そこで、2日の17:31から、先ほど⑤で切り離しを行った東西2台ずつのPGWから順番にセッションのリセットが始まりました。

今後、東日本には残り7台、西日本には残り6台PGWがありますので、それらを順番にリセットしていくことで回復していくと考えられています。

一連の流れを高速道路に置き換えてみると…

高速道路に置き換えて考えるとわかりやすいかなと思いましたので、書いてみました。
正直途中からめちゃくちゃなんで、わからなくなってきたら飛ばしてください(笑)

①~③渋滞(通信障害)の原因

「ある日、高速道路のメンテナンスの一環でのインターチェンジを工事するのために、管理会社は迂回路を用意していました。しかし、なぜかその迂回路が行き止まりになってしまったので、一度工事を中断してインターチェンジをオープンしました。そしたら、その迂回路に行ってしまった車がみんな帰ってきて、インターチェンジで超大規模な渋滞を起こしてしまいました。」

④インターチェンジ(VoLTE交換機)の渋滞緩和(負荷軽減)

「その後、インターチェンジでの渋滞を防ぐために、そもそも高速道路の入口で一部制限をしました。」

⑤ナンバーの管理システム(加入者DB)がパンクする(処理負荷)

「その後徐々に渋滞は緩和したものの、一度にたくさんのことが起こったせいでナンバーの記録で各車両の位置を管理していたシステムがバグを起こし始めます。」

「これを止めるために、少しでも交通量を減らそうと、高速道路では近畿エリアや関東エリアなど、大規模に入口を封鎖しました。」

⑥交通状況がさらにめちゃくちゃに…(加入者DBデータ不一致)

「入口を封鎖したことで、すでに高速道路にいる車が出ていけば混雑は緩和するかと思われていましたが、渋滞のそのど真ん中で大規模な事故が発生してしまいます。さらに、先ほど入り口を封鎖したせいで警察も事故現場にたどり着けなくなってしまいました。」

⑦様々な事故への対処

「もうここまでくると、急いですべての車を追い出すのは厳しくなってきました。なので、こうなったら高速の料金とか取るのは一度あきらめて、高速から降りれる車はすべて追い出して、事故もパッと片付けてしまおう」というような流れです。

回復の状況

3日11:00に行われた会見では、西日本は11:00頃、東日本は17:30頃復旧作業完了予定としています。
3日20:00現在、明石市内ではauのピクトはしっかりと3本立っており、4G/5Gともに通信は正常に行えていますが、通話は依然としてつながらない状況が続いています。また、docomo回線からau回線宛に発信した場合も、「電波の届かないところにある」というアナウンスが流れました。

会見で、通話を50%近くまで制限していると言ってましたので、それが原因でしょう。

補償って…返金とかされるの?

今回の障害については最初にも述べた通り、電気通信事業法で定める「重大な事故」に該当しますので、KDDIにはそれ相応の対応が求められます。一方でその補償の方法が返金やポイント配布というようにユーザーに分かりやすいものになるかは不透明です。

昨年の10月NTTドコモが29時間1,290万人に影響を及ぼした通信障害でも、ドコモの井伊基之社長らは会見で謝罪をし、役員報酬を一部返上するなどしましたが、利用者に返金などの措置は取られませんでした。

また、現在KDDIはpovoで0円プランを提供するなど、料金体系などが非常に複雑化していますので、筆者個人の予想としては、返金やポイントバックといったような対応は難しいのではないかと思います。

auの今回の対応はどう…?

今回のauの対応について、私が気になった点は2つです。

1つ目は、会見でKDDIの高橋社長がしっかりとモバイル通信の仕組みについて理解をしていたということです。
ITや通信の業界では、上司がそもそも基本的なことを理解しておらず、めちゃくちゃな状態で経営している企業やお役所がたくさんあります。過去には日本の内閣ですらも、某サイバーセキュリティ担当大臣がUSBを知らないなんてこともありましたよね。
そういう意味で、高橋社長がしっかりと理解できていることについては、非常に好印象を受けました。

2つ目は、昨年10月のドコモの障害について、しっかりと活かして対応をしているということです。
昨年10月のドコモの通信障害では、技術的なトラブルが解消したタイミングで「回復しました」と公表してしまったことで、アクセスが集中してさらに通信障害を引き延ばすということが起こりました。
その点、今回はNHKの記者からの質問で「いつ完全に復旧するのか」という質問に「ユーザーの書き込みなども確認しながら徐々に回復していく」と言っていましたので、意識はしているんだろうと感じました。

SNSでシェアしてね!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です