NTTドコモは10月15日、14日午後に全国で発生した通信障害に関する説明を行った。原因は、位置情報サービスのサーバー更新作業での不具合に伴う対応で、IoT機器から位置情報をサーバーに登録する通信が大量に発生し、ネットワーク全体が輻輳(ふくそう)状態に陥ったためだとしている。
通信障害は14日午後5時頃に発生した。同社では14日未明に、IoTサービスで運用する加入者/位置情報サーバーなどの設備を更新する作業を行っていたが、午前7時26分に不具合が発生し、旧設備に切り戻す作業を実施したという。
通信障害をもたらした作業の概要(NTTドコモの説明資料より)
IoTサービスで運用する加入者/位置情報とは、同社の説明ではタクシー利用時の決済や自動販売機の管理などに用いるものという。タクシー車内の決済端末や自動販売機の設置されている管理機器の内部に、携帯電話回線に接続する通信モジュールが内蔵されており、それぞれの処理において機器の位置情報をドコモのサーバーに登録する仕組みがある。
不具合は、想定で約20万台のIoT機器の位置情報を新設備のサーバーへ移行させる際に発生したという。その際は、最小限の影響を想定してこの規模で移行させたものの、結果的に想定を超えた不具合が発生したという。そのため旧設備に切り戻した後の午後4時36分に、旧設備のサーバーに対してIoT機器から位置情報をサーバーに再登録する処理を実行した。ところがここでも通信量が同社の想定以上に発生。午後5時頃に輻輳状態に陥り、音声通信の設備やパケット通信の設備にも影響が及んだとしている。
通信障害の原因(NTTドコモの説明資料より)
通信障害の原因(NTTドコモの説明資料より)
同社は、午後5時26分に全国で位置情報を登録する通信の制御を実施したという。これには、契約者端末の所在に関する位置情報なども含まれ、通常の通話やデータ通信ができない、利用しづらいことになった。午後6時9分から午後7時57分にかけて制御を段階的に緩和した。これ以降は徐々に通信サービスを回復させ、15日午前5時5分にLTEと5G(第5世代移動体通信)が復旧したとする。しかし3Gの通信は、この説明を行った15日午後2時時点でも一部で障害が解消されていない。
障害の発生原因から同社は、(1)通常運用とは異なる状態での処理能力の再確認、(2)確認した処理能力を踏まえた適切な切り替え手順の見直し――の課題を把握したと説明。10月下旬に対策を完了させるとしている。
再発防止策の方向性(NTTドコモの説明資料より)