10月14日午後5時ごろ、ドコモの通信回線を使う全国のユーザーから、「データ通信が使えず圏外になる」や「音声通話が使えない」などの報告が上がり、音声通話とパケット通信サービスに障害が生じました。200万人が通信できなかったようです。私も電子決済の反応が悪くなり一瞬焦りました。モバイルネットワークが充実してきたので、便利になっている半面、何か問題が起こると大きな影響が出ると実感しました。今は2つの通信会社と契約できるデュアルSIM対応のスマートフォンや基本料金のかからない格安SIMもあります。万が一に備えるコストも低くなっているので、機会があったら検討したいと思います。
総務省は今回の障害を「重大な事故」と判断し行政指導も検討との報道がありました。電気通信事業法では3万人以上が119番といった緊急通報を1時間以上利用できない状態が生じた場合、「重大な事故」に位置付けているそうです。総務省の「2019年度電気通信事故に関する検証報告の概要と今後の在り方について」によりますと2000年度に報告された電気通信事故は6,301件発生し、このうち重大事故が3件でした。2004年以降重大事故が10件を上回ったのは2005年から2013年までで、2017年以降は4件、4件、3件と減少傾向です。
今回の障害は加入者/位置情報サーバを新設備に切り替える工事で発生しました。新設備に切り替え後、不具合が判明しました。そこで旧設備に切り戻したのち、IoT機器からの位置登録を促す措置を実行したところ、約20万台のIoT機器が位置情報を一斉に送信したため旧装置の処理能力を上回り、通信障害につながったそうです。ドコモは会見で「この措置は、工事では正しい手順」で、「工事を行う際には手順書をつくり、万が一切り戻しが必要な際に備えてシミュレーションも重ねている。」と発言していましたが、今回障害となってしまいました。このように、事前に準備したとしても想定外(今回はIoTの位置情報一斉送信)のことが発生すると大きな事故につながってしまいます。
東京大学の中尾政之教授は、設計および生産技術に関する研究を行っていますが、テーマの一つに失敗学があり、失敗に関する著作がいくつかあります。中尾教授は失敗の原因は無知、無視、過信にあるとしています。著書「失敗100選」の中で原因を分析していて、無知が35%、無視が9%、過信が17%と失敗のうち61%がこの3要素に起因するそうです。無視はルールを無視するなど後ろ向きな態度ですので今回のケースは該当しないと思います。ただし、無知、過信が招いたと推察しています。直接的な原因はIoT機器からの位置情報の一斉送信とありました。8,000万回線もあるドコモにとってみれば一斉送信とはいえたった20万台のIoT機器で大きな障害につながるとは想像すらしていなかったと思います。ドコモのHPではIoT機器として「配送車両やカード認証装置、監視カメラや自動販売機」とあります。従来は切り戻しの際の位置情報送信がさほど負荷にならなかったが、これらのIoT機器が急速に増加したため今回の障害につながったように思います。IoT機器増加に対する無知も原因の一つと言えます。凄まじい勢いで環境が変わり続けています。従来の知見、経験を「過信」せず、「無知」とならないよう変化を捉え、有効なルールを「無視」することなく失敗をしないようしていきたいと思います。