インフラエンジニア

【体験談】ネットワーク運用監視の仕事内容を超具体化

ネットワーク運用監視

文系未経験からネットワークエンジニアになる人の最初の仕事内容は、ネットワークの運用監視という仕事になる場合が多いです。

僕は25才から28才までの3年間、ネットワーク運用監視の仕事を実際にやっていました。

よく聞くけれど、どんな仕事をするかまでイメージがつかない

そんなあなたへ向けて、僕が実際に行っていた仕事内容を具体的に書いてみます。

―要約リスト―

ネットワーク運用監視の仕事とは、ざっくり言うと・・・
1.地味だが超重要。無いと世界が終わる。
2.日勤夜勤シフト制、24時間365日誰かが働いている。
3.ネットワーク障害発生 → 調査 → 復旧 → 原因報告 が仕事の基本。

ネットワーク運用監視とは?

“運用”という言葉が曖昧で具体的に何を指すのかよく分かりません。というわけで、言葉の定義から。

ネットワークとは、複数のコンピューターを結び、データなどを共有し、情報処理の効率化を図るシステムのこと。

運用とは、そのもののもつ機能を生かして用いること。      引用 – goo辞書

これをくっつけて、

情報処理の効率化」というネットワークの機能を生かせるように、障害が起きてもすぐに対応できるように監視する仕事

と表現してみましょう。少しは分かり易くなったでしょうか。

あなたも普段当たり前のようにネットワークを利用しています。あまりに当たり前すぎて普段意識すらしません。これから人生を終えるまでネットワークを使わない日なんて冗談抜きで1日も存在しないでしょう。

ネットワークが現在ほど普及していなかった2,30年前は、調べたいことがあったら本を本屋で買うか、図書館へ行くしかありませんでした。

そういう光景を想像してみると、ネットワークが世界中のあらゆるものを繋いだことで、どれだけ情報収集が効率的になったかが実感できるのではないでしょうか。

そんな現代に欠かせないネットワークを生かせるように維持するこの仕事の意義は大きいんですよ?

実はものすごく重要な仕事

機械って絶対にいつかは壊れますよね。

あなたのPCが繋がる先には、物理的にネットワーク機器が存在していて、その更に先にケーブルで繋がっている機器は無数にあって、毎日どこかで壊れています。

壊れた事を検知する人がいて、その部材を手配したり交換作業をする人がいるわけです。

何の仕事だってだいたいは大事だろう!と思うかもしれません。

でも今の時代に、ネットワーク運用監視という仕事がなくなったら、世界が終わると言っても過言ではありません。

この世界は何もかもがネットワークあることが大前提で成り立っているからです。

ネットワークが、水や電気などと並ぶ、無くなると絶対的に困る「インフラ」のひとつである理由ですね。

インターネットというものが使えなくなると人間の生活が成り立たなくなるのは簡単に想像できると思います。

たとえば1つの企業レベルに落として話すと、よりリアルになります。

ユニクロが2017年の年末感謝祭としてオンラインセールを実施した結果、サーバが丸1日ダウンしたニュースをご存知でしょうか。

今回は「サーバ」が処理落ちした話なので、仮にネットワークの障害だったと仮定して考えてみましょう。(光ケーブルの断線、作業ミスでケーブルが抜けちゃう障害とか普通にあります)

すると、本来であればこの1日の間にネットから服を注文してお金を払っていたはずの大量の何千何万人のお客さんを逃したことになります。つまり、何億もの損失が発生したのと同じです。

逆に、停止が1日間だったから数億円で済んだ、という見方もできます。直らないまま放置されたらユニクロは社会的信用も失い倒産、なんてことも現実に起きうるわけです。

いかに、「情報処理を効率化を図るシステム=ネットワーク」を生かせる状態にしておく、運用監視という仕事が重要かお分かりいただけたでしょうか。

近い将来、「運用監視業務はこの世から無くなるのでは?」と言われています。
運用監視は誰が対応しても同じことが出来るように、対応マニュアルが存在します。誰でもできるなら人工知能<AI>がやればいいんじゃない?と考える人が出てくるわけですね。

勤務体系

大手企業へ”常駐”する

運用監視で最も多いのが、とある大きな回線事業者(だいたい大手企業)のオフィス(監視センター)へ自分の会社から派遣されて常駐する、という就業スタイルです。 ※特に中小/ベンチャー企業に就職した場合

回線事業者というのは、ソフトバンクテレコム、NTTコミュニケーションズ、KDDI、IIJなどの、インターネットや企業専用ネットワークをサービスとして提供している企業のことです。
聞いたことがある会社はあるのではないでしょうか。

派遣を図で例を示すと、こんな感じになります。①お客さまから100万円でネットワーク運用監視をしてくれ、という依頼がY回線事業者に来たとしましょう。

派遣 常駐

すると、下請け企業のA社に「お金払うから誰か手伝ってください!」と労働力(人)の支援を依頼します。

②依頼を受けたA社は、A社内のエンジニアをY社に派遣します。

③提供された労働力の対価としてA社は報酬を受け取ります

ここで、派遣されたA社の人はY社の社員として働きます。たとえば、Y社内で電話に出るときは「Y社の●●です」と名乗ることになります。

これが原因で、自分はどこの社員だか分からなくなって「アイデンティティの喪失」と呼ばれるメンタル事故で退職する人が出ることも。

僕は気にしたことがないですが、たしかに気持ちは分かります。誤解してほしくないのは、“Y社に派遣されたA社のエンジニアはA社の正社員である”ことです。”A社の正社員”として他社へ派遣されているので、世間的なステータスは間違いなく”正社員”なのですが、「派遣契約社員」になったかのような感覚になってしまう人もいます。

親に「どこで働いてるんだっけ?」と聞かれ「自社は●●駅だけど、派遣されて■■駅の近く」と答えたら「は!?あんた正社員じゃなかったの!?」と勘違いされた、なんていう経験があります。

しかし、良い見方をすると、A社から派遣される人は派遣先の企業で人脈を作ることが可能です。大手ならなおさらチャンスです。

僕はA社の立場として働いていたのですが、実際に僕が転職するとなった時「うちに来る気はないかな?」と派遣先の偉い人が誘ってくれました。

下請けとはいえ大きな会社の一員として働く体験は貴重である、とも言えるわけです。

日勤夜勤の2交代制シフト

僕が常駐した先(以降”現場”と呼ぶことにします)では、24時間365日ネットワークを監視するためにシフト制でした。

運用監視の現場を何か所も実際に経験したわけではありませんが、ネットワークというのは常に使える状態にしてあるべきものなので、全ての現場は24時間を前提としたシフト制のはずです。

シフト制のなかでも、日勤夜勤の2交代制で回すところと日勤夕勤夜勤の3交代制で回すところがあります。僕の現場は2交代制でした。月末に翌月1か月間のシフトが決められます。

シフトメンバは総勢12名(女3男9くらい)で、日勤2人、夜勤2人の構成。

年齢は、下が20歳、上が31歳くらいだったと思います。僕は配属当時25歳だったので、ちょうど中間でした。

勤務時間は、日勤が 09:00 から 17:30 までで、夜勤が 16:30 から 10:00 まで

「・・・え?夜勤の時間どうなってるの?」と思いましたか?

16:30 に出社して、翌朝の10:00 まで勤務。とても長いですよね。17時間半も働くのです。

ただ、2日分勤務したことになり、退勤したその日はもちろん休みで次のもっとも早い勤務が翌日の夜勤から、という仕組み。

夜勤の間に休憩を2時間取ることができて、仮眠室もあったので寝ることもできました。

休憩時間は寝ようが本を読もうが飯を食おうが何をしても自由でしたが、ビルの外にでる外出だけは不可でした。急に大きな障害が起きたらすぐに対応できるようにしないといけなかったからです。

夜勤で1人休憩に行くと、もう片方は1人で仕事をしなければいけない規模の小さな現場だった、という事情があります。

当然、仮眠室で寝ていても大きな障害が起きると問答無用で起こされ仕事再開、なんてことも普通の光景でした汗

当時の自社の同僚も僕とは別の現場でネットワーク運用監視をしていたのですが、その現場では夜勤の休憩が4時間もらえて、夜勤を4人5人入れてる大きな現場だったため外出も自由だったそうです。

早朝に築地まで行って寿司を食べて帰ってきた、なんて話を聞いてとてもうらやましく思いましたし、何より休憩時間が倍の4時間ってどういうことなの。。。

スーパーバイザーとオペレータという役割

現場によって呼び方は変わると思いますが、僕の現場では、スーパーバイザーオペレータという役割がありました。一般的な言葉だと、リーダーとメンバーでしょうか。

僕の現場では、日勤夜勤ともにオペレータ1名、スーパーバイザー1名という体制。

スーパーバイザーは、障害対応など現在進行しているタスクを総合的に把握して、優先度をつけてオペレータに作業を指示する、というのがメインの仕事です。

オペレータは、指示に従って実際に障害対応などを実行。

障害などが重なると、当然スーパーバイザーも手を動かして対応をしなければなりません。

配属された人はみな、オペレータからスタートし、障害対応の経験を積むとスーパーバイザーへと昇格します。昇格までは1年がだいたいの目安でした。

ただし、スーパーバイザーになったからといって給料が増えたりはしません。あくまでもその現場内での役割であり、自社での職位が上がるわけではありませんので。

具体的な業務内容

では「具体的に何をやるの?」という問いに対してイメージが湧くように、できるだけリアルにお伝えしていきます。

1日は”引き継ぎ”から始まる

24時間365日稼働し続ける運用監視現場の特徴は、引き継ぎがある、という点です。

毎勤務帯、かならず「引き継ぎ資料」をパソコンのテキストファイルとして作成します。その引き継ぎ資料資料には、

「自分の勤務帯でどんな障害が新しく発生し、どこまで対応し、何が残作業か」

という項目がまとめてあります。

日勤から夜勤、夜勤から日勤へ勤務を交代するタイミングで、この資料を使いながら引き継ぎを行います。

引き継ぎの完了がその勤務帯の終了で、次にシフトに入る人達の仕事が始まります。

日勤が 17:30 まで勤務で、夜勤が 16:30 に出社、と既にお伝えしましたが、1時間も勤務時間が被っているのは引き継ぎ時間を考慮しているためです。

この引き継ぎの間に、シフトに入るスーパーバイザーは、やるべき作業、優先度を整理します。

ネットワーク障害対応

ネットワークの障害対応、とは一言で言っても、実際何がどうなって誰がどうするのかがよくわからないと思います。

実際に、僕が対応していたフローに沿って、障害対応の過程を描写してみます。

ちなみに、ネットワーク障害といえば、超おおまかにいって以下2つのどちらかが壊れることを指します。

ネットワーク運用監視 障害ポイント

障害対応のおおまかなステップだけを記載するとこのようになります。

障害発生アラーム検知

障害切り分け(マニュアル確認)

初報通知

調査依頼

エスカレーション

復旧確認

復旧通知

原因調査

1項目ずつ、詳しく見ていきましょう。

① 障害発生アラーム検知

たとえば、A社支店からA社本店につながるネットワークが断線したとします。

ネットワーク運用監視 障害検知

そうすると、オペレータやスーパーバイザーが座る近くに設置されているアラームランプが真っ赤に点灯し、ピーピー音が鳴って障害が起きたことを知ることができます。このアラームが鳴ることが、障害対応開始の合図となります。

② 障害切り分け(マニュアル確認)

アラームランプと連動して、監視モニター画面が真っ赤になるので、そこに表示されるアラームの詳細を確認し、どの拠点で発生したかを確認します。

拠点ごとにある対応マニュアルを参照し、切り分け方法を確認します。

ネットワーク機器に遠隔ログインをしてログを確認、アラームを検知したおおざっぱな理由を把握します。

ネットワーク運用監視 障害切り分け

③ お客さまへ障害通知

障害が発生し、②の結果これは障害だ、と判断した場合はお客さまへ障害が発生したことを通知します。

ネットワーク運用監視 障害通知

僕の現場では、「障害が発生してから30分以内にメール + 電話で通知しなければいけない」という決まりがありました。

頑張りましょう程度の目標ではなく、お客さまとの「契約」でそうなっているので30分を超えてしまったり忙しすぎてメールを出し忘れると「契約違反」となります。

何があっても障害を検知したら30分以内に通知する、というのが現場の最優先ルールでした。

この後何度も「電話で通知」などと書きますが、運用監視の現場では電話応対が仕事の5割を占めます。「エンジニア」という言葉からは意外に思うかもしれません。

そんなに電話応対があるとは配属するまで全く知らなかったため、慣れるまでは毎日のように「電話かかってくるなくるなくるな」と祈ったものです。

ちなみに、30分以内通知ルールを守れなかった人は「なぜ30分以内に通知できなかったか」を論理的に徹底的に洗い出し、その原因から再発防止策を考えるよう詰められます。「あまりに忙しすぎて見逃した」のが理由なら「忙しくても見逃さないようにする方法考えて」となります。そんなアホな。。

④ 調査依頼

お客さまへの初報連絡が終わると、今度は、回線や機器の調査を担当する会社/部署へ「こんなアラーム出たから調査してくれ」と電話なりメールで依頼します。

ネットワーク運用監視 調査依頼

この調査依頼の連絡を1本するだけで、復旧させるところまで勝手に動いてくれます。

ネットワーク運用監視では、例えばあなたがアラーム検知した拠点まで実際に駆けつけて機器の調査に出向いたり、直す作業をしたり、ということはしません。

あくまでも、障害発生から回復まで、調査や復旧作業を実際にする人達の動きを電話/メールで管理するのが役割です。

⑤ エスカレーション

簡単に言うと、エライ人(マネージャー)に電話で報告連絡相談です。

障害の調査が全然進まなかったり、お客さまから「全然直らないじゃないですか。一体何をしているんですか?」といったクレーム寸前の電話をもらったりすることがよくあります。

ネットワーク運用監視 エスカレーション

「これは最悪ヤバくなる可能性があるな」というのを察知したら、エライ人に「こんな状況でちょっとヤバそうです」というのを伝えないといけません。

なぜなら、お客さまがとうとう怒りだして「責任者出せ!」という事態になった時に真っ先にクレームが上がる先がエライ人です。エライ人が「お客さまが怒り出すまで状況を把握していなかった」というのは最悪のパターンです。

逆に「キレてないけどヤバそうな状況」の時点で先にエスカレーションが出来れば、エライ人から能動的にお客さまへ連絡し状況をしっかり説明する事ができます。

こうすることで、「直らないけど、しっかり動いてくれてはいるのか」と思ってもらうことができるのです。むしろ、信用が高めることが可能です。

こう考えると、エスカレーションの役割はとても重要だということが分かりますね。

「こういう状況でエスカレーションをしなさい」という基準は設定されていたのですが、たいていの場合、

基準④:その他緊急度が高い場合

みたいに書いてあるんですね。「ヤバそうならエスカレして、でもヤバそうな基準はしっかり自分で考えてね」というマニュアルにあるまじき幅の広い解釈。

でも、マニュアルでがんじがらめになりがちな運用監視で「私はこういう根拠でエスカレをするという判断をしました」と主張していける部分があるというのは良い事だと思いました。

マニュアルに書いてあったからエスカレをしました、だけじゃつまらないじゃないですか?

ネットワーク障害はいつ起きるか分かりません。つまりエスカレーションされる側は、24時間365日いつエスカレの電話がかかってくるか分かりません。そりゃ、寝てるところを電話で起こされたら機嫌悪くもなりますよね。。

⑥ 復旧アラーム検知、復旧確認

調査依頼をすればいずれ障害は直り、アラームランプが青く点灯し復旧を知らせてくれます。

ネットワーク運用監視 障害復旧

この復旧アラーム検知を合図に、本当に復旧したのか?をネットワーク機器にログインして確認します。

よくあるのが、復旧アラームは鳴ったけど、機器ログイン確認を忘れてしまい、実はまだ不具合が残っていてネットワークが使えない状態だった、というオチです。

たまに何を信じていいのか分からなくなります笑

⑦ 復旧通知

復旧をしっかりと確認したら、「復旧したのでもう使えますよ」とお客さまへ電話なりメールで通知します。

これも、僕の現場では「30分以内に電話 + メールで通知」するという契約がありまして、障害発生時と同様、忘れたりすると大変なことになりました。

⑧ 原因調査、報告

⑥で復旧するまでは、復旧最優先でものごとが進みます。根本的な原因調査は後回しです。

例えば、初期調査の段階で「ケーブルが切れている」ことが分かった場合の次のステップは「とにかくケーブルを直すこと」です。

ケーブルを直して通信が正常にできる状態に戻して初めて「ではなぜケーブルが切れたのか?誰かが切ったのか経年劣化なのか?」という根本原因を追究します。

その結果が判明次第、お客さまへメールで報告。

これで、1つの障害対応が完了です。

起きる障害が常に1つだけであれば①から⑧まで順番にやればいいのですが、障害が2つ3つ同時だったり時間差で発生すると、あなたの思うよりもっと複雑な仕事になります。

ですので、「運用監視なんて誰でも出来る仕事だ」なんて言われることがありますが「ならやってみろ!」と言いたくなるくらい頭を使いますよ。

いかにして障害時間を短くするために動くか。これを極めようとすれば、それなりにやりがいのある仕事になります。

無料でプログラミング/ITインフラスキルを習得するならGEEK JOB
geek job
  • プログラミング・ネットワーク/サーバー研修からIT企業内定まで無料サポート
  • 履歴書・職務経歴書の書き方が分からなくても、手伝ってくれる
  • 完全オンライン学習で、日本全国どこに住んでいても受講できる

まずは、オンライン説明会から
GEEK JOB公式サイトへ ≫