オンプレのサーバ監視用途でDatadogを導入した話
昨年、社内でちょっとしたサーバ周りの障害が発生したことをきっかけに、監視体制を強化すべく今年度からDatadogを導入しています。
以前からDatadogに興味はあったものの、実際にどんなことができるの?という状態からスタートしました。Datadog担当者の方々と綿密な打ち合わせ。さらに1ヶ月のPoCを経て、今回、オンプレサーバの監視という文脈でDatadogを導入しました。
この事例紹介を西日本ユーザ交流会で行う機会があり、せっかくなのでブログ記事としてもまとめてみました。
Datadogでオンプレサーバ監視を始めるまで
オンプレサーバにDatadog
Agentをインストールするだけで、簡単に監視できてしまいます。
インストール方法についてもDatadogの公式マニュアルが非常に豊富で、初学者でも迷わず導入できると思います。
ただし、Datadogはインターネット経由で通信するため、環境によってはFirewallなどの設定が必要になることがあります。
プロキシ経由でもDatadogと通信できますが、そのプロキシが単一障害点になりかねないため、個人的にはおすすめしません。
実際、Datadogで何ができる?できない?
Datadogのサービス拡充のスピードと範囲は驚くほど広く、オブザーバビリティに関することは基本的に何でもできます(と私は思っています)。だからこそ、利用者が「何を」「何のために」「どうしたいのか」を明確にする必要があります。
当然のことながら、Agentなどを経由して取得できる情報がベースになります。つまり監視対象のサービス内で取得できない情報を、Datadogが勝手に取得することはありません。
また、Datadogのサービスは当然費用が発生します。すべての機能を利用しようとすれば、それなりの費用がかかります。そのため、繰り返しになりますが、利用者が「何を」「何のために」「どうしたいのか」を明確にすべきだと思います。
Datadogで気に入っている機能4選
①Synthetic TestのAPI TEST
API
TESTでは、特定のエンドポイントにリクエストを送信してレスポンスを比較できます。今回オンプレのサーバ監視用途でDatadogを導入しましたが、我々はイントラの公開されていないサービスにもAPI
TESTを実施しています。DatadogではPrivate
Locationというものをオンプレ内にデプロイすることが可能です(仮想でも物理でもOK)。
このPrivate
Locationをイントラ内の特定セグメントに配置すると、一般ユーザがイントラシステムへアクセスする際の環境を模擬できます。これにより、このAPI
TESTが失敗した際には一般ユーザもそのイントラシステムにアクセスできない状況であると判断し、障害の早期発見が可能です。
弊社の場合、社内のネットワーク・サーバはSNMPでも監視していますが、合わせ技でさらに強固な監視が実現できています。
②ホストのMute設定
Datadogで監視中のサーバに対して、Mute設定をワンクリックで行えます。 メンテナンスなどでサーバがダウンすることもあるため、この手軽さは非常に助かります。 Mute解除を忘れる懸念についても、「1時間/4時間/12時間/1日/1週間」と期間設定が可能なので安心です。
③Datadog Agentでのプロセス監視
Agentのプラン次第ですが、Datadog Agentを使ってサーバ内のプロセス監視が行えます。例えばWebサーバならapachedのプロセス、データベースサーバならmysqldが生きているかどうかを常時確認できます。1つのサーバで複数サービスが動いているような場合に、特に有効なツールだと思っています。
④柔軟なユーザ管理
Datadogは基本的にユーザ数で課金されません。つまり、ユーザアカウントをいくらでも作成できます(一部機能はユーザ単位で課金される場合もあります)。これにより、社内メンバーにも権限を絞って自由にアカウント発行ができるので、非常に便利です。
最後に
今後もDatadog関連の記事は執筆していこうと思います! Datadogの機能は多岐にわたります。その分、できることを正しく理解していきましょう!