This is a machine translation based on the English version of the article. It might or might not have already been subject to text preparation. If you find errors, please file a GitHub issue that states the paragraph that has to be improved. |
1. 概要
Checkmk による監視の目的は、お客様の IT インフラストラクチャの実際の状態を常に明確に把握していただくことです。 このすべての情報をデータベースに記録することで、いつでも過去を振り返ったり、パフォーマンスのグラフを作成したり、問題の原因となった可能性のある相関関係を特定したりすることができます。 たとえば、ファイルシステムのグラフを一目見ただけで、スペースが不足する時期の大まかな見当はつきますが、この印象は多くの場合、誤解を招くものです。
たとえば、ファイルシステムのグラフを一目見ただけで、容量が不足する時期のおおよその見当はつきますが、この 印象は多くの場合、誤解を招くものです。容量管理の中心的なエレメントが 省略されているからです。たとえば、季節的要因は、判断を誤る余地を大きくします。 IT インフラストラクチャに対する需要は、休暇期間、祝日、あるいは季節によって変化する場合がありますが、これらの要因は必ずしも些細で明白なものではありません。
予測の計算におけるもう 1 つの重要な要素は、1 回限りの影響です。たとえば、ファイルシステムの大きなクリーンアップ作業中に外挿のための線形回帰を利用した場合、プロセス自体が消費するストレージ容量によって、ファイルシステムが近い将来完全に空になるような印象を与える可能性があります。 これは誤った結論であることはすぐに明らかであり、より信頼性の高い予測には、より堅牢な方法が必要であることをはっきりと示しています。
Checkmk の商業版では、収集した履歴データに基づいて巧妙な解釈を行い、正しく設定すれば正確な予測を可能にする、このような堅牢な方法を提供しています。 この記事では、その設定方法をご紹介します。
2. Checkmk での設定
2.1. 予測グラフの作成
予測グラフを作成する最も簡単な方法は、メトリックを生成するサービスの詳細ビューに移動することです。このような詳細ビューでは、サービスグラフのすぐ下に「Service Metrics 」という行があります。各メトリックの現在の値の後ろには、メトリックの特別なアクション用のボタンがあります。

アクションメニューを開き、[New forecast graph…] を選択します。

しばらくすると、選択したメトリックの最初の予測グラフが表示されます。

2.2. モデルパラメーター
次に、このメトリックの予測を計算するための特定のパラメータを、グラフのすぐ下で選択します。これらのパラメータは、お客様の特定の環境や予測の目的によって大きく異なるため、オプションとその影響について十分に検討することが非常に重要です。

最小 - 最大 - 平均
Metric 行の最後のフィールドは、予測の信頼性に大きな影響を与える可能性があります。この時点でのデフォルトは、常に「Maximum 」オプションです。これは、容量管理のコンテキストでは、このオプションが、予測そのものを示す、つまりピーク負荷時のボトルネックを示す場合が最も多いためです。たとえば、CPU utilization サービスの平均値のみを確認した場合、平均利用率はまだ許容範囲内であるように見えるかもしれません。しかし、予見可能な将来において、実際の状況が発生したときに、ピーク負荷時に CPU が常に限界に達していることに、監視で初めて気付くことになるでしょう。
ヒストリーの考慮
このオプションを使用すると、予測の計算の基礎となる履歴データの期間を指定することができます。一般的には、予測を正確に合わせるには多くのデータポイントが必要となります。ただし、たとえば、常に前月の測定値を基礎として使用したい場合は、[Last month ] オプションを選択することで実現できます。これは、過去 30 日間ではなく、前月のデータを基礎として使用することを意味します。
期間を制限するもう 1 つの理由としては、サーバーの個々のコンポーネントのアップグレードなどが挙げられます。このアップグレード前のデータを含めると、予測が歪む可能性があります。
将来への予測
予測は、[Consider history of] で選択した期間の最終日から開始されます。これは、選択内容によっては、実際の測定データがすでに蓄積されている期間についても予測が計算されるため、注意すべき点です。この重複部分では、予測が実際の値にどれだけ近かったかをすでに確認することができます。
さらに、将来を見通す期間が長いほど、予測の精度は当然低下します。しかし、この当然のことは、予測グラフでは、オレンジ色の部分が増えることでよくわかります。
トレンドの柔軟性
時間範囲(この場合は、サービスについて記録された値)を観察および分析する場合、いわゆる構造変化点または変化点が非常に重要な役割を果たします。簡単に言えば、これらの変化点は、時間範囲の中で、多かれ少なかれ大きな変化が観察される瞬間です。時間枠の分析中に、Checkmk は一連の変化点をすべて識別し、予測で再利用することで予測の精度を高めます。Checkmk が予測グラフの曲線をこれらの変化点にどの程度調整するかは、5 つの「Trend flexibility 」オプションで決定できます。 調整が強すぎる(いわゆる過適合)場合、予測機能は、前の時系列の単純な更新(基本的にコピー)に非常に近いものになります。一方、過適合の場合、予測は極めて不正確になります。Checkmk では、多くの状況に適した標準値が用意されており、Medium でこれを使用することができます。予測グラフの精度が低すぎる(アンダーフィッティング)場合は、High またはVery High を選択して、トレンド曲線の柔軟性を高める必要があります。逆に、オーバーフィッティングの場合は、Low およびNone (linear) の 2 つのオプションが引き続き使用できますが、None (linear) は完全性を確保するためにのみ用意されているため、使用は推奨されません。
モデルの季節性
この時点で、予測グラフがインフラストラクチャの定期的および季節的な需要をどのようにハンドルするかを決定する必要があります。 予測グラフでは、2 つの時間枠が自動的に考慮されます。1 つは、週 5 日の勤務と週末などの毎週繰り返される要件、もう 1 つは、祝日やスタッフの休暇などに関連する年間または季節的な要件です。Checkmk はこの 季節性を自動的に認識するため、予測の方法を指定するだけで済みます 。
Additive オプションを選択すると、これらの変更された要件は予測に 1 回だけ含まれます。その名前が示すとおり、需要の増加または減少は単にトレンドに追加されます。
一方、「Multiplicative 」を選択すると、将来の季節的な需要はトレンドに比例して増加または減少します。
信頼区間
この時点で、予測の信頼度を決定する必要があります。 簡単に言えば、このレベルで、予想される値が信頼区間内に収まる確率を指定する場所です。 この選択の目的は、可能な限り高いレベルから、常にできるだけ狭い区間を取得することです。利用可能な履歴データが多いほど、予測グラフはこれを達成しやすくなります。利用可能な履歴データが多いほど、予測グラフはこの目標をより達成しやすくなります。この選択が実際の「適合度」に影響を与えないことが重要です。レベルが高いほど、その周辺領域(つまり、区間の視覚化)がそれに応じて大きくなります。
最後の
予測グラフの左側には、垂直の黄色の線で区切られた、指定した日数の実際の優れたデータの視覚化が表示されます。 ここに表示する日数を指定することができます。この値は予測自体の計算には影響せず、表示にのみ影響します。
グラフに情報を表示
最後のオプションも、グラフの表示にのみ影響します。Model parameters をチェックすると、以前に選択したパラメータが完成したグラフの下に表示されます。 これにより、グラフの解釈が容易になります。
3. 診断オプション
3.1. 発生する可能性のあるエラーおよびエラーメッセージ
グラフを作成できません
エラーメッセージ「Cannot create graph - Metric historical data has less than 2 days of valid values 」は、その意味がほぼそのままです。 意味のある予測を行うためには、Checkmk は 2 日分以上の履歴 測定データが必要です。測定ポイントが少ない場合、ある程度正確な 予測を行うことは不可能です。
