NVIDIA DCGM 統合は、GPU のステータスの監視を支援します。この統合は、インフラストラクチャ エージェントと、NVIDIA の SMI ユーティリティとシームレスに統合される Prometheus リモート書き込み統合を活用します。GPU 使用率、XID エラー数、クロックとパフォーマンスの状態、温度、電力使用量などの重要な DCGM メトリクスを含む事前構築されたダッシュボードが提供されます。
NVIDIA DCGM 統合をセットアップすると、DCGM メトリクスのダッシュボードが提供されます。
インフラストラクチャエージェントをインストールします
データを New Relic に取り込むには、インフラストラクチャ エージェントをインストールします。当社のインフラストラクチャ エージェントはデータを収集して取り込むため、DCGM のパフォーマンスを追跡できます。
インフラストラクチャ エージェントは、次の 2 つの方法でインストールできます。
- ガイド付きインストールは、システムを検査し、システムに最適なアプリケーション監視エージェントとともにインフラストラクチャ エージェントをインストールする CLI ツールです。ガイド付きインストールの仕組みの詳細については、ガイド付きインストールの概要をご覧ください。
- インフラストラクチャ エージェントを手動でインストールしたい場合は、 Linux 、 Windowsの手動インストールのチュートリアルに従ってください。
DCGM エクスポーターを構成する
- ターミナルで、
dcgm-exporter
リポジトリのクローンを作成します。
$git clone https://github.com/NVIDIA/dcgm-exporter
- クローン作成されたリポジトリで、
dcgm-exporter
ディレクトリに移動します。
$cd dcgm-exporter
- 必要なバイナリをインストールします。
$make binary
$sudo make install
dcgm-exporter
を開始します。
$dcgm-exporter &
- DCGM メトリクスの詳細を確認します。
$curl localhost:9400/metrics
Prometheus での NVIDIA-DCGM 構成
Prometheus は、NVIDIA-DCGM エクスポーターを使用して NVIDIA GPU を監視するために使用できるオープンソースの監視およびアラート ツールです。DCGM メトリクスを監視するように Prometheus を設定するには、次の手順に従います。
- 最新リリースを見つけるには、 Prometheus ダウンロード ページにアクセスしてください。
- オペレーティング システムとアーキテクチャに適切なバージョンを選択します。Linux の場合は、linux-amd64 バージョンを選択することになるでしょう。tarball (
.tar.gz
ファイル) のダウンロード リンクをコピーします。 - Prometheus をダウンロードしたら、ダウンロードした tar ファイルを解凍します。
$tar -xvzf <filename.tar.gz>
- ダウンロードした Prometheus フォルダーに移動します。
$cd /DOWNLOADED-FOLDER/
prometheus.yml
ファイルを開き、次の行を追加します。
---scrape_configs: - job_name: NVIDI static_configs: - targets:['localhost:9400']
- プロメテウスを起動します。
$./prometheus --config.file=prometheus.yml
NVIDIA-DCGM 用の Prometheus リモート書き込みエージェントをインストールする
Prometheus 構成をセットアップした後、NVIDIA DCGM メトリクスを Prometheus に送信する必要があります。その後、Prometheus メトリクスを New Relic と統合するために、Prometheus リモート書き込みエージェントを利用できます。UI の Prometheus リモート書き込みセットアップ ランチャーに従ってください。
New Relic インフラストラクチャ エージェントを再起動します
データの読み取りを開始する前に、 インフラストラクチャ エージェントのドキュメント の手順に従ってインフラストラクチャ エージェントを再起動します。
$sudo systemctl restart newrelic-infra.service
New Relic で DCGM メトリクスを表示する
上記のセットアップが完了すると、nvidia-dcgm という名前の事前に構築されたダッシュボード テンプレートを使用してメトリクスを表示できます。このダッシュボードにアクセスするには:
- one.newrelic.com > + Add dataに移動します。
- Dashboards [ダッシュボード]タブをクリックします。
- 検索ボックスに「nvidia-dcgm」と入力します。
- それを選択し、 Install [インストール]をクリックします。
nvidia-dcgm クイックスタートを計測し、メトリクスとアラートを確認するには、「今すぐインストール」ボタンをクリックしてNvidia-DCGM クイックスタート ページに従うこともできます。
以下に、クエリの例を示します。
例:デバイスの GPU 温度のカウントを表示する
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
次は何ですか?
NRQL クエリの作成とダッシュボードの生成の詳細については、次のドキュメントをご覧ください。
基本的なクエリと高度なクエリを作成するためのクエリ ビルダーの概要。
ダッシュボードを管理し て調整する
表示モードにするか、ダッシュボードにコンテンツを追加します。