• English日本語한국어
  • ログイン今すぐ開始

この機械翻訳は参考用に提供されます。

英語版と翻訳版に矛盾がある場合は、英語版が優先されます。詳細については、こちらのページをご覧ください。

問題を作成する

NVIDIA DCGM の統合

NVIDIA DCGM 統合は、GPU のステータスの監視を支援します。この統合は、インフラストラクチャ エージェントと、NVIDIA の SMI ユーティリティとシームレスに統合される Prometheus リモート書き込み統合を活用します。GPU 使用率、XID エラー数、クロックとパフォーマンスの状態、温度、電力使用量などの重要な DCGM メトリクスを含む事前構築されたダッシュボードが提供されます。

NVIDIA DCGM 統合をセットアップすると、DCGM メトリクスのダッシュボードが提供されます。

インフラストラクチャエージェントをインストールします

データを New Relic に取り込むには、インフラストラクチャ エージェントをインストールします。当社のインフラストラクチャ エージェントはデータを収集して取り込むため、DCGM のパフォーマンスを追跡できます。

インフラストラクチャ エージェントは、次の 2 つの方法でインストールできます。

DCGM エクスポーターを構成する

  1. ターミナルで、 dcgm-exporterリポジトリのクローンを作成します。
bash
$
git clone https://github.com/NVIDIA/dcgm-exporter
  1. クローン作成されたリポジトリで、 dcgm-exporterディレクトリに移動します。
bash
$
cd dcgm-exporter
  1. 必要なバイナリをインストールします。
bash
$
make binary
bash
$
sudo make install
  1. dcgm-exporterを開始します。
bash
$
dcgm-exporter &
  1. DCGM メトリクスの詳細を確認します。
bash
$
curl localhost:9400/metrics

Prometheus での NVIDIA-DCGM 構成

Prometheus は、NVIDIA-DCGM エクスポーターを使用して NVIDIA GPU を監視するために使用できるオープンソースの監視およびアラート ツールです。DCGM メトリクスを監視するように Prometheus を設定するには、次の手順に従います。

  1. 最新リリースを見つけるには、 Prometheus ダウンロード ページにアクセスしてください。
  2. オペレーティング システムとアーキテクチャに適切なバージョンを選択します。Linux の場合は、linux-amd64 バージョンを選択することになるでしょう。tarball ( .tar.gzファイル) のダウンロード リンクをコピーします。
  3. Prometheus をダウンロードしたら、ダウンロードした tar ファイルを解凍します。
bash
$
tar -xvzf <filename.tar.gz>
  1. ダウンロードした Prometheus フォルダーに移動します。
bash
$
cd /DOWNLOADED-FOLDER/
  1. prometheus.ymlファイルを開き、次の行を追加します。
---
scrape_configs:
- job_name: NVIDI
static_configs:
- targets:['localhost:9400']
  1. プロメテウスを起動します。
bash
$
./prometheus --config.file=prometheus.yml

NVIDIA-DCGM 用の Prometheus リモート書き込みエージェントをインストールする

Prometheus 構成をセットアップした後、NVIDIA DCGM メトリクスを Prometheus に送信する必要があります。その後、Prometheus メトリクスを New Relic と統合するために、Prometheus リモート書き込みエージェントを利用できます。UI の Prometheus リモート書き込みセットアップ ランチャーに従ってください。

New Relic インフラストラクチャ エージェントを再起動します

データの読み取りを開始する前に、 インフラストラクチャ エージェントのドキュメント の手順に従ってインフラストラクチャ エージェントを再起動します。

bash
$
sudo systemctl restart newrelic-infra.service

New Relic で DCGM メトリクスを表示する

上記のセットアップが完了すると、nvidia-dcgm という名前の事前に構築されたダッシュボード テンプレートを使用してメトリクスを表示できます。このダッシュボードにアクセスするには:

  1. one.newrelic.com > + Add dataに移動します。
  2. Dashboards [ダッシュボード]タブをクリックします。
  3. 検索ボックスに「nvidia-dcgm」と入力します。
  4. それを選択し、 Install [インストール]をクリックします。

nvidia-dcgm クイックスタートを計測し、メトリクスとアラートを確認するには、「今すぐインストール」ボタンをクリックしてNvidia-DCGM クイックスタート ページに従うこともできます。

以下に、クエリの例を示します。

例:デバイスの GPU 温度のカウントを表示する

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

次は何ですか?

NRQL クエリの作成とダッシュボードの生成の詳細については、次のドキュメントをご覧ください。

Copyright © 2024 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.