エラー解析:エラーの背後にあるイベントを調査する

New Relic APMエージェントのバージョン選択した期間によっては、New Relic APMのエラー解析機能は次のいずれかを提供します。

  • イベントビュー:グループ化とフィルタリングによって、過去8日間のエラー情報を詳細に調べることができます。
  • メトリックスビュー:過去8日間を超える期間におけるエラー率情報のサマリーを提供します。

この機能を利用できるかは、 サブスクリプションレベルによります。

エラーの追加、無視、マークを想定通りに行う

New Relic APMに新しいエラーを追加することで、New Relicコレクター。詳細については、「APMでのエラーの管理」をご覧ください。

さらに、JavaおよびRubyエージェントは想定されるエラーの設定を可能にします。詳しくは想定されるエラーを参照してください。

エラー解析ページの表示

エラー解析UIページを表示するには:

New Relic Oneの場合:
  • one.newrelic.com > Entity explorer > (アプリを選択)に進み、選択したアプリに関するError Rateテーブルのタイトルをクリックします。

    または

  • one.newrelic.com > Entity explorer > (アプリを選択) > Explore performance > Error analyticsに進みます。

詳しくは、New Relic Oneの中核となるUIコンポーネントの操作に関するドキュメンテーションを参照してください。

New Relic APMの場合:
  • rpm.newrelic.com/apm > (アプリを選択) > Events > Error analyticsに移動します。

    または

  • rpm.newrelic.com/apm > (アプリを選択) > Monitoring > Overviewに進み、選択したアプリのError rateテーブルのタイトルを選択します。

New Relicの標準的なページ機能のいずれかを使用して、詳細情報にドリルダウンします。

New Relic APM:アラート付きのエラー解析
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: エラー率チャートには、常にすべてのエラーの割合と件数が表示されます。さらにドリルダウンするには、上位5つのエラーチャートのグループ化とフィルタのオプションを使用します。アラート状態にあるアプリの例を示します。(Warning(警告)の閾値ではチャートの背景が薄いピンク色に変わり、Critical(危険)の条件では暗いピンクに変わります。)さらに、エラートレーステーブルとエラー頻度ヒートマップを使用して、特定のエラーの詳細と傾向を時間をかけて調べます。

エラー分析の詳細については、New Relic Universityのエラー分析ダッシュボードチュートリアルをご覧ください。または、完全なGet Started with APMのオンラインコースに直接アクセスしてください。

エラー報告の上限

New Relicでは、エージェントインスタンスあたりのエラー報告件数を毎分100イベントに制限しています。これにより、エラー報告がアプリケーションのパフォーマンスに悪影響を与えることはありません。エラー率が上限を超えると、エラー分析ページにToo many errorsバナーメッセージが表示され、New Relicがすべてのエラーを記録していないことを通知します。

例:

  • 5つのホストで実行されるアプリ:New Relicでは、エラー報告件数を毎分100 x 5 = 500イベントに制限しています。
  • 1つのホストで10個のインスタンスを実行しているアプリNew Relicでは、エラー報告件数を毎分100 x 10 = 1000イベントに制限しています。

エラーデータの期間を選択する

エラー分析イベントビューとタイムピッカーを使用すると、先週のエラーイベントの詳細を調べることができます。エラーイベントビューは、過去8日間に収集されたデータの最大7日間の時間枠で使用できます。

時間枠が今すぐ終了する場合、カウントに若干の違いが生じます。これは、リストのカウントとテーブルのカウントが、ページの自動更新とわずかに異なる時間にリクエストされるためです。

エラーイベントビューのワークフローを使用する

ここでは、エラー分析イベントビューで表示される情報を最大限に活用する方法について説明する、基本的なワークフローを示します。

  1. まず、エラー率チャートを見渡し、想定外の急上昇、急降下、パターンがないか確認します。
  2. 上位5つのエラーチャートの一般的なパターン、および同一期間に発生したアラートを関連付けます。グループとフィルタを使用して、エラーイベントや属性を詳細に調べ、エラーメッセージやトランザクション名のパターンを探します。
  3. 以下に示す特定のスタックトレースの詳細を含む、エラートレーステーブルの情報を調査して共有します。関連ホスト、ユーザー、フレームワークコード、カスタムアトリビュート
  4. ある時間範囲内で選択されたグループ(ホスト、エラーメッセージ、カスタムアトリビュートなど)のエラー発生頻度ヒートマップのエラーパターンを特定します。
エラー率チャート:すぐにパターンを表示

まず、エラー率チャートを見渡し、想定外の急上昇、急降下、パターンがないか確認します。例えば、最近のデプロイメントの付近に急上昇がありますか? 選択期間を変更して、他の履歴パターンを探してください。

ページの残りの部分をフィルタリングした場合でも、このチャートには選択した期間の全体的なエラー率とカウントが常に表示されます。特定のタイプのエラーについて調査する場合は、上位5つのエラーチャートまたはエラートレーステーブルを使用します。

New Relic APM:エラー解析
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: ここに、イベントビューの例を示します。エラー率チャートには、常にすべてのエラーの割合と件数が表示されます。さらにドリルダウンするには、上位5つのエラーチャートのグループ化とフィルタリングのオプションを使用するか、エラートレースエラー頻度のデータを調べます。
上位5つのエラー:アラートやInsightのイベントに関連付ける

上位5つのエラーチャートを使用して、エラー率と同じ期間に発生したエラーのタイプと件数を特定します。例えば:

  • エラーの急上昇は特定のクラスに関連がありますか?
  • 上位のエラーは、最近本番環境に以降した新しいホストによるものですか?
  • 組織の特定の地域に設置されたホストによる接続の失敗について、エラーメッセージが繰り返し表示されますか?
  • アラート条件を示すようにチャートの背景色が変わりましたか? (薄いピンク色はアラート条件のWarning(警告)の閾値を示し、濃いピンク色はCritical(危険)の閾値を示します。)
New Relic APM:エラー解析のグループ化とフィルタ
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: 次に、HTTPレスポンスコードによるグループ化を実行してから、HTTPレスポンスコードのリストから404を選択して、404エラーに関連するトレンドをフィルタリングして検索する例を示します。エラー率チャートには、すべてのエラーが表示されますが、上位5つのエラーチャートには同じ期間に404エラーしか表示されません。
以下を行う場合... 操作...
「上位5」の選択を変更する デフォルトでは、上位5つのエラーチャートには、上位5つのエラーがクラスごとに表示されます。エラーメッセージ、ホスト、トランザクション名などのその他の属性をフィルタリングまたはグループ化するか、カスタムアトリビュートを選択するには、検索ウィンドウを使用するか、Back to groupings listを選択します。
Insightsにおけるエラーデータを調査または共有する 上位5つのエラーチャートでは、このイベントタイプに追加したカスタムアトリビュートと一緒に、New Relic Insightsエラーイベントのデフォルト属性が使用されます。上位5つのエラーデータを詳細に調べたり、他者と共有したりするには、チャートの下にカーソルを移動したときに表示されるクエリの表示リンクまたはView in Insightsリンクを選択します。
エラートレース:スタックトレース、フレームワークコードなどを詳しく理解する

2つのチャートを補足する、エラートレーステーブルは、トランザクション名とエラークラスによってエラーをグループ化し、関連するエラートレースにリンクします。

New Relic APM:エラー解析トレースの並べ替え
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: 任意のエラートレーステーブル列でソート順を変更すると、表面パターンを迅速に処理できます。以下に示すのは、エラーメッセージでソート順を変更する例です。これは、execution expiredメッセージで即時にパターンを識別します。

各行は、次のような質問に対する回答を見つけるのに役立ちます。

  • 選択した期間内にこのトランザクション/クラスがいくつ発生しましたか?
  • 最近発生したエラーメッセージは何ですか?
  • 最初と最後に発生したのはいつですか?

エラートレースデータを最低から最高の順に調べる方が便利な場合があります。例えば:

  • 発生頻度の最も少ないエラーはどれですか?
  • 特定のエラーが停止した(最後に発生した)のはいつですか?

ソート順やフィルタオプションを変更して、自分やチームにとって最も重要なタイプのエラーのみに集中することができます。さらに、エラートレーステーブルから、スタックトレースとフレームワークコードをドリルダウンして、関連するトランザクションを調査し、チケットを提出することができます

エラーの頻度:時間の経過とともにカウントを比較する

特定の期間内で、特定のカテゴリによるエラーカウントとトレースを調べるには、グループのリストに戻るから使用可能な属性のいずれかを選択します。例えば、ホスト間のエラー数を比較するには、グループとしてホストを選択し、個々のホストでフィルタリングしてエラートレースのみを表示します。

New Relic APM:エラー解析の頻度
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: ここでは、過去7日間のエラーメッセージによってグループ化したエラー頻度ヒートマップの例を示します。色が濃いほど、その期間に発生したエラーが増えます。

影付きヒートマップはすぐにパターンを識別するのに役立ちます。 色が濃いほど、その期間に発生したエラーが多くなります。より詳細に調査するには、ヒートマップ上の任意の領域を選択して、以下のような詳細を表示します。

  • 合計カウント
  • 作成したトレースの数
  • 期間
  • エラートレースの詳細

エラーメトリックスビューを使用する

長期間にわたるアプリケーションエラーの傾向を解析するには、エラーメトリックスビューを使用します。エラーイベントビューにアクセスできないアカウント、エージェント、および時間枠のメトリックスビューを利用できます

エラーメトリックスビューには、以下のコンポーネントが含まれます。

  • 指定された時間帯の上位5つのエラーの頻度チャート(トランザクション名別)
  • アラートとデプロイメントマーカーの全体的なエラー率とステータスを示すアプリケーション概要のメトリックス
  • 選択した期間に応じた、最近のエラートレースのリスト
New Relic APM:エラー分析のメトリックスビュー
rpm.newrelic.com/apm > (アプリを選択) > Events > Error analytics: ここでは、選択した7日間にわたるデータを表示するメトリックスビューの例を示します。デプロイメントマーカーは、エラーの原因となる急上昇や急降下の原因を特定するのに便利です。

その他のヘルプ

推奨する詳細情報: