경고 조건은 인시던트가 생성되는 시기를 정의하는 핵심 요소입니다. 이는 의미 있는 경고를 구축하기 위한 필수적인 시작점 역할을 합니다. 경고 조건에는 알림을 받기 전에 충족된 매개변수 또는 임계값이 포함됩니다. 과도한 경고를 완화하거나 새롭거나 비정상적인 동작이 나타날 때 팀에 알릴 수 있습니다.
Alert conditions list [경고 조건 목록] 페이지는 모든 경고 조건에 대한 범용 허브입니다.
새 경고 조건 만들기
경고 조건은 정의된 임계값에 대해 특정 이벤트 집합을 측정하고 지정된 기간 동안 임계 값이 충족되면 인시던트를 여는 지속적으로 실행되는 쿼리입니다.
이 예에서는 Alert condition details [경고 조건 세부 정보] 페이지를 사용하여 새 경고 조건을 수동으로 생성하는 방법을 보여줍니다. 그러나 경고 조건을 생성하는 방법에는 여러 가지가 있습니다. 다음에서 경고 조건을 만들 수 있습니다.
NRQL 쿼리를 사용하여 경고 조건이 경고의 기초로 사용할 신호를 정의할 수 있습니다. 이 예에서는 다음 쿼리를 사용합니다.
SELECT average(duration)
FROM PageView
WHERE appName = 'WebPortal'
경고 조건에 대해 이 쿼리를 사용하면 New Relic이 WebPortal 애플리케이션의 평균 pageviews 을 알고 싶어한다는 것을 알 수 있습니다. pageviews 를 모니터링하면 애플리케이션의 지연 시간 문제를 찾는 데 도움이 됩니다.
New Relic의 쿼리 언어인 NRQL 사용 방법에 대한 자세한 내용은 NRQL 문서를 참조하세요.
고급 신호 설정 미세 조정
신호를 정의한 후 Run 을 클릭합니다. 차트가 나타나고 설정한 매개변수가 표시됩니다.
이 예의 경우 차트에는 WebPortal 애플리케이션에 대한 평균 pageviews 이 표시됩니다. Next [다음을] 클릭하고 경고 조건 구성을 시작합니다.
이 예에서는 WebPortal 애플리케이션에서 pageviews 에 대한 비정상적인 활동을 모니터링하기 위해 만든 조건에 대한 고급 신호 설정을 맞춤설정합니다.
창 기간은 New Relic이 경고 조건에서 분석을 위해 데이터를 그룹화하는 방법을 정의합니다. 올바른 설정을 선택하는 것은 데이터의 빈도와 원하는 세부 정보 수준에 따라 다릅니다.
빈도가 높은 데이터(예: 분당 페이지 조회수): 변동 및 추세에 대한 실시간 통찰력을 얻기 위해 데이터 빈도(이 경우 1분)와 일치하도록 기간을 설정합니다.
저주파 데이터(예: 시간별 신호): 패턴과 이상 징후를 드러내는 데 충분한 데이터를 캡처하는 기간을 선택합니다(예: 시간별 신호의 경우 60분).
필요와 경험에 따라 기간을 맞춤설정할 수 있다는 점을 기억하세요. 경고 조건 생성에 익숙해지면 시작하고 실험할 때 기본값을 사용하는 것이 좋습니다.
기존 집계 방법은 인구가 적거나 간격 간에 상당한 변동을 보이는 데이터를 처리할 때 부족할 수 있습니다. 슬라이딩 윈도우 집계를 사용하여 이러한 데이터를 분석하고 적시에 경고를 효과적으로 트리거하는 방법은 다음과 같습니다.
잡음 제거: 큰 집계 창을 만드는 것부터 시작합니다. 이 기간(예: 5분)은 버퍼 역할을 하여 데이터에 내재된 "노이즈" 또는 변동성을 완화합니다. 이는 격리된 스파이크 또는 딥으로 인해 트리거되는 허위 경고를 방지하는 데 도움이 됩니다.
슬라이딩 창으로 지연 방지: 큰 창이 데이터 분석에 도움이 되지만 임계값을 확인하기 전에 전체 간격이 경과할 때까지 기다리면 경고 알림이 크게 지연될 수 있습니다. 더 작은 슬라이딩 기간(예: 1분)을 권장합니다. 이 슬라이딩 윈도우를 더 큰 집계 창 내에서 데이터를 스캔하는 움직이는 프레임으로 상상해 보십시오. 프레임이 더 작은 간격으로 진행될 때마다 집계 값(예: 평균)이 계산됩니다.
임계값 기간 설정: 이제 더 작은 슬라이딩 창의 컨텍스트 내에서 경고 임계값을 정의할 수 있습니다. 이를 통해 현재 프레임의 집계 값이 더 큰 창의 평활화 효과를 희생하지 않고 원하는 범위에서 크게 벗어날 때 신속하게 경고를 트리거할 수 있습니다.
일반적으로 event flow [이벤트 흐름] 스트리밍 방법을 사용하는 것이 좋습니다. 이는 시스템에 자주 그리고 꾸준히 들어오는 데이터에 가장 적합합니다. event timer [이벤트 타이머를] 선택하는 것이 더 나은 방법이 될 수 있는 특정한 경우가 있지만 첫 번째 알림의 경우 기본 event flow [이벤트 흐름을] 권장합니다. 이 간단한 비디오를 시청하는 것이 좋습니다(약 1시간). 5분 31초) 어떤 스트리밍 방법을 선택해야 할지 더 잘 이해할 수 있습니다.
경고 조건의 지연 기능은 일관되지 않은 데이터 수집으로 인해 발생하는 잠재적인 문제로부터 보호합니다. 이는 버퍼 역할을 하여 경고를 트리거하기 전에 데이터가 도착하고 처리되는 데 추가 시간을 허용합니다. 이는 오탐을 방지하고 보다 정확한 사고 생성을 보장하는 데 도움이 됩니다.
작동 방식:
적절한 지연 설정은 수신 데이터의 일관성을 평가하여 결정됩니다.
일관된 데이터: 데이터 포인트가 1분 이내에 타임스탬프와 함께 일관되게 도착하는 경우 더 낮은 지연 설정으로 충분합니다.
일관성 없는 데이터: 과거 또는 미래의 몇 분에 걸친 타임스탬프와 함께 데이터 포인트가 도착하는 경우 불일치를 수용하기 위해 더 높은 지연 설정이 필요합니다.
버퍼 생성:
선택한 지연 설정은 경고 조건이 정의된 임계값에 대해 데이터를 평가하기 전에 대기 기간을 도입합니다.
이 버퍼는 데이터 불일치가 해결될 시간을 허용하여 잘못된 경고가 발생할 가능성을 줄입니다.
WebPortal 애플리케이션의 지연 시간 문제를 팀에 알리기 위한 경고 조건을 생성 중입니다. 이 예에서 애플리케이션은 New Relic 데이터를 일관되게 보냅니다. 애플리케이션에서 New Relic으로 신호의 지속적인 스트림이 전송되고 신호에 예상되는 공백이 없으므로 공백 채우기 전략을 선택할 필요가 없습니다.
격차 채우기 전략은 데이터 수집이 간헐적이거나 불완전할 수 있는 시나리오를 다룹니다. 이는 누락된 데이터 포인트를 예상 값으로 대체하는 방법을 제공하여 데이터 스트림에 공백이 있는 경우에도 경고 조건이 여전히 효과적으로 작동할 수 있도록 보장합니다.
간격 채우기를 해제해야 하는 경우:
Consistent data flow [일관된 데이터 흐름]: WebPortal 애플리케이션의 경우처럼 애플리케이션이 예상되는 공백 없이 지속적으로 New Relic에 데이터를 보내는 경우 일반적으로 공백 채우기가 필요하지 않습니다. 이러한 경우 공백 메우기 전략을 없음으로 설정하는 것이 가장 적절한 접근 방식인 경우가 많습니다.
주요 고려사항:
Popular use case [인기 있는 사용 사례]: 간격 채우기의 일반적인 용도는 수신된 데이터가 없는 창에 0 값을 삽입하는 것입니다.
Anomaly thresholds [이상 임계값]: 간격 채우기 값은 이상 임계값을 사용할 때 마지막으로 관찰된 값과의 표준 편차 수로 해석됩니다. 예를 들어, 간격을 0 값으로 채우면 변경 사항이 없다고 가정하여 마지막으로 표시된 값이 복제됩니다.
경고 조건이 컨테이너인 경우 임계값은 각 경고 조건이 따라야 하는 규칙입니다. 데이터가 시스템으로 스트리밍되면 경고 조건은 이러한 규칙에 해당하는 사건을 검색합니다. 경고 조건에서 사용자가 설정한 모든 조건을 충족하는 시스템의 데이터를 확인하면 인시던트가 생성됩니다. 사고는 시스템에 문제가 있다는 신호이므로 살펴봐야 합니다.
이상 임계값은 특정 숫자 값보다 예상 패턴과의 편차가 더 중요한 경우에 이상적입니다. 미리 정의된 제한을 설정할 필요 없이 비정상적인 활동을 모니터링할 수 있습니다. New Relic의 이상 탐지 기능은 시간이 지남에 따라 데이터를 동적으로 분석하여 진화하는 시스템 동작을 반영하도록 임계값을 조정합니다.
이상 탐지 설정:
상위 또는 하위 선택:
예상보다 높거나 낮은 편차에 대해 경고를 받으려면 상한 및 하한을 선택합니다.
비정상적으로 높은 값에만 초점을 맞추려면 상한만을 선택합니다.
우선순위 할당:
잠재적인 문제에 대한 신속한 주의를 보장하려면 초기 경고의 우선순위 수준을 중요로 설정하세요.
우선순위 수준에 대한 자세한 내용은 경고 조건 문서를 참조하세요.
위반 기준을 정의합니다.
기본 설정으로 시작합니다. 쿼리가 5분 이상 예측 값에서 표준 편차 3만큼 벗어나는 값을 반환하면 인시던트를 엽니다.
특정 애플리케이션 및 경고 요구 사항에 맞게 필요에 따라 이러한 설정을 사용자 정의합니다.
이상 임계값과 달리 정적 임계값은 데이터 세트를 전체적으로 살펴보지 않고 시스템 기록을 기반으로 비정상적인 동작을 결정합니다. 대신, 시스템이 설정한 기준과 다르게 작동할 때마다 정적 임계값이 인시던트를 엽니다.
이상치와 정적 임계값 모두에 대한 우선순위 수준을 설정해야 합니다. 자세한 내용은 위 섹션을 참조하세요.
손실 신호 임계값은 누락된 신호 손실을 고려하기 전에 대기할 시간을 결정합니다. 해당 시간 내에 신호가 반환되지 않으면 새 인시던트를 열거나 관련 인시던트를 종료하도록 선택할 수 있습니다. 시스템의 예상 동작과 데이터 수집 빈도에 따라 임계값을 설정합니다. 예를 들어, pageviews 에 대한 신호 손실이 지연 시간 문제를 나타낼 수 있는 경우 편안한 임계값을 설정하고 확인란을 선택하여 새로운 신호 손실 문제를 열 수 있습니다.
경고 조건 세부 정보 추가
프로세스의 이 시점에서는 이제 완전히 정의된 조건이 있고 원할 때 인시던트가 열릴 수 있도록 모든 규칙을 설정했습니다. 위의 설정에 따라 경고 조건이 시스템에서 설정한 임계값을 위반하는 이러한 동작을 인식하면 인시던트가 생성됩니다. 이제 이 조건에 이름을 지정하고 정책에 연결하기만 하면 됩니다.
정책은 사건에 대한 분류 시스템입니다. 정책을 생성하면 수신되는 모든 인시던트를 정리하는 도구가 생성됩니다. 들어오는 모든 정보를 어디로 보낼지, 얼마나 자주 보낼지, 어디로 보낼지 New Relic에 알려주는 워크플로 에 정책을 연결할 수 있습니다.
경고 조건에 설명이 포함된 이름을 지정하는 것이 중요합니다. 이 조건의 이름 pageviews [을 페이지 조회수로 지정한 다음 완전히 다른 애플리케이션에 대한 또 다른 조건을 만들고 해당 조건에 pageviews [페이지 조회수] 라는 라벨을 붙인다고 가정해 보겠습니다. 이런 일이 발생하면 어떤 조건이 어떤 응용 프로그램에 해당하는지 구분할 수 없게 됩니다. 따라서 조건에 구체적이고 고유한 이름을 지정해야 합니다. 이 경우 이 조건의 이름 pageviews: WebPortal App [을 페이지 조회수: WebPortal App 으로] 지정합니다.