PaaS/모니터링·로깅

PagerDuty에 대해서

armyost 2023. 8. 30. 13:11
728x90

총평

처음에는 PagerDuty가 도대체 어떤 제품인지 정확하게 이해하지 못했다.

HandsOn을 통해서 이 제품의 컨셉을 정확하게 인지하였다. 

 

모니터링이라는 단어에는 잘 생각해보면 다음의 기능적 요소가 포함되어 있다.

㉠ 모니터링 대상(자원)에 대한 Health Check 지표 확인을 어떻게?

㉡ 이슈가 있을때의 관련자에 알람 및 대응을 어떻게?

 

은 기술에 대한 이야기 이며, 은 Management에 대한 이야기 이다. 

PagerDuty는 ㉠ 에도 일부분 기여할 수는 있다(노이즈감소, AIOpns) . 그런데 PagerDuty의 핵심컨셉은 ㉡ 에 맞추어져 있다.

예를들어, 이슈 알람은 어떤 Escalation Rule을 통해서, 누구에게? 담당자 스케쥴은 어떻게 배정해야하는지? 

와 같은것이다. 이런 모니터링 결과에 대한 Management에 상당한 노하우가 있음을 알 수 있었다. 왜.. kakao naver에서 사용하는지 알것같

다. 지금까지 모니터링만 고민해봤지 누구에게 어떤 스케쥴로 어떻게 이슈해결을 진행하는지 고민해본적이 없었던것 같다. 

 

PagerDuty는 이슈 대응에 체계적인 운용이 가능하도록한다. 개개인과 매니저가 굳이 직접적인 커뮤니케이션 할 필요도 없없게, SRE에 대한 개인의 책임을 분명하게 하고  Rule에 기반하여 Escalation하거나 협력하도록 한다. 

 

 

대표적인 Service

1. Incident Response : 인시던스 대응 툴을 통합하여 긴급한 문제를 더 빠르게 해결

2. Process Automation : 로컬, 클라우드, 하이브리드 환경 전반에서 IT프로세스를 자동화하고 업무권한을 위임

3. AIOps : 대규모 구현이나 지속적인 유지보수 없이도 알림 노이즈를 최소화하고 선별시간을 가속화

4. Customer Service Ops : 고객 경험을 개선하기 위해 고객센터와 기술팀의 벽을 허물고 더 나은 고객 경험 제공

 

각 서비스 상세소개

1. Incident Response 

인시던스가 발생할 때마다 실시간으로 올바른 조치를 수행합니다. 간소화된 엔드투엔드 인시던트 대응을 통해 중요한 문제를 더 빠르게 해결하고 향후 발생을 미연에 방지합니다. 모든 관련자들에게 정보를 제공하고, 더 많은 인시던트를 관리하며, 대응 프로세스를 지속적으로 개선합니다.

 

2. Process Automation

불필요한 작업을 줄이고 중요한 업무에 집중할 수 있습니다. 조직의 핵심 인력이 IT운영 작업에 셀프 서비스로 엑세스 할 수 있도록 지원합니다. 실시간으로도 리퀘스트 및 인시던트 처리할 수 있습니다. 개발자와 분야 전문가에게 이관되거나 업무가 방해받는 상황을 최소화 합니다 

 

3. AIOps

광범위한 규모의 컨텍스트 및 노이즈 감소 기능을 제공합니다. 모든 소스의 이벤트를 통합 및 정규화 하고 지능형 알림 그룹화 향상된 선별 및 필터링 지원 체인지 인텔리전스 다이내믹 라우팅 등을 통해 노이즈에서 유효한 시그널을 찾아냅니다.

 

4. Customer Service Ops 

고객 서비스 팀이 고객 문제를 선세적으로 더 빠르게 해결할 수 있도록 지원합니다. 고객 서비스 팀과 개발팀 간의 벽을 허물고 SLA를 보장하며 고객대응을 가속화합니다.

 

주요기능

서비스 디렉토리 및 인텔리전스
Silo화된 톨로부터 각각 알림을 받는 대신 서비스 및 구성요소 오너십을 조정하여 업무의 정확성과 책임 소재를 명확히 해줍니다. 서비스 프로필을 사용하여 각 서비스에 대한 유용한 정보예 액세스하고, 대용 중에 다이내믹 서비스 그래프를 활용하여 서비스의 상태를 한 눈에 확인하거나 인시던트의 영항 반경을 평가하고 가능한 원인을 파악할 수 있습니다.

 

항상된 협업 툴 및 컨퍼런스 연동 기능
인시던트 정보 페이지에서 바로 오디오 및 비디오 컨퍼런스 브리지를 실행할 수 있습니다. Slack 및 Microsofl Teams와  같이 이미 익숙하고 졸겨 사용하는 협업 툴과 사전 구축된 연동 기능으로 작업을 완료활 수 있습니다.


원활한 ITSM 연동
모든 ITSM 또는 티켓팅 솔루션(JiRA, BMC Helix)과 연동하여 몇 초 만에 자동으로 책임 소재를 파악하고 살시간으로 대용할 수 있습니다. 플랫폼 간의  원활한 양방향 연동 기능으로 ITSM 기록 시스템에서 모든 활동의 완천한 로그로 유지할 수 있습니다

 

대응 조직화 및 자동화
모든 심각도 수준에 맞는 최적의 대용 방안을 설계합니다. PagerDuty Automation Actions " 를 통해 지동화된 솔루션을 구축하고, 대응자를 동원하며, 회의 브리지를 활성화하고, 관계자들을 참여시키며, 버튼 클릭 한 번으로 현황 업데이트를 전송할 수 있습니다

 

포스트모템
인시던트 발생 후 학습을 간소화하여 항후 인시던트의 해결 및 미연 방지를 강화합니다. 포인트 앤 클릭으로 몇 분 만에 타임라인을 구축하여 근본 원인을 파악하고 가장 중요한 후속 조치를 결정하는데 더 많은 시간을 투차할 수 있습니다

 

 

 

pagerDuty_HandsOn.txt
0.00MB