본문 바로가기
IT 이야기

외국계 IT HELPDESK 헬프데스크(3) - SLA 서비스수준

by 브라보Bravo 2021. 1. 24.
728x90
반응형

회사에서 외부 업체와 서비스계약을 맺을 경우 SLA라는 단어를 쉽게 접할 수 있다.

SLA에 대한 정의부터 외국계 IT 헬프데스크의 실제 SLA사례도 다뤄보겠다.

SLA란?

서비스수준계약, 일명 SLA (Service Level Agreement)란 회사(고객)가 서비스공급업체에게 기대하는, 기술된 서비스문서를 뜻한다. 한마디로 A라는 서비스회사에게 인력 소싱, 솔루션 소싱등 서비스를 맡길 경우 '너 이거 해줘야 된다' 서비스 영역을 의미한다. 금액 대비 최대한 높은 서비스 수준을 원하는 갑회사와 동의 가능한 수준의 서비스만 제공하려는 을회사의 협상이 시작되는 영역이다.

 

이 문서에는 서비스 수준 측정을 위한 지표 및 평가방식이 기술되어 있다.  SLA 안에는 SLO, SLI가 주루룩 기술되어있는데 정의는 다음과 같다.

 

SLO란? 

서비스 수준 목표, 일명 SLO(Service Level Objective)는 서비스 공급업체와 회사(고객)의 계약에 대한 서비스 핵심요소 및 목표를 뜻한다. 헬프 데스크 에서는 보통 전화 응답시간이 SLO 중 하나로, '1분 이내 전화받기' 가 예가 된다.

 

SLI란?

서비스 수준 척도, 일명 SLI (Service Level Indicator) 는 서비스 공급업체와 회사(고객)의 계약에 대한 서비스 수준을 판단하는 기준을 정량적으로 측정한 값이다.

SLO로 '1분 이내 전화받기'가 있다면  전화콜센터 시스템이 측정한 전화응답시간이 SLI가 된다. 

 

회사 안에서는 영어든, 한국어든 길게 표현되는 문구를 약어로 많이 이야기 한다. 내부적으로 SLA, SLI, SLO 이런 단어를 쓰긴 하지만 핵심은 업체에게 "너 이거 해줘야 한다" 적은 걸 업체도 "응응, 알겠어" 동의한 문서라 보면 된다. 

 

서비스 제공 업체들은 그들만의 SLA 포맷이 있고, 서비스를 공급받길 원하는 회사는 기존 업체가 제공한 SLA + 더 나아지길 원하는 영역의 추가적인 SLA 요건이 있기 때문에 이를 맞춰가는 과정은 상당히 중요하다.

 

 

SLA 존재 이유 

SLA는 '기술된 서비스 수준 동의서'이므로 이 를 준수하지 못할 경우 서비스 공급업체에게 패널티를 적용하고 금전적인 피해보상을 요청하는 법적인 내용까지 포함이 되어있다. 또한 기술된 수준보다 더 높은 서비스를 제공할 수가 없기 때문에 SLA에 '현실 반영'을 최대한 해 두는 편이 서로에게 마음 편하다. 애매모호하게 작성하면, 문제가 발생했을 때 고달퍼진다.

 

SLI로 '전화응답시간'을 설정하고, SLO로 30초이내 전화받기를 설정한다면, 회사(고객) 입장에서는 29초동안 전화를 안 받은 헬프데스크에게 패널티를 적용할 수가 없다.

 

보통 오프라인 매장을 가진 회사는, 오프라인 매장 전화는 30초, 본사 사무실 전화는 1분 이내 받기 식의 차별한된 서비스 수준을 기술하기도 한다. 본사 사무실 전화는 매장 전화보다 우선순위가 낮다고 생각하고, 매장 위주의 장애 지원을 먼저 응대하기 위함이다. 또한 매장의 경우 전화로 바로 해결을 해야되는 매출과 관련된 위중한 건들이 많아 있으나, 본사 장애의 경우 이메일로도 충분히 접수를 받을 수 있고, 실제 본사 직원들에게 전화로 접수하지 말고 직접 시스템을 통해 접수하라는 식의 교육을 많이 전파하기 때문에, 본사 직원들이 헬프데스크에 전화를 잘 하지 않도록 가이드한다.

 

따라서 서비스 제공자가 회사에게 제공하는 서비스의 품질과 평가기준을 상세히 작성하고, 지키지 못했을 때의 책임에 대해 모두 기술 한 것이 SLA라, 회사 대 회사 계약서의 중요 항목에 반드시 포함된다. 

 

 

 

실제 예시 IT HELPDESK SLA

실제 외국계 회사의 IT 헬프데스크에서 사용하는 보편적인 SLA 의 형태는 다음과 같다. 장애가 발생 시 영향도와 긴급도에 따라 우선순위를 설정하고, 각 건을 언제까지 해결해야 되는지 응답 소요시간이 정의 된다.

 

Impact Urgency Priority
High High Critical  (P1)
High Medium High  (P2)
High Low Moderate (P3)
Medium High High (P2)
Medium Medium Moderate (P3)
Medium Low Low (P4)
Low High Moderate (P3)
Low Medium Low (P4)
Low Low Very Low (P5)
Priority Response Resolution due
P1 30분 이내  4시간 이내 해결
P2 30분 이내  8시간 이내 해결
P3 3시간 이내  1일 이내 해결
P4 3시간 이내  2일 이내 해결
P5 12시간 이내  5일 이내 해결
Urgency  긴급도 수준 (예) 매장 오퍼레이션 영역 
High 정전 / 제품 가격이상 /...
Medium 재고 이동이 안될 경우 / ...
Low 단순 운영 문의/ ..
Impact 영향도 수준 (예) 매장 오퍼레이션 영역 
High 매장 운영 전체에 영향을 받고, 대안이 없는 경우
Medium 매장 운영 전체 또는 일부에 영향을 받지만 대안이 있는 경우
Low 매장 운영에 영향이 거의 없고 대안이 있는 경우

 

위 내용을 기반으로, 주 SLO는 

전화가 오면 60초 안에 받기  (본사) / 30초안에 받기 (매장) 의 비율을  75% 이상 유지.

헬프 데스크가 직접 100% 해결하는 케이스를 전체 건수 75%이상 유지

아래 우선순위에 따라 응답시간 내 처리를 80% 이상 유지하기

 

같이 숫자로 측정 할 수 있는 SLI로 목표 설정을 한다.  위는 아주 극 일부이다.

 

위 내용을 측정하려면 다음과 같은 수치들이 시스템적으로 기록이 되어야 한다. 

 

Call Abandonment Rate     콜 포기율

Average Handling Time   평균 처리시간

Incident Performance Status 장애 처리율

Aging Incident Case 오래된 장애 케이스

Incident Case reassignments  장애처리 할당 수준

....

 

 

전화가 오면 60초 안에 받기  (본사) / 30초안에 받기 (매장) 의 비율을 75% 이상 유지

일반 사용자들은 헬프데스크로 전화 시 '왜 이렇게 늦게 받는거야?' 답답한 마음이 들 수 있다. 그러나, 헬프 데스크는 글로벌 본사와 계약을 직접하고 전체 글로벌 지사의 표준 SLA를 따라가기 때문에, 글로벌 기준으로는 늦게 받는게 아니다.  

한국을 담당하는 헬프데스크 직원은 한정되어있고 그들이 동시에 전화를 받고 있다면, 전화를 받지 못하는 것은 당연하다. 이 경우 결국 다음 전화는 '포기'가 되거나, 한국어를 하지 못하는 외국인 헬프데스크 직원이 영어로 응대하는 경우가 발생한다.  

 

SLA를 올리기 위한 노력

 

헬프데스크가 처음 세팅이 되면, 약 1달 동안은 집중 관리 기간, 일명 Hypercare를 받고 SLA가 계약된 수준과 다소 맞지 않더라도 양사간의 이해를 해주는 편이다. 

 

그러나, 일정 시간이 지나면 실제 서비스 수준이 계약된 SLA와 크게 벗어나기 시작하면 서비스 제공 업체가 왜 SLA를 맞추지 못했는지 케이스를 분석하고 그 사유를 레포팅 한다. 

 

예를 들어, 

헬프 데스크가 직접 100% 해결하는 케이스를 전체 건수 75%이상 유지

를 살펴보자.

 

월 100건 장애 접수가 된다면, 75건은 헬프데스크가 전화, 원격 등으로 직접 장애를 해결하고 종료해야 한다. 그 과정에서 일부 전문 부서의 지식 도움이 필요 할 수 있지만 그들의 가이드 대로 이후 헬프데스크가 문제 해결이 가능하다면, 그들의 처리 결과로 봐주는 편이다. 

 

75%이하 달성 시 헬프데스크가 직접 처리하지 못한 장애 건을 전부 리뷰하여 어떤 지식이 부족하여 다른 부서로 장애 건이 전달 되었는지 분석을 한다. 부족한 정보는 업데이트 후, 헬프데스크 에이젼트에게 교육 후 동일 유형의 장애 건은 헬프데스크가 처리할 수 있도록 한다. 

 

보통 SLA보다 초과 달성하면 헬프데스크 인력의 서비스 수준이 상당히 높음을 알 수 있다. 

 

SLA를 높이는 방법은 다음과 같다.

  • Case analysis  : 전체적으로 어떤 문제가 있는지 파악 후, 이슈를 집중 분석함. 
  • Regular report  : 정기적인 주간, 월간 레포트가 제공되며 SLA 관련 정보와 장애 현황에 대한 종합 분석이 포함되어있다.
  • Knowledge Transfer : 서비스 도입 후, 추가적인 지식 및 가이드가 필요하다 판단되면, 내용 조사 후 Knowledge Base를 업데이트 한다. 
    보통 내부 change management process를 통해 내용 업데이트가 된다. 

 

Change management process

 

정기 장애 보고 레포트 

서비스 제공 업체는, 주간 단위로 세부 장애 리스트, 월간 단위로 종합 레포트를 제공하는 편이다. 월간 레포트에는 SLA를 잘 준수하고 있음을 안심시키려 한다. 보통 글로벌 전체 마켓 종합 레포트로 나오는 편이고, 그중 자기 지사 레포트를 찾아서 보면 된다. 

 

경험 상 한국 팀의 SLA 점수는 다른 마켓에 비해 항상 높아, 장애 처리 우등생인 경우가 많았다. ㅎㅎ 한국인들의 급한 성미가 그들의 장애 응대방식에도 그대로 녹아져, 다른 지사보다 처리 시간도 빠르고 자체 처리하는 경우가 많아, 글로벌 시선으론 '한국은 왜이렇게 매번 높아? 너희는 무슨 magic spell이 있는거야?'느낌. 그 이유 중 하나는 다른 마켓보다 상대적으로 적은 콜 수와, 잘 정리된 장애 유형으로 에인젼트 교육이 사전에 잘 이루어졌고, 이후 빠진 정보도 바로바로 업데이트해주는 한국인의 성미때문에 초반에 빠른 정리를 해두었기 때문으로 보인다. 

 

 

 

 

2021년 새로 시작된 프로젝트로, 최근 글 쓸 시간이 거의 없네요. 정신의 흐름대로 쓴 점 이해 부탁드립니다. 나중에 더 정갈하게 정리해보겠습니다.

 

 

 

 

 

 

728x90
반응형

댓글