2022년 10월 19일 수요일

새로운 팀 적응 2탄 - 악몽의 온콜 시작

아마존에서 일할 때 힘든 것 중 하나가 온콜(on-call) 일 것이다.  온콜은 한 주 동안 해당 팀에 들어오는 여러가지 이슈들을 처리하는 당직 같은 개념이다. 오프콜인 경우, 스프린트에서 적당한 태스크를 어사인한 후 그 일을 해나간다. 이게 대부분 팀 멤버들이 하는 일이고, 온콜에 배정되면 다른 팀에서 들어오는 여러가지 ad-hoc 요청들이나 온콜 티켓들을 한주동안 처리하는 것이다.  온콜 하는 동안은 스프린트 일은 면제됨.

여기에서 티켓(TT: Trouble Tickets)이라고 하는게 있는데 팀 간에 뭔가 요청하고 싶을 때  해당 팀으로 TT를 만든다. 보통 cut a ticket to the team 이라고 부른다.  마치 은행에서 티켓을 끊고 자기 순번을 기다려 서비스를 받듯이, 어떤 팀에 볼일이 있을 때 (예: 에러 로그 요청 , investigation 부탁, 데이터 요청, 마이그레이션 요청 등..) 티켓을 끊고 서비스를 기다린다.  서비스를 누가 하느냐?  해당팀의 온콜이 처리한다.  티켓은 severity 가 있어서, severity에 따라 팀마다 SLA (Service Level Agreement)가 있다.  뭐 어떤 팀은 severity 3의 경우, 비즈니스 데이로 5일 안에 답을 하겠다라든지.. 

사람이 이렇게 요청하는 티켓을 매뉴얼 티켓이라 부른다. 반면 auto-cut 티켓도 있다.  우리팀의 서비스에 metrics를 이용해, 어떤 이상한 현상이 발생하면 auto-cut 티켓이 자동 발행 되도록 alarm을 걸어 놓을 수가 있다. (threshold와 duration 을 이용)  온콜은 이런 오토컷 티켓도 처리해야 한다.  보통은 오토컷은 무쟈게 심각한것이 아니면 안들여다보게 된다.  시간이 좀 지나면 OK로 바뀌는 경우가 허다하기 때문에...  


원래의 얘기로 돌아가서, 새로이 팀을 옮기니 온콜을 하지 않아도 되어서 넘 좋았다.  그러다 결국 1달쯤의 적응기를 지난 후, 온콜 로테이션에 합류하게 되었고 2주전에 첫번째 온콜을 시작했다.  사실, 개인적으로 온콜이 그다지 싫지는 않다.  팀 내의 여러가지 이슈를 볼 수 있어서, 팀 내의 다양한 이슈와 시스템을 이해하는데 온콜 듀티는 매우 도움이 된다.  하지만, 온콜이 힘든 이유는 sev2 ticket 때문인데... ticket의 severity는 1부터 5까지 이나, 아직 나는 severity 1 짜리 티켓을 받아본적은 없다. 얼마전에 다른팀에 sev1 짜리 티켓이 있는걸 보기는 했다.

sev2부터 시작인데, sev2가 발생되면, page가 울린다. 예전에는 정말 의사들처럼 페이저를 지니고 다녔다고 들었다.  이제는 스맛폰이 있으니, 여기다가 앱을 깔고, sev2가 온콜큐에 들어오면 시끄럽게 울린다.  이 소리는 정말로 시끄럽고 귀를 쑤시는 듯한 소리가 나서, 자다가도 벌떡 일어나게 된다.  왜냐면 어느시간에 이게 울리더라도 일어나서 렙탑을 열고 문제를 시간 안에 해결해야 하기 때문이다. (sev2.5 라는 것도 있는데, sev2 처럼 페이저가 울리기는 하지만, 데이타임 sev2다. 근무시간 시작하면 울리는 sev2 티켓이다.)

여태까지 온콜 중 가장 최악의 온콜 기간이었는데, 지금까지 내가 받아본 sev2 중 가장 많은 수의 sev2를 한주동안 받았다. 자그마치 9번 울렸다.  먼저 팀에서는 기껏해서 2-3개 정도면 많다고 그랬는데, 이놈의 팀에서는 첫번째 온콜에 9번. 최악이다.

더욱 최악인건, 유럽에서 일어난 문제여서, 여기 시애틀과는 시간이 정반대다. 목요일 온콜을 시작했는데 목요일 퇴근 후 7시경에 문제가 발생. 똑같은 이슈로 그 다음날 새벽 1시 반.  그 다음날은 또 다른  이슈로 새벽 2시, 5시.  <-- 이건 심지어 토요일 새벽.

계속 자다깨서 일처리를 하다보니 한주동안 정말 비몽사몽이었다. 


이번의 악몽같은 온콜은, 그러나, 비일비재한 일은 아닌 거 같다. 매니저 또한 그렇게 강조했다.  그저 내가 운이 나쁠 뿐이었다.  여러가지 조금 조금한 악재들이 겹쳐져서 대형 사고가 발생한 것.  아직도 사실은 해결되지 않았고, 여러 팀의 문제가 엮여 있었던 것이라 .. 아직도 원인 규명 중.

뭐 이런 악재가 아니라면, 온콜은 분명 할만 하고, 시스템과 팀이 어떤식으로 일하고 돌아가는지, 다른 팀과의 역학관계가 어찌되는지를 파악하는데 참 좋은 경험이 된다.  (이렇게 생각하자)

댓글 없음:

댓글 쓰기

잔디 3주차

 잔디 심기. 3주차에 접어들었음. 사진. 아래가 1일차 사진. 다음이 3주차.