2020년

John
11 min readJan 31, 2021

20년 하반기까지 너무너무 바빴다.

회사 일도 그렇고, 외주 작업도 그렇고 몇 달동안은 주말없이 지냈던 것 같다. 그렇기 때문에 새로운 배움에서 오는 지식 습득에 대한 뿌듯함이나 보람이 많이 부족했던 것 같다.

1월 말쯤 되니 내 시간을 효율적으로 보내는 것이 정말 중요함을 깨닫게 되었다. (내 몸도 살피고, 가족들과 시간도 보내고)

평가 시즌이 다가오면서 내가 어떤 일을 했는지 정리해보고 앞으로의 방향성에 대해서 글을 남겨보려고 한다. 크게 회사에서의 내 삶과, 퇴근 후의 내 삶, 그리고 주말/휴일의 내 삶으로 나누어 생각을 해보려고 한다.

회사에서의 삶

작년 6월 이직을 했다.

입사를 하게 되면서 부서에서 중요시하고 있는 task 위주의 업무를 진행하게 되었고, 감사하게도 큰 고비없이 잘 진행해나가고 있는 것 같다.

  1. 컨텐츠 벨류에이션 시스템

소셜 컨텐츠의 벨류에이션을 측정하는 R&D 성 과제를 1차적으로 개발하여 팀에서 운영하는 내부 시스템에서 해당 모델의 API를 호출하면 특정 값이 return 되게끔 완료가 되었다

가장 우려했던 부분은 컨텐츠 벨류에이션 하는 로직이 누구나 쉽게 이해할 수 있는 부분인지 그리고 얼마나 참신한지에 대한 비판이 있을 것이라고 생각이 들었는데 아직까지 해당 로직이나 참신함에 대한 문의는 없었던 것 같다. 하지만 미리 그 질문에 대한 대비를 해야하고 누구든 쉽게 납득을 시킬 준비를 해놓아야할 것 같다.

현재 해당 시스템은 사내 특허팀을 통하여 특허 츨원을 준비하고 있고, 더 나아가 컴퓨터 비전(썸네일 활용)이나 음성인식 기술을 접목하면 더욱 뾰족한 시스템이 될 수 있지 않을까 생각이 든다.

2. 긍/부정 모델의 활용

딥러닝 모델을 실무에서 활용하거나 비즈니스에 적용할 수 있게 하기 위해서는 어느 부분에서 통찰력을 줄 수 있을지 고민이 필요하다.
가까운 플랜으로는 위에 기재한 컨텐츠 벨류에이션 시스템에서 컨텐츠 긍부점 점수를 측정하여 가중치를 부여하는 방식으로 활용을 했다. 현재 배포된 LSTM 기반의 딥러닝 모델은 accuracy 93%정도를 기록하고 있고, 아주 탁월한 성능은 아니지만 범용 감성 모델로서의 가능성을 보았기에 실무에 적용되고 있다.

다만 문제가 되는 부분은 형태소 기반으로 토크나이징 된 데이터를 학습시키다보니 문맥에 큰 영향을 끼치는 조사 등의 글자는 학습에 포함이 되지 않아 오분류 가능성이 생기는 이슈가 있었다.

이러한 이유로 현재는 SKT Brain팀에서 개발한 KoBERT를 파인튜닝하여 문맥을 고려한 모델을 통하여 성능을 높일 계획이다. 현재 8시간 정도 GPU환경에서 학습한 해당 파인튜닝 모델은 정확도 95% 정도로 기존 LSTM모델보다는 부정 키워드를 잘 탐지하는 장점을 가지고 있었다.

각 업무의 성향에 맞게 모델을 달리하여 활용하면 좋지 않을까 생각이 든다.

  • 회사/컨텐츠에 대한 긍정 평가 : LSTM 모델을 활용
    -> 수백개의 메타 데이터 사전을 구축하여 해당 데이터가 들어갔을 때 가중치가 부여됨.
  • 회사/컨텐츠/특정 BJ에 대한 이슈/부정 탐지 : KoBERT 활용

3. 컨텐츠 유사도 모델

A라는 컨텐츠와 유사한 컨텐츠를 분류하는 최종적인 목표 관점으로 보았을 때 multi-label classification으로 보아도 무방할 듯하다.

우선 어려운 업무다. 가지고 있는 document size가 우선 작고, 하나의 document안에 들어있는 텍스트의 길이(컨텐츠의 제목 데이터, 본문 데이터는 노이즈가 무척 심함)가 짧기에 더욱 측정하고 판별하기가 힘든 문제가 있다.
현재 테스트 결과 해당 유사도 모델은 약 70%의 성능을 보이고 있어 현업에 적용하기 어려운 문제를 가지고 있다. (BERT multilingual 모델 활용)

네이버 추천 세션을 살펴본 결과 우리와 업무 task가 유사했는데, 콘텐츠 추천에 있어서 주제 분류기를 활용하는데, 블로그의 본문 데이터를 기반으로 text CNN을 활용한다고 한다. 사실 왜 CNN을 활용하시는지에 대한 의문이 있었는데 아무래도 모델을 서빙할 때 가벼운 모델을 고려하지 않았을까? 라는 생각이 들었다.

신기한 건 multi-label classification으로 진행을 한 게 아니라 각 주제별 binary classification을 진행하여 해당 텍스트가 각 주제에 해당하는지에 대한 분류기를 만들었다고 한다. (Multi label -> Multi Binary)

아직 모델을 활용할 단계는 아니기에, 더욱 고도화하는 작업에 몰두해야할 것 같다. 최종적으로 우리가 가지고 있는 텍스트 데이터를 통하여 컨텐츠의 유사도를 측정할 수 있게끔, 그리고 그 유사도가 다른 task에 활용될 수 있게끔 일련의 파이프라인을 구축해야 한다.

4. 추천 시스템 고도화

현재는 Rule-based 위주로 추천되고 있는 방식을 비즈니스 로직이 결합된 CB와 MF 기반 CF를 결합한 방법으로 진행을 하려고 한다. 사실 처음에는 크게 어려운 부분이라고 생각이 들지 않았는데, 비즈니스 도메인을 이해해야하고 모델링에 대한 기본적인 기획(유저 세그먼트 등)이 필요하고 어떤 DB에서 관리되어 API형식으로 호출될 것인지에 대한 전체적인 프로세스에 대한 이해를 하는 것이 중요했다.

작년 말까지 진행이 되고자하는 업무였지만 올해 2분기까지는 꼭 완성해야될 업무다. 최종적인 output이 뚜렷한 업무이기에 꼭 집중해서 진행해보고 싶다.

5. 사내 분석 대시보드 구축

대시보드는 결과물이 뚜렷하다. 비록 시간이 많이 들었지만 정리해보면 1달간 3개의 프로토타입이 완성되어 오픈되었다.

백엔드 개발자와 프론트 개발자와의 협업을 통해 어떤 프로세스를 통하여 업무가 진행이 되는지에 대한 이해도를 높일 수 있었고, 나는 크롤링 된 raw data를 data mart를 설계하여 이를 프론트와 백엔드 개발자가 API 엔드포인트를 개발할 수 있게끔 도움을 주었다. 또한 처음으로 XD를 활용하여 UI를 설계했고 화면을 기획했다.

전체 업무의 할당은 다음과 같다.

  • 대시보드 화면 기획 (35%)
  • 데이터 마트 설계 기획 (35%)

-> 어떤 데이터 타입으로, A라는 시각화를 위해 어떤 형태로 저장해야할지

  • 데이터 배치 및 적재(15%)
  • 유지 보수를 위한 모니터링(15%)
  • > 생각보다 소모적인 작업이다. 현재 크롤러가 작동되지 않을 때 alert이 오고 있지만 주말동안 이슈가 발생하거나 퇴근 후 발생한다면 다시 돌아갈 수 있게금 trigger가 있는 것이 아니기 때문에 빠른 유지보수 및 보완작업이 힘들 때가 있다. 해당 부분은 airflow를 본격적으로 도입하면서 해결할 수 있지 않을까?라는 희망을 가지고 있다. 또한 외부 사업팀에서 대시보드 기능에 대한 추가요청이 온다면.. 이 부분도 시간과 비용이다.

6. 일회성 업무

과제형 업무/개발형 업무가 아닌 일회성 업무다.
해당 업무를 얼마나 효율적으로 빠르게 처리하느냐에 따라서 내 업무시간의 비중이 달라지는 것 같다.

6–1) 데이터 추출

각 부서마다 활용하고 있는 데이터 원천과 DB가 다르기에 번거로운 일이 아니라면 데이터를 추출해주는 일을 종종 진행하는데 사실 추출하는건 어려운일이 아니지만 이를 위한 메일 커뮤니케이션과 업무 분배 및 보고 작업이 꽤 있음. 프로세스화 할 필요가 있음

6–2) 보고서 작업

업계나 내부적으로 큰 이벤트가 있을 때 Ad-hoc 분석을 진행하고 보고서를 만들어 관련 부서에 전달한다. 콘텐츠쪽 데이터가 방대하기에 ETL작업에는 큰 비용이 들지 않지만 보고서 작업 자체가 장표 디자인이나 보고서 스토리 라인 등 분석 외적 부분에 대한 시간이 소요된다. 좋아하는 업무는 아니지만 명확한 output이 있기에 놓치지 않고 효율적으로 진행해야 한다.

6–3) 기획 업무

딥러닝 모델링이나 대시보드 구축 등 여러가지 업무를 진행을 하면 도메인/비즈니스 지식이 가미된 기획 업무가 필수다. 가장 시간이 많이 들고 어려운 작업이다. 기획된 업무 기준을 통해 모든 업무의 파이프라인이 연동되기 때문에 누구나 설득할 수 있어야하고 그 기준이 뚜렷해야 한다. 예를 들어 컨텐츠 유사도 모델에 대한 배포 기준이나 대상 데이터 선정 등에 과정이 포함된다.

6–4) 업무 협조

내부/외부 분석가 채용이나 기타 일회성 업무 협조에 대한 일. 그때그때 나이스하게 잘 처리해야함.

퇴근 후의 삶

  1. 건강

건강이 예전과 다르게 안 좋아지는 것 같다.
대학생때는 술마시고 바로 자도 속이 뒤틀린 경우가 거의 없었는데 생전 없었던 소화불량이라던지, 눈이 침침한다던지 건강상의 문제가 종종 있었다

나쁜 핑계이지만 코로나가 내 삶을 많이 바꾸어주었고, 작은 시간을 운동에 할애하지 못한 내 자신이 너무 밉다.

2월 이후 부터는 재택근무가 끝나면 헬스를 간다던지, 동네 러닝을 한다던지 어떤 작은 활동을 시작하면서 건강을 회복하고 싶다.

2. 독서

업무에 필요한 책을 작년 한 해 동안 20권넘게 샀다. 물론 바보같이 다 읽지는 못했다.

올해는 업무 외적으로 삶의 동기부여를 줄 수 있는 책의 비중을 늘리려고 한다.
정말 바빠서 시간이 안되면 오디오북을 활용해볼까 싶다.밀리의 서재나 윌라와 같은 서비스가 있던데 확인해봐야지

3. 재테크

작년에는 자산 비중에 주식이 거의 없었다. 올해 자산 현황을 보니 뇌동 매매한 주식들이 꽤 많이 생겨서 전체 자산의 20%정도까지 된 것 같다. 진짜 슬프게도 1월 하반기 들어 하락장이 되어가며 수익실현을 못한 주식들이 원금수준으로 돌아가고 있는데 올해는 프로그램 매매나 가치주를 찾는 로직을 강화하여 돈과 기업에 대한 공부를 꾸준히 할 예정이다.

올해는 나에게 큰 목표가 있는 한 해다. 꼭 노력해서 달성할 예정이다

4. 가족

소중한 사람들. 내가 전문성을 키워 많은 돈을 벌면 보답해야할 사람들이다. 올해는 건강하고 행복한 모습만 기억될 수 있게 정신적으로나 물질적으로나 많은 지원을 해드리고 싶다. 올해안에 웃는 모습으로 가족사진 하나 찍기.

주말의 삶

  1. 외주 작업

작년 한 해 동안 많은 작업을 했다. 과제에 도움이 필요한 대학생, 회사에서 일을 하는 실무자, 대학원생,기업의 대표 등 여러 형태의 의뢰인들을 만났고 어떻게 커뮤니케이션하면 가장 효율적인지 배울 수 있었다.

100명 정도가 되는 의뢰인들과 이야기를 하면서 느낀 점은 자기 암시가 필요하다는 점이다. 이를테면 ‘나는 전문가다’와 같은..?

내가 선택한 단어나 문장을 통해 신뢰감을 주어야하는데 자신감이 없으면 그러한 신뢰감을 줄 수 없고 확신을 나타내는 단어를 잘 안쓰게 된다
(그럴 것 같습니다 / 아마도 그럴 것 같아요 / 모르겠습니다.)

내가 의뢰인에게 돈을 받고 용역을 하는건데.. 전문성이 없다면 소중한 의뢰인의 대금을 받을 자격은 없다고 생각한다. 그렇기에 내 스스로 무의식적으로 이 분야에 전문가라는 자기 암시를 해주면서 의뢰인의 불안 요소를 없애는게 중요한 것 같다.

두 번째는 커뮤니케이션 비용 최소화.

일을 받기 위해서는 요건이 뚜렷해야한다.

첫번째로 내가 가능한 일의 범위인지 파악하고, 가능하다면 가능한 짧은 텍스트로 분석 요건에 대해서 요청을 드려야 한다.

내가 이해 가능한 범위의 분석 요건이라면 내가 작업할 수 있는 형태로 요건을 수정하고 작업 기간을 산정한다.

2.논문

외부 대학원생을 알게되어 함께 논문 공동 작업을 11월부터 진행하고 있다. 코로나로 소통이 잘 안되어서 조금 답답하긴 한데, 아무쪼록 잘 마무리되어서 좋은 결과물이 있으면 좋겠다. 올해는 특허와 더불어 논문 작업도 잘 마무리해볼 예정이다.

3. 자료 리서치

오픈 소스나 개발자 커뮤니티에서 유용한 정보들을 아카이빙하고 있다. 정말 고마운 분들은 메신저나 댓글을 통해 감사의 말씀을 전하기도 하고 연락처를 아는 분들은 작은 기프티콘으로 성의를 표한다. 나 역시도 누군가에게 좋은 지식을 전파할 수 있는 사람이 되기 위해서는 도움을 주고 싶다.

예전에 나를 반성해보면 웹/커뮤니티에서 굴러다니는 정보들을 습득하면 바로 내 지식이 된다고 생각이 들었고 그 글을 본인만의 언어로 잘 요약해주신 분들에 대한 감사한 마음이 크게 없었던 것 같다.
최근 개인적으로 여러가지 정리작업을 하게 되면서 내가 전파한 정보들이 누군가에게 힌트가 되거나 도움이 된다면 정말 큰 기쁨일테지만 내가 원치 않은 누군가에게 쓰인다거나 엉뚱한 방향에 활용이 되면 기분이 나쁠 수도 있겠다는 생각이 들었다.

그렇기에 누군가가 공유해준 소중한 정보들은 결국 내 지식이 될 수 있지만 잘 활용이 된다면 감사함의 표시를 꼭 해야겠다고 다짐을 해본다.

인생에서도 마찬가지로 누군가에게 크고 작은 도움을 받았더라면 감사해하고 작은 성의라도 전달드리자.

4. 커리어 고민

서른 전, 첫번째 이십대 후반이다.
비전공자로서 필드에 들어온지 1년 반정도 되었고, 뒤쳐지지 않기 위해 많은 공부를 했던 것 같다. (앞으로 지금보다 더 많은 공부를 해야겠지만)

해당 직업을 앞으로 수년간 당연히 가지고 가겠지만, 여러 부분들이 자동화되거나 대체될 수 있기에 다양한 플랜을 세워놓는게 맞다고 생각한다.

내가 잘할 수 있는 부분들은 당연히 스스로 파악을 해야하고, 모자라고 부족한 부분들은 채워나가되 학습에 의해서 개선되지 않는 부분들은 과감하게 쳐낼 필요가 있다.

또한 대세가 되고 있는 채용트렌드들이 매년 달라지는 것 같다. 이 부분의 추세를 잘 파악하는게 정말 중요하다고 봄. 취업 트렌드나 자격 요건들 작년과 올해 많이 다른 것 같다.(예를 들어 재작년까지만 해도 거의 없던 autoML 활용 경험 등)

내가 잘할 수 있는 분야와 내 직무를 잘 소화할 수 있는 인프라를 가지고 있는 기업들이 어떤 기업들이 있는지 잘 인지해야할 것 같다. (우선 지금 현재는 너무 만족스러운 상태)

작년에는 우리나라 전체적으로 부동산이나 금융 자산에 대한 큰 변동성이 있었던 한해 였던 것 같다. 내가 커리어적으로 안정적인 상황이 되어야 이러한 변동성이 생길 때 올바르게 대응할 수 있을 것 같다

Unlisted

--

--