10주차에는 미니프로젝트 5차와 6차를 연달아 했다.
미니프로젝트 5차는 AICE Associate를 대비하기 위한 프로젝트였고, 미니프로젝트 6차 첫 사흘은 시계열 모델링을 이용해 대형마트의 유통 판매량 예측 및 재고 최적화 프로젝트를 했다.
슬슬 STEP 1의 막바지를 달렸던 10주차였다.
5️⃣ 미니프로젝트 5차
🪪 AICE Associate 시험 대비
이번 미니프로젝트는 좀 색다른 프로젝트(?)여서 리프레쉬하는 느낌이었다!
훈련 과정 중 따게 될 AICE Associate 자격증 시험 대비를 위해 기출문제를 풀어보고 팀원들과 스터디하는 식으로 프로젝트가 진행되었다.
기출 문제는 1) Pandas로 데이터 전처리, 2) 간단한 머신러닝 성능을 보는 문제로 이뤄졌었다. 성능 관계 없이 주어진 문제만 착실히 풀고 답을 내면 되는거라 난이도가 사실 그렇게 어렵지는 않다고 느껴졌다. Pandas 명령어를 사용할 줄 아나? sklearn 라이브러리 쓸 줄 아나? 이 정도를 보는 시험인 것 같다.
다만, 난이도가 그렇게 높지 않더라도 처음이라면 AICE 홈페이지에서 샘플문항을 한 번씩 보고 어떤 식으로 나오는지 감을 잡고 가야 할 것 같다.
필자는 머신러닝 수업부터 데이터 전처리/분석 과정이 생략되고, 한동안 주어진 데이터로만 모델링해와서 오랜만에 하려니 문제에서 정확히 뭘 원하는지 감 잡는데 시간이 좀 걸렸기 때문이다.
그래도 시간 내에 다 못 풀 정도는 아니었다.
우리 조는 조별 미팅 시간에 코드 리뷰 하는 식으로 한 명씩 각 문제를 어떻게 플었는지 발표했다.
조원 중 한 분이 이미 에이블스쿨 전에 AICE Associate를 치고 들어오셔서 시험 팁을 들을 수 있었고, 발표 자료로 AICE Associate 시험을 위한 팁, 유의사항, 강사님께 여쭙고 싶은 시험에 대한 몇 가지 (데이터 스케일링 필요 여부, 아리송했던 문제들)를 추려서 다른 에이블러들을 위한 AICE Associate 정보 제공 자료로 만들었다.
이번 전체 발표시간은 Zoom에서 AI 트랙과 DX 트랙이 함께 참여해서 진행되었는데, 우리 조장님께서 그래도 자료 만들었는데 발표하겠다고 하셔서 발표를 하셨다! (이 분은 진짜 매번 발표하시는 것 같다. 리스펙!)
ㅋㅋㅋ 발표 끝나고 DX트랙 분들 리액션이 너무 좋으시고 발표 자료도 공유해달라고 하셔서 내가 발표한 것도 아닌데 뿌듯한 기분이 들었다.
6️⃣ 미니프로젝트 6차
🛒 시계열 데이터 기반 상품 판매량 예측
미니프로젝트 6차 1 ~ 3일차는 다시 한기영 강사님께서 이끄셨다.
미국에 있는 마트의 유통량을 예측하여 재고가 많이 남지 않도록 재고 예측을 통한 주문 자동화 프로젝트였는데, 이번에도 시계열 데이터를 다루게 되었다.
앞서 말했다시피 머신러닝 수업부터 데이터 전처리 과정과 데이터 분석 과정이 생략되어서 오랜만에 데이터를 다뤄보는 것 같았다. 2 ~ 3명씩 한 상품을 맡아서 데이터 분석을 진행했다.
📈 데이터 시각화
1일차는 데이터 시각화와 전처리를 파일에 주어진 가이드대로 해보는 시간을 가졌다.
처음에는 단순히 시간에 따른 판매량을 그려보기도 하고, 유가와 비교해보기도 했다.
그러다가 조별미팅 때 다른 조원분이 그린 그래프를 보고 이렇게 판매량 추이를 따라그려보기도 했는데, 상품마다 추이가 다르고, 해석할 수 있는 방향이 많아서 정확히 '무엇이 무엇 때문이다'라는 결론은 못 내고 시각화만 해보고 넘어간 듯하다.
강사님께서 주신 코드로 시계열 데이터의 구성 특징(?) 3가지를 그려보기도 했는데, 설명이 적어서 이게 정확히 모델링에 어떤 도움이 되는지, 어떻게 해석해야 하는지 알 수 없었고 시간이 없어 이것 역시 시각화만 해보고 넘어갔다...
🔧 데이터 전처리 및 Base line 모델 모델링
2일차는 데이터 전처리 진행 후 베이스라인 모델을 만들었다.
유가 데이터에 결측값이 많았는데, 유가를 제공하는 WTI 자체가 공휴일과, 주말에는 휴장을 해서 유가시세를 제공하지 않기 때문에 나타난 현상이란 걸 다른 조원분이 알려주셔서 그 주 금요일 유가를 밀어서 사용했다.
다들... 정말 똑똑해...! 나도 경제 공부해야겠다...!
그리고 판매량이 0인 날은 마트 휴무일이라는 것을 알려주는 변수, 공휴일과 블랙프라이데이 등 다양한 가설에 기반해 파생변수를 도입해봤는데 모델 성능이 그렇게 잘 나오지는 않아서 살짝 속상쓰...
💯 모델링 및 비즈니스 평가
3일차는 본격적으로 모델링에 집중해서 모델 성능을 높이는 것에 집중을 했다.
LSTM을 사용해 층을 여러 개 쌓아보면서 성능을 측정했는데, 제일 좋았던 모델의 R2값이 0.63 정도밖에 되지 않았다. 당연하겠지만 그래도 베이스라인보다는 높다는 사실을 위안 삼았다.
이번에는 비즈니스 평가법을 구현하는 방법에 대해서도 배울 수 있었던 시간이었다.
모델링하면서 CRISP-DM 과정 중 비즈니스 평가 항목은 본격적으로 해본 적은 없던 것 같은데 이번에는 그 부분까지 포함이 되어 STEP1을 총망라하는 듯한 느낌이었다.
이렇게 실제 예측량을 적용해 손실이 얼마인지 눈으로 확인해보니 내 모델을 쓰면 마트 점장이 파산 당하겠다는 생각이 들었다;;
여태 모델 성능 올리기에 급급한 나머지 실제 비즈니스 상황에서 내 모델의 예측이 어떻게 적용되는지는 생각해본 적 없는 것 같은데 생각에 킥을 주는 미프였다.
⭐ 기타
🪪 TensorFlow Certificate
수업 끝나고 짬짬이 추가로 강의를 들었던 TensorFlow Certificate 자격증을 땄다.
작년 구글 부캠에서 받았던 쿠폰 유효기간 끝나는 날이 한 달 정도 남았을 때 부랴부랴 강의 계획을 세우고 땄다.
내 심장이 잘 구운 염통꼬치마냥 쫄깃해진 것 같다. 100 $ 아꼈다.
시험에 대한 자세한 후기는 나중에 따로 글을 쓰겠다.
'Bootcamp > 2024 KT Aivle School' 카테고리의 다른 글
[KT AIVLE School 5기] AIVLE Day 1차 (0) | 2024.06.16 |
---|---|
[KT AIVLE School 5기] AI 개발자 트랙 11주차 후기 (5) | 2024.06.16 |
[KT AIVLE School 5기] AI 개발자 트랙 9주차 후기 (0) | 2024.06.11 |
[KT AIVLE School 5기] AI 개발자 트랙 8주차 후기 (0) | 2024.06.08 |
[KT AIVLE School 5기] AI 개발자 트랙 7주차 후기 (0) | 2024.06.08 |