한 개만 더, 한 발만 더

어제보다 조금 더 나은 오늘을 만들기 위해 노력합니다.

데이터분석 3

[Dacon] Basic 흡연 여부 예측 AI 경진대회

회고 이번 대회에서는 제출을 3번밖에 하지 못했지만 Private 점수 11등이라는 좋은 성적을 거뒀습니다. Basic 대회이고 참여한 사람 수가 200명 미만이지만, 상위 7% 내에 들어왔다는 점이 개인적으로 기분이 좋습니다. '흡연 여부 예측'이라는 주제가 흥미로워서 여러가지 Feature Engineering을 해보고 싶었는데 회사 일과 사이드 프로젝트가 한창 바쁜 주간이라 대회 참여가 뒷전이 되었네요. 중구난방으로 분석을 진행하지 않고 좀 더 체계적으로 프로세스를 만들어보고 싶어서 오라일리의 책도 구매했는데, 전체적으로 정리하면서 적용해 보기에 좋은 것 같습니다. 이번 대회에서는 AutoML을 적용해 보는 게 목표였습니다. 저는 AutoGluon을 써봤는데 확실히 효율이 좋은것 같습니다. Grid..

[공공데이터] 지하철 승하차 데이터 분석

회고 햇수로 10년 째, 매일 아침 저녁으로 지하철을 타고 출퇴근한다. 여러 번 이사와 이직을 하며 유동인구가 많은 역에서 내릴 때도 있었고, 사람이 별로 없는 역에서 내릴 때도 있었다. 그런데 어떤 날은 지하철에 사람이 많은 것 같고, 어떤 날에는 사람이 유난히 적은 것 같았다. 특히 요일별로 앉아서 가느냐 서서 가느냐가 정해질 때가 있었다. 과연 기분 탓일까? 그래서 공공데이터포털에 들어가 지하철 승하차 정보 관련 데이터를 분석해봤다. 아주 깊게 분석한 것은 아니지만, 그래도 대략적인 지하철 승하차 정보에 대해 알 수 있었다. 깃허브 https://github.com/YoungjaeKang/subway_congestion_analysis/blob/main/subway_congestion_v1.ipyn..

[Dacon] 영화 관객 수 예측 경진대회

개요 - 가짜연에서 'XGBoost와 사이킷런을 활용한 그래디언트 부스팅'이라는 책으로 세 달 가량 스터디를 진행했고, 그 이후 혼자 공부 중이다. - 책에서 배운 내용을 적용해보기 위해 데이콘 교육용 대회인 영화 관객 수 예측 경진대회를 진행했다 (회귀). http://www.yes24.com/Product/Goods/108708980 XGBoost와 사이킷런을 활용한 그레이디언트 부스팅 - YES24 캐글 우승자들의 머신러닝 우승 비법이자 현존하는 가장 우월한 머신러닝 모델 XGBoost이 책은 기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의 www.yes24.com 결과 [베이스 라인 코드 제출 시, Random Forest] 점수는 1383414점으로 ..