한 개만 더, 한 발만 더

어제보다 조금 더 나은 오늘을 만들기 위해 노력합니다.

파이썬/데이터 분석

[Dacon] 영화 관객 수 예측 경진대회

토이판다 2023. 4. 4. 22:38

개요

- 가짜연에서 'XGBoost와 사이킷런을 활용한 그래디언트 부스팅'이라는 책으로 세 달 가량 스터디를 진행했고, 그 이후 혼자 공부 중이다.

- 책에서 배운 내용을 적용해보기 위해 데이콘 교육용 대회인 영화 관객 수 예측 경진대회를 진행했다 (회귀). 

http://www.yes24.com/Product/Goods/108708980

 

XGBoost와 사이킷런을 활용한 그레이디언트 부스팅 - YES24

캐글 우승자들의 머신러닝 우승 비법이자 현존하는 가장 우월한 머신러닝 모델 XGBoost이 책은 기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의

www.yes24.com

 

결과

[베이스 라인 코드 제출 시, Random Forest]

점수는 1383414점으로 리더보드에서는 623등 정도이다.

베이스라인 코드(Random Forest) 점수

 

[XGBoost 활용 시]

데이터를 컬럼별로 살펴보고 베이스라인 코드 수준에서 더 전처리를 진행하진 않았다.

그리고 RandomizedSearch와 XGBoost를 활용해서 모델을 만들었다.

점수는 1283282점, 390등 정도이다.

XGBoostRegressor 점수

 

단지 XGBoost를 사용하는 것 만으로도 눈에 띄는 점수 향상이 있는 것을 확인할 수 있다.

 

Github 주소

https://github.com/YoungjaeKang/dacon-movie-forecast/blob/master/movie_forecast_v6.ipynb

 

GitHub - YoungjaeKang/dacon-movie-forecast: 데이컨 영화 관객수 예측 경진대회 (교육용)

데이컨 영화 관객수 예측 경진대회 (교육용). Contribute to YoungjaeKang/dacon-movie-forecast development by creating an account on GitHub.

github.com

 

코드