개요
- 가짜연에서 'XGBoost와 사이킷런을 활용한 그래디언트 부스팅'이라는 책으로 세 달 가량 스터디를 진행했고, 그 이후 혼자 공부 중이다.
- 책에서 배운 내용을 적용해보기 위해 데이콘 교육용 대회인 영화 관객 수 예측 경진대회를 진행했다 (회귀).
http://www.yes24.com/Product/Goods/108708980
XGBoost와 사이킷런을 활용한 그레이디언트 부스팅 - YES24
캐글 우승자들의 머신러닝 우승 비법이자 현존하는 가장 우월한 머신러닝 모델 XGBoost이 책은 기본적인 머신러닝과 판다스부터 사용자 정의 변환기, 파이프라인과 희소 행렬로 새로운 데이터의
www.yes24.com
결과
[베이스 라인 코드 제출 시, Random Forest]
점수는 1383414점으로 리더보드에서는 623등 정도이다.
[XGBoost 활용 시]
데이터를 컬럼별로 살펴보고 베이스라인 코드 수준에서 더 전처리를 진행하진 않았다.
그리고 RandomizedSearch와 XGBoost를 활용해서 모델을 만들었다.
점수는 1283282점, 390등 정도이다.
단지 XGBoost를 사용하는 것 만으로도 눈에 띄는 점수 향상이 있는 것을 확인할 수 있다.
Github 주소
https://github.com/YoungjaeKang/dacon-movie-forecast/blob/master/movie_forecast_v6.ipynb
GitHub - YoungjaeKang/dacon-movie-forecast: 데이컨 영화 관객수 예측 경진대회 (교육용)
데이컨 영화 관객수 예측 경진대회 (교육용). Contribute to YoungjaeKang/dacon-movie-forecast development by creating an account on GitHub.
github.com
코드
'파이썬 > 데이터 분석' 카테고리의 다른 글
[Dacon] 고객 대출등급 분류 해커톤 (0) | 2024.02.08 |
---|---|
Gradio와 GPT를 활용한 영어 교육 서비스 만들기 (2) | 2023.09.19 |
[Dacon] Basic 흡연 여부 예측 AI 경진대회 (0) | 2023.08.30 |
[Dacon] Basic 풍속 예측 AI 경진대회 (0) | 2023.07.31 |
[공공데이터] 지하철 승하차 데이터 분석 (0) | 2023.07.21 |