-
train과 test 분포가 다를 때IT 지식 창고 2020. 6. 17. 18:12
train과 test 분포가 다를 때, train으로 학습하고 validation후에 좋은 성능을 가지고 test를 해보면 성능이 좋지 못해 과적합(overfitting)이라고 이야기 할 수 있다.
그러나 이건 overfitting의 문제와는 다른 것이 아닌가? 라는 생각이 들었다.
그래서 찾아보니 covariate shift라고 하며 dataset shift를 이야기하며 나오는 내용인 것 같다.
그러면 이런상황에서는 어떻게 validation을 해야하는 지에 대한 문제는 찾고 있는 중이며, 그 외의 solution이나 설명은 아래의 링크에 잘 정리 되어있는 듯하다.
https://data-newbie.tistory.com/96
https://dkopczyk.quantee.co.uk/covariate_shift/
내가 찾고자하는 것을 Stack Exchange에 질문으로 되어있는 글
'IT 지식 창고' 카테고리의 다른 글
(model) xgboost와 lightgbm 사용 시 default값 한 페이지에 붙여넣음 (0) 2020.06.18 (카카오 API) 좌표 -> 주소 변환 document 사이트 (0) 2020.06.17 (호기심) 머신러닝 예제에서 보이는 clf 뜻 (0) 2020.06.11 (Python) 더미변수 (가변수) 원래대로 돌리기 (0) 2020.06.11 (python) jupyter notebook에서 np.random.seed() (0) 2020.06.02 댓글