IT 지식 창고

train과 test 분포가 다를 때

casim 2020. 6. 17. 18:12

train과 test 분포가 다를 때, train으로 학습하고 validation후에 좋은 성능을 가지고 test를 해보면 성능이 좋지 못해 과적합(overfitting)이라고 이야기 할 수 있다.

 

그러나 이건 overfitting의 문제와는 다른 것이 아닌가? 라는 생각이 들었다.

 

그래서 찾아보니 covariate shift라고 하며 dataset shift를 이야기하며 나오는 내용인 것 같다.

 

그러면 이런상황에서는 어떻게 validation을 해야하는 지에 대한 문제는 찾고 있는 중이며, 그 외의 solution이나 설명은 아래의 링크에 잘 정리 되어있는 듯하다.

 

https://data-newbie.tistory.com/96

https://dkopczyk.quantee.co.uk/covariate_shift/

 

https://datascience.stackexchange.com/questions/28331/different-test-set-and-training-set-distribution

내가 찾고자하는 것을 Stack Exchange에 질문으로 되어있는 글