Chapter 2 Preliminaries

 

Dataset = Training set, Validation Set, Test set, 3개의 subset으로 partition

 

Validation은 overfitting문제 해결을 위함

 

Test은 Train+Validation까지로 나온 classifier의 성능을 test하기 위함

 

Dataset이 적을 경우 Leave-some-out(Cross-validation)방법을 사용

 

Overfitting과 the curse of dimensionality(input의 dimension이 적당해야함)은 다음을 참고

 

http://analytics.ad.daum.net/rad?ask=HcANDTnit_tzIVH6lVlAIyriICJQxuNUbsFQvXEioxxXPMpYx9Qw47vROs7lv5Q1mk1OBLRLSxa2D7dqCgaabuhEJr4mFxffv7MTALeODxsi7GYvRHKwWW-NjXnJjO76bFQfDVRkn2lbKtgv7s_TOf_M5us8cZzDQ1zRIrkVskdhtGN3y2tMbbg2rvk4zFL4

 

Classifier를 test하는 기준들

Confusion Matrix, accuracy, sensitivity, specificity, precision, ROC, AUC, MCC(unbalanced dataset일 때 사용),

 

precise란 유사한 inputs을 넣을 때 마다 outputs도 유사하게

 

true란 output과 prediction사이의 거리의 평균값

 

classify를 하는 과정은 Maximum a posterior를 주로 택함

 

Bayes' Optimal classifier란

“What is the most probable classification of the new instance given the training data?”

의 문제를 풀기위함, 즉 가장 확률 높은 class가 존재하고 그것이 optimal(평균적으로 그 class인 경우가 많다는 것)

 

Misclassification할 경우를 대비해 Loss matrix를 통해 risk를 정의하여 risk를 최소화하는 방향으로 classifier를 정하기도 함

 

Naive Bayes' classifier는 조건부 독립을 이용하여 계산량을 줄임, 특히 the curse of dimensionality때처럼 조건부파트의 dimension이 크지 않게하여 계산량 줄임

 

Mahalanobis Distance를 통해서 주어진 input이 어느 class인지 판단하기도 한다.(Dataset의 평균과 분산을 이용함), 0에 가까울 수록...그 class에 X가 포함될 가능성이 높다는 것

 

the bias-variance tradeoff, bias와 variance를 동시에 적게할 순 없다. 대게는 bias가 좀 높더라도 variance가 낮은게 classify엔 좋음, 어찌됐든 둘다 적당히

 

'제거된 것' 카테고리의 다른 글

[한능검중급]근현대사  (0) 2016.10.20
화음인식의 모든 것  (0) 2016.04.15
[삭제예정]150906(일?)텝스대비  (0) 2015.09.02
[한국사]시험대비2, 근현대사  (0) 2015.07.02
[한국사]시험대비  (0) 2015.05.04

+ Recent posts