- ๋ธ๋๋ฐ์ค ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ค๋ช ํ๊ธฐ ์ํ ๋งค์๋์ด๋ค. ์ต๊ทผ์ ๋ง์ด ์ฐ๋ DNN, ๋ก์ง์คํฑ, ๊ทธ๋๋์ธํธ ๋ถ์คํ ๋ชจ๋ธ๋ฑ์ ๋ธ๋๋ฐ์ค ๋ชจ๋ธ์ธ๋ฐ, ์ด๋ฌํ ๋ชจ๋ธ์์ ๊ฒฐ๊ณผ๋ฅผ ํด์ํ๊ณ '์'์ด๋ฌํ ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง ์ค๋ช ํด์ฃผ๊ธฐ ์ํ์ฌ shap๊ฐ์ ๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ค.
- ๊ฒ์์ด๋ก ์ค shapley values์ ๊ธฐ์ดํ์ฌ ๋์๋ค. shapley values๋ ๊ฐ ๊ณตํ์๊ฐ ์ผ๋ง๋ ๊ณตํํ๋์ง ๋ํ๋ด๋ ์์น์ด๋ค. ํ๋ ฅ๊ณผ ๋นํ๋ ฅ์ ๋ฐ๋ฅธ ์ํฅ์ ๊ณ์ฐํ๋ค.
- ๋ณ์๊ฐ ๋์ ์๊ด๊ด๊ณ์ ์ทจ์ฝํ๋ค
์ฐธ๊ณ ) https://shap-lrjball.readthedocs.io/en/latest/index.html
eli5: ํญ๋ชฉ์ ์ค์๋๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์์ฌ๊ฒฐ์ ํธ๋ฆฌ, ํธ๋ฆฌ๊ธฐ๋ฐ ์์๋ธ ์์ธก, ๊ฐ ํญ๋ชฉ์ด ์ต์ข ๊ฒฐ๊ณผ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง => ๋ฐ์ดํฐ์์ ์ํฅ๋ ฅ์ด ์๋ ๊ฒ์ ๋นผ๋ ๊ณผ์ ๋ธ๋๋ฐ์ค: ์๊ณ ๋ฆฌ์ฆ์ด ๋ญ๊ฐ๋ฅผ ๋ฃ์ผ๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋์ค์ง๋ง ๋ฌด์จ ์ผ์ด ์ผ์ด๋๋์ง ๋ชจ๋ฅผ ๋ <-> ์ ์ด๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์๋์ง ๋ณผ ์ ์๊ฒ ์ด๋ค ํญ๋ชฉ์ด ์ค์ํ๋์ง๋ฅผ ๋ณผ ์ ์๋ค.
cross validation : ๋ฐ์ดํฐ ๊ฐ์๊ฐ ์ ์๋ fold out ํ๊ฐ์ ๋ฎ์ ์ ๋ขฐ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ํ๋ จ ๋ฐ์ดํฐ ์ ๊ณผ ํ ์คํธ ๋ฐ์ดํฐ ์ ์ ์ฌ๋ฌ๋ฒ ๋ง๋ค์ด ํ์ต-์์ธก์ ์ฌ๋ฌ๋ฒ ์ํํ๊ณ ํ๊ท ์ ํ๋๋ฅผ ๊ตฌํ๋ ํ๊ฐ๋ฐฉ์ -> ๊ต์ฐจ๊ฒ์ฆ์ ํตํด ์ข ๋ ์ ๋ขฐ์ฑ์๋ ๊ฒ์ฌ๋ฅผ ํ ์ ์๋ค
<์ข ๋ฅ>
- k-fold cross validation
- shuffle split cross validation
- leave-one-out cross validation
- leave-p-out cross validation
k=5์ผ๋ ๋๋ค์ผ๋ก ํธ๋ ์ธ ์ธํธ๋ฅผ 5์กฐ๊ฐ์ผ๋ก ๋๋์ด 4๊ฐ๋ ํธ๋ ์ธ์ฉ 1๊ฐ๋ ๊ต์ฐจ๊ฒ์ฆ์ฉ์ผ๋ก ์ฌ์ฉ
k=5, 5์ธํธ๋ฅผ ๋ง๋ค๋ฉด 4์ธํธ๊ฐ ํ์ต ๋ฐ์ดํฐ(train ์ฉ)๊ฐ ๋๊ณ 5๋ฒ์งธ ์ธํธ๋ ์ ํจ์ฑ ๊ฒ์ฌ(๊ต์ฐจ ๊ฒ์ฆ์ฉ)๋ฅผ ์ํ๊ฒ
k k-1 -> ํธ๋ ์ธ ์ 1 -> ํ ์คํธ ์ k๋ฒ ํ์๋งํผ ๊ต์ฐจ๊ฒ์ฆ์ ๋ฐ๋ณต k=5๋ฉด ์ ํ๋๊ฐ 5๊ฐ -> ๊ทธ๊ฑฐ์ ํ๊ท
kFold์์ ๋๋ ๋ถ๋ถ์ด ํธํฅ๋ ์ ์์ผ๋ฏ๋ก ์ฌ์ง์ฒ๋ผ ์ฌ๊ธฐ์ ๊ธฐ์ ์์งํจ
์ผ๋ฐ์ ์ผ๋ก kFold๋ ํ๊ท์์ ์ฌ์ฉํ๊ณ startifiedKFold๋ ๋ถ๋ฅ์ ์ฌ์ฉ๋๋ค
๊ณ์ธตํ k๊ฒน ๊ต์ฐจ๋ฑ๊ธ : ๊ณ์ธตํ๋ ํด๋๋ฅผ ๋ฐํํ๋ k ํด๋์ ๋ณํ์ด๋ค -> ๋ฐ์ดํฐ๊ฐ ํธํฅ๋๋ฉด k ํด๋ ๊ต์ฐจ ๊ฒ์ฆ์ด ์ ๋๋ก ์ํ๋์ง ์์ ์ ์๋ค -> ๊ทธ๋์ ํธ๋ ์ธ ์ธํธ์ ์ ํจ์ฑ ๊ฒ์ฌ ์ธํธ๋ฅผ ์ฌ๊ธฐ์ ๊ธฐ์ ์์งํจ
๊ฐ์ธํธ์๋ ๊ฐ ์ธํธ์ ์ํ์ด ์ ์ฒด ์ธํธ์ ๊ฑฐ์ ๊ฐ์ ๋น์จ๋ก ํฌํจ๋์ด์์
: startifiedKFold์ ๋น์ทํจ ์๋ ๊ทธ ์์์ ๋ฐ๋ณต๋จ -> ๊ฐ ๋ฐ๋ณต๋ง๋ค ๋ ๋๋ค์ผ๋ก n๋ฒ ๋ฐ๋ณต "๊ต์ฐจ๊ฒ์ฆ ๋ด๋ถ์ ๊ต์ฐจ๊ฒ์ฆ์ด ์๋ค"
keywords : default parameter -> select best features -> run grid search -> train best model -> feature selection of each models
models used : Logistic Regression, AdaBoost Classifier, SGD Classifier, SVC

