Machine Learning 101_시작 전 큰그림

해당 페이지는 간단한 요약설명 위주에 개론입니다.

무슨 데이터를 사용할 때는 어떤 모델을 먼저 시도하면 되겠구나라는 대략적인 느낌만 갖길 바랍니다.

자세한 설명은 각각 따로 올리겠습니다.

📌 Machine Learning이란 무엇인가?

- 주로 기존 방식으로는 해결 방법이 없고 사람의 손이 많이 타는 문제에 사용하는 것을 추천하며, 복잡한 문제나 대량의 데이터에서 의미를 도출할 때 사용 가능하다.

Machine Learning	Big Data
Big Data를 통하여 예측,분석하는 방법 중에 하나	단순히 많은 데이터
자세한 설명 링크	https://searchbusinessanalytics.techtarget.com/tip/Big-data-vs-machine-learning-How-they-differ-and-relate

Machine Learning	Statistics(통계)
통계학자들이 만들어 놓은 모델을 실생활에서 사용되는 데이터에 적용 통계학의 한계를 극복하는 것이 목적	통계학
자세한 설명 링크	https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3

사람의 관리하에 훈련 : 지도, 비지도, 준지도, 강화
실시간으로 점진적 학습 : 온라인 학습, 배치학습
기존 데이터 인지 새로운 데이터인지에 따라 : 사례 기반 학습, 모델 기반 학습
어떤 알고리즘을 선택해야 하는지 자세한 설명 : https://docs.microsoft.com/ko-kr/azure/machine-learning/how-to-select-algorithms

- 정답을 갖고 지도를 하는 학습

- 선형(Linear model, 직선을 기준으로 학습)모델과 비선형 모델(직선이 아닌 모든 형태) 로 분류됨

- 선형 모델(Linear model)은 분류와 회귀로 분류함

분류(Classification)	타켓변수(taget,Y)변수가 이산형(discrete)이나 범주형(categorical)일 때 주로 사용되며, 메일의 스팸예측이나 동물 분류등이 있다. -모델 평가 : Precision(정밀도), Recall(재현율), Accuracy(정확도)
회귀(Regression)	타겟변수(taget,Y)가 연속형(continuous)나 실수(real number)일 때 사용되며, 주가예측이나 비트코인 예측등이 있다. - 모델 평가 : MSE, MAE, RMSE, RMSLE, R-Squared

- 비선형 모델(nonlinear model)은 데이터를 어떻게 변형하더라도 파라미터를 선형 결합식으로 표현할 수 없는 모델이다.

Decision trees, Local regression, Smoothing splines, GAM etc.. 종류가 많다.

- 정답을 데이터에서 구하기 어렵거나 지도가 없는 상황에서 진행하는 것

군집화 (Clustering)	밀도 추정 (Density estimation)	연관 규칙 분석 (Association rule mining)	잠재 요인 추출 (Extracting latent factors)
개체들이 주어졌을 때, 개체들을 몇 개의 클러스터(부분 그룹)으로 나누는 과정	관측된 데이터의 확률 분포를 추정하여 데이터와 변수의 관계를 파악하는 방법	데이터 간의 연관 규칙을 확률 기반으로 평가	쉽게 측정할 수 없는 요인인 기본 잠재 변수와의 연관성 추출