본문 바로가기

TIL/머신러닝5

2021.10.14 TIL : [ML] 지도 학습 - Logistic Regression (로지스틱 회귀) 위의 그림에서 보면 (a)는 공부 시간이 증가함에 따라 점수도 선형적으로 증가하는 모습을 볼 수 있다. 반면 (b)는 일정 점수를 기준으로 합격과 불합격이 나뉜다. 이런 (b)의 경우에서는 직선보다 S자형 곡선이 X와 Y의 관계를 더 잘 설명하는 것처럼 보인다. (b)처럼 합격, 혹은 불합격의 두 가지로 나뉘는 변수를 이진형(binary) 변수라고 한다. 병 진단의 경우에도 음성과 양성의 이진형 변수로 구성되는 경우가 많다. 이렇게 이분법적으로 나누는 경우에 연속적인 수치에 적합한 선형 회귀 방식으로는 그 결과를 예측하기가 어렵다. 따라서 새로운 방식의 모형이 필요하다. 선형 회귀의 방식에서는 다음과 같은 식을 구할 수 있었다. X : 공부 시간, Y : 합격/불합격에 대한 변수 (합격 = 1) 위의 식.. 2021. 10. 14.
2021.10.9 TIL : [ML] 지도 학습 - Linear Regression (선형 회귀) 선형 회귀는 대학교 1학년 때 경영 통계학을 배우면서 살짝 접했던 기억이 있다. 당시에는 수업을 영어로 진행하기도 하고, 통계적인 지식도 전혀 없었던 때라 이해하지 못하고 대충 공식을 외워서 시험 봤던 것 같다. 하지만 내가 대학교 1학년 때부터 접할 만큼 기초적인 부분이기도 하고, 회귀 모델의 가장 기본이 되는 방법이기 때문에 이번 기회에 잘 정리해두려고 한다! 지도학습을 통해서는 예측 혹은 분류라는 결과를 얻을 수 있다. 우리가 데이터를 넣고, 데이터를 분석할 모델을 찾아서 적용하면 해당 데이터를 몇 개의 분류로 나누거나, 혹은 새로운 데이터를 넣었을 때 해당 데이터가 어떤 종속 변수 값을 갖는지 등을 예측할 수 있는 것이다. 회귀, 그 중에서도 선형 회귀는 예측을 할 수 있는 방법이다. 여러 독립 .. 2021. 10. 9.
2021.10.6 TIL : [ML] 지도 학습 - Decision Tree (의사결정 트리) 만약 다음과 같은 데이터가 있다고 할 때, 분류를 위해서는 어떤 선을 그어야 할까? SVM이나 linear regression, Naive Bayes 등을 이용하면 하나의 선을 그을 수도 있겠지만, DT에서는 x축 혹은 y축과 평행한 직선부터 그려서 나눈다. 그럼 다음 선들 중에 어떤 선을 처음으로 그려야 가장 효율적으로 사과와 배를 구분할 수 있을까? height를 기준으로 선을 그으면 최소 2개의 오류가 발생한다. 반면에 width를 기준으로 그으면 최소 오류가 하나이다. 이 때 주의해야 할 점은 사과와 배를 구분하는 기준선은 train data 위에 그을 수 없다는 점이다. train data들은 이미 분류가 된 데이터들인데, 이 위에 선을 그으면 선에 위치한 데이터들을 분류할 수 없기 때문이다. .. 2021. 10. 6.
2021.9.21 TIL : [ML] 지도 학습 - Naive Bayes 머신 러닝에서 가장 기초 알고리즘으로 배우면서도 자주 쓰이는 것 중 하나도 나이브 베이즈 알고리즘을 배운다. 특징(feature)과 라벨링 예를 들어 하루종일 Let it go를 듣는 나에게 새로운 음악을 추천하는 머신러닝 알고리즘을 만들고 싶다고 해보자. 그러면 Let it go의 특징들 (템포, 장르, 가수의 성별, 음악의 밀도)을 분석하고 다른 음악들을 라벨링(내가 좋아할 것 같은 음악, 좋아하지 않는 음악) 할 수 있다. 이렇게 라벨링된 데이터들은 특징을 시각화한 산포도(scatter plot)으로 나타낼 수 있다. 컴퓨터는 3차원도 이해할 수 있지만 우리는 2차원으로 그려야 이해가 쉽기 때문에 2차원으로 그린다. Stanley Terrain Classification Stanley라는 자동차는 .. 2021. 9. 21.
2021.8.29 TIL : [ML] 지도학습 - KNN(K-Nearest Algorithm) 알고리즘 만약, 우리가 어떤 영화를 분류해야 한다고 가정해보자. 이 영화 외에 여러 영화들을 분석했을 때, 다음과 같은 결과가 나왔다. 우리가 분석해야 하는 영화가 별이라고 하자. KNN 알고리즘은 거리가 가까운 k개의 표본을 보고 k 개 중에 가장 다수를 차지하는 쪽으로 분류하는 것이다. 그래서 먼저 k 값을 정해줘야 하는데, 이 때 k 값은 홀수이면서 작은 값이 좋다. 짝수인 경우는 2대 2와 같은 한 쪽으로 치우치지 않는 결과가 나올 수 있기 때문이다. k = 3 이라고 할 때 위의 예시에서 별에 가까운 영화들을 분석해보면 2개는 액션 영화, 1개는 로맨스영화이다. 따라서 별은 액션 영화다 라고 하는 prediction, 예측을 할 수 있게 된다. 이 때 별과 다른 neighbor 사이의 거리를 구하는 방법.. 2021. 8. 29.