목록기록/머신러닝 스터디 Alchemist 🔮 (6)
컴공댕이 공부일지

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. K-평균 알고리즘의 이해 머신러닝 비지도 학습에 속하며, 데이터를 K개의 군집으로 묶는 알고리즘 거리 기반 군집화 : 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 - K-평균 알고리즘의 과정 1) 군집화의 기준이 되는 중심을, 군집화 개수만큼 임의의 위치에 가져다 놓기 ( 임의의 위치에 군집 중심점을 가져다 놓으면, 이동해야하는 횟수가 늘어나므로 오래걸린다. 그래서, 수행시간이 오래 걸리기 때문에, 초기화 알고리즘으로 적합한 위치에 중심점을 가져다 놓는다. ) 2) 각 데이터는 가장 가까운 곳에 위치한 한 중심점에 소속됨 3) 소속이 결정되면, 군집 중심점을 소속 데이터들의..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 차원 축소 (Dimension Reduction) 개요 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해, 새로운 차원의 데이터 세트를 생성하는 것 변수의 개수 = 차원의 개수 n개의 독립 변수들이 하나의 공간에 표현되려면, 공간이 n차원이여야 한다. 즉, 차원이 증가할수록 데이터 표현 공간이 복잡해진다. 그래서, 모델링이 어려워지기 때문에 기존 변수를 조합하는 차원 축소 기법을 사용하는 것이다. ㅡ 차원이 증가할수록, 데이터 포인트 간 거리가 멀어져, 희소한(드문드문한) 구조를 가지게 된다. 피처가 많을 경우, 개별 피처 간 상관관계가 높을 가능성도 크고, 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 특히, 선형 ..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 자전거 대여 수요 예측 - 함수 정리 .subpots() : 여러 개의 그래프를 한 번에 표현 barplot() : 막대그래프 형태로 시각화 hist() : 빈도를 시각적 막대그래프로 표현하는 히스토그램을 그려주는 함수 tight_layout() : 요소 간격을 조종해 레이어를 최적화 - RMSLE MSE (오차의 제곱 평균) RMSE (mse에 루트) RMSLS (rmse에 로그 추가) 모두 값이 0에 가까울수록 좋은 성능. 그러나, 스코어링을 할 땐, neg 활용 log1p() 함수( log(x+1) )를 활용해 로그 변환해 오버/언더플로 오류를 해결한다. expm1() 함수로 원래 스케일로 다시 돌릴 수 있다. 특징 - 로그값..

04. 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측 - LinearRegression 클래스 - Ordinary Least Squares RSS 최소화, OLS 추정 방식으로 구현된 클래스 LinearRegression - 입력 파라미터 fit_intercept (디폴트 true) : 절편 계산 여부, false로 지정하면 절편 0 nomalize (디폴트 false) : true면 회귀 수행 전, 입력 데이터 세트 정규화 - 객체 속성 coef : 회귀 계수가 배열 형태로 저장 intercept : 추정된 상수항 * 다중 공선성 문제 피처 간의 상관 관계가 매우 높은 경우, 분산이 매우 커져 오류에 민감해지는 현상 그래서, 상관관계가 높은 피처가 많은 경우 독립적인 중요 피처..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 회귀 회귀 분석 ( regression analysis ) 데이터 값이 평균 등의 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 여러 개의 독립변수(다양한 원인들, 피처)와 한 개의 종속변수(결과, 결정 값) 간의 상관 관계를 모델링하는 기법 이때, 독립변수의 값에 영향을 미치는 회귀 계수들이 존재함. 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이 머신러닝 회귀 예측의 핵심 *지도학습 : 정답이 있는 데이터를 활용해 모델을 학습시키는 방법 ⬇⬇가장 많이 사용되는 회귀 선형 회귀 실제 값과 예측 값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식 오류 = 실제값 - 예..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 머신러닝의 개념 머신러닝 (Machine Learning) 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법 소프트웨어 코드만으로는 해결하기 어려운 복잡한 문제들에 활용 머신러닝은 문제를 관통하는 일정한 패턴을 찾기 어려운 경우에도, 데이터를 기반으로 숨겨진 패턴을 인지해 문제 해결. - 머신러닝의 분류 지도학습 / 비지도학습 / 강화학습 지도학습 ( 정답 있는 데이터를 활용한 학습 ) 분류 회기 추천 시스템 시각/음성 감지/인지 텍스트 분석, NLP 비지도학습 ( 정답 없는 데이터를 비슷한 특징끼리 모아 새로운 데이터에 대한 결과 예측 ) 클러스터링 차원 축소 강화학습 (데이터 없이 그냥 해보면서 그에 따른 보상을 ..