목록cotton_.__._ (142)
컴공댕이 공부일지
보호되어 있는 글입니다.

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 차원 축소 (Dimension Reduction) 개요 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해, 새로운 차원의 데이터 세트를 생성하는 것 변수의 개수 = 차원의 개수 n개의 독립 변수들이 하나의 공간에 표현되려면, 공간이 n차원이여야 한다. 즉, 차원이 증가할수록 데이터 표현 공간이 복잡해진다. 그래서, 모델링이 어려워지기 때문에 기존 변수를 조합하는 차원 축소 기법을 사용하는 것이다. ㅡ 차원이 증가할수록, 데이터 포인트 간 거리가 멀어져, 희소한(드문드문한) 구조를 가지게 된다. 피처가 많을 경우, 개별 피처 간 상관관계가 높을 가능성도 크고, 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 특히, 선형 ..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 자전거 대여 수요 예측 - 함수 정리 .subpots() : 여러 개의 그래프를 한 번에 표현 barplot() : 막대그래프 형태로 시각화 hist() : 빈도를 시각적 막대그래프로 표현하는 히스토그램을 그려주는 함수 tight_layout() : 요소 간격을 조종해 레이어를 최적화 - RMSLE MSE (오차의 제곱 평균) RMSE (mse에 루트) RMSLS (rmse에 로그 추가) 모두 값이 0에 가까울수록 좋은 성능. 그러나, 스코어링을 할 땐, neg 활용 log1p() 함수( log(x+1) )를 활용해 로그 변환해 오버/언더플로 오류를 해결한다. expm1() 함수로 원래 스케일로 다시 돌릴 수 있다. 특징 - 로그값..
보호되어 있는 글입니다.
보호되어 있는 글입니다.

2023. 11. 3 일자 이화여대 알고리즘 튜터링 프로그램, 알튜비튜의 수업 내용 정리본입니다. 🔍이분 탐색 ( BinarySearch )이란 ? 업다운 게임을 생각하면 된다 ! 중간값과 찾아야하는 값을 비교해가며, 배열의 크기를 절반으로 줄이며 답을 찾는 알고리즘으로 반복문으로 구현하며, 시간 복잡도는 O(logN) 알고리즘 사용 전, 반드시 배열을 정렬해야 한다 !! +) 이분 탐색의 대상 원소들을 트리에 넣으면 바이너리서치트리(binary search tree) ! BST를 중위 순회 (inorder) 하면 정렬된 순서의 배열이 나온다. 이미지 출처 : https://velog.io/@reyang/C-%EC%84%A0%ED%98%95-%ED%83%90%EC%83%89-%EC%9D%B4%EC%A7%..
보호되어 있는 글입니다.
보호되어 있는 글입니다.

04. 사이킷런 LinearRegression을 이용한 보스턴 주택 가격 예측 - LinearRegression 클래스 - Ordinary Least Squares RSS 최소화, OLS 추정 방식으로 구현된 클래스 LinearRegression - 입력 파라미터 fit_intercept (디폴트 true) : 절편 계산 여부, false로 지정하면 절편 0 nomalize (디폴트 false) : true면 회귀 수행 전, 입력 데이터 세트 정규화 - 객체 속성 coef : 회귀 계수가 배열 형태로 저장 intercept : 추정된 상수항 * 다중 공선성 문제 피처 간의 상관 관계가 매우 높은 경우, 분산이 매우 커져 오류에 민감해지는 현상 그래서, 상관관계가 높은 피처가 많은 경우 독립적인 중요 피처..

참고 교재 - (위키북스) 파이썬 머신러닝 완벽 가이드 개정 2판 01. 회귀 회귀 분석 ( regression analysis ) 데이터 값이 평균 등의 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법 여러 개의 독립변수(다양한 원인들, 피처)와 한 개의 종속변수(결과, 결정 값) 간의 상관 관계를 모델링하는 기법 이때, 독립변수의 값에 영향을 미치는 회귀 계수들이 존재함. 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이 머신러닝 회귀 예측의 핵심 *지도학습 : 정답이 있는 데이터를 활용해 모델을 학습시키는 방법 ⬇⬇가장 많이 사용되는 회귀 선형 회귀 실제 값과 예측 값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식 오류 = 실제값 - 예..