목록[학습 공간] (38)
kang's study
회귀에서 MSE 성능 평가와 손실함수로 사용가능, 가중치의 함수 (미분가능) 분류에서 정확도는 성능평가, 손실함수는 로지스틱 손실함수를 사용한다.¶ 결정 트리 (Decision tree)¶ 새로운 분류 문제 와인 분류하기¶ In [26]: import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') In [27]: wine.head(3) # class는 타깃값 0이면 레드, 1이면 화이트 → 화이트 와인이 양성 # 이진 분류 문제 Out[27]: alcohol sugar pH class 0 9.4 1.9 3.51 0.0 1 9.8 2.6 3.20 0.0 2 9.8 2.3 3.26 0.0 In [28]: wine.info() # data f..
확률적 경사 하강법 (Stochastic Gradient Descent) 대표적인 점진적 학습 알고리즘 훈련데이터가 한 번에 준비되는 것이 아니라 조금씩 전달되는 경우 한번 학습할 때 랜덤하게 추출한 일부 데이터에 대해 가중치를 조절¶ 점진적 학습 : 새로운 데이터가 들어와도 가중치와 절편을 유지하며 업데이트하는 최적화 방법¶ 손실함수 (나쁜 정도 측정함수) 분류에서 정확도의 대안으로 로지스틱 손실함수를 사용한다.¶ 이진 크로스 엔트로피 손실함수 예측이 잘 맞으면 손실이 낮고 예측이 안 맞으면 손실이 높게끔 Trick으로 값조정(log 사용)¶ 데이터 준비¶ In [1]: import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') In ..
로지스틱 회귀¶ 럭키백의 확률¶ 데이터 준비하기¶ In [1]: import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() Out[1]: Species Weight Length Diagonal Height Width 0 Bream 242.0 25.4 30.0 11.5200 4.0200 1 Bream 290.0 26.3 31.2 12.4800 4.3056 2 Bream 340.0 26.5 31.1 12.3778 4.6961 3 Bream 363.0 29.0 33.5 12.7300 4.4555 4 Bream 430.0 29.0 34.0 12.4440 5.1340 In [2]: print(pd.unique(fish['Sp..
다중회귀 (multiple regression)¶ ② 규제¶ In [40]: import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0, 218.0, 300.0, 2..
다중회귀 (multiple regression)¶ ② 규제¶ In [40]: import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0, 218.0, 300.0, 2..
다중회귀 (multiple regression) ① 특성공학¶ 데이터 준비¶ pandas는 데이터 분석 라이브러리 pandas의 핵심 데이터 구조는 데이터프레임(dataframe)이다. In [22]: import pandas as pd In [23]: df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 print(perch_full.shape) (56, 3) In [24]: import numpy as np perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 11..
선형 회귀¶ k-최근접 이웃의 한계 훈련 샘플 범위 밖의 데이터 예측이 힘들다 추세를 반영하지 못한다. In [2]: import numpy as np perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, ..
k-최근접 이웃회귀 농어의 무게를 예측하라 회귀 regression -> 타깃 (임의의 숫자) 지도학습 : 분류, 회귀 In [ ]: import numpy as np In [ ]: # 농어의 무게를 예측하라 # 회귀 regression -> 타깃 (임의의 숫자) # 지도학습 : 분류, 회귀 perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0,..
데이터 전처리 이진 분류 binary classfication : 찾고자 하는 대상 (양성 클래스:1, 음성 클래스:0) 도미 1 빙어 0 넘파이로 데이터 준비 데이터 형태 행은 샘플 열은 특성을 둔 모양을 필요로 한다. In [ ]: import numpy as np In [ ]: bream_length = [25.4, 26.3 ,26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight ..
데이터 분리 머신러닝 1) 지도학습 : 입력과 타겟이 있는 데이터를 갖고 학습 ★ 사이킷런은 데이터를 행:샘플, 열:특성으로 구성할 것으로 기대한다. 2) 비지도학습 : 입력 있는 데이터만 갖고 학습 3) 강화학습 : 행동의 결과를 개선해 나가는 학습 (ex. 알파고) -> 핸즈온 머신러닝 데이터 준비 In [2]: # 도미 데이터 bream_length = [25.4, 26.3 ,26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39...