목록분류 전체보기 (38)
kang's study
회귀에서 MSE 성능 평가와 손실함수로 사용가능, 가중치의 함수 (미분가능) 분류에서 정확도는 성능평가, 손실함수는 로지스틱 손실함수를 사용한다.¶ 결정 트리 (Decision tree)¶ 새로운 분류 문제 와인 분류하기¶ In [26]: import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') In [27]: wine.head(3) # class는 타깃값 0이면 레드, 1이면 화이트 → 화이트 와인이 양성 # 이진 분류 문제 Out[27]: alcohol sugar pH class 0 9.4 1.9 3.51 0.0 1 9.8 2.6 3.20 0.0 2 9.8 2.3 3.26 0.0 In [28]: wine.info() # data f..
확률적 경사 하강법 (Stochastic Gradient Descent) 대표적인 점진적 학습 알고리즘 훈련데이터가 한 번에 준비되는 것이 아니라 조금씩 전달되는 경우 한번 학습할 때 랜덤하게 추출한 일부 데이터에 대해 가중치를 조절¶ 점진적 학습 : 새로운 데이터가 들어와도 가중치와 절편을 유지하며 업데이트하는 최적화 방법¶ 손실함수 (나쁜 정도 측정함수) 분류에서 정확도의 대안으로 로지스틱 손실함수를 사용한다.¶ 이진 크로스 엔트로피 손실함수 예측이 잘 맞으면 손실이 낮고 예측이 안 맞으면 손실이 높게끔 Trick으로 값조정(log 사용)¶ 데이터 준비¶ In [1]: import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') In ..
로지스틱 회귀¶ 럭키백의 확률¶ 데이터 준비하기¶ In [1]: import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() Out[1]: Species Weight Length Diagonal Height Width 0 Bream 242.0 25.4 30.0 11.5200 4.0200 1 Bream 290.0 26.3 31.2 12.4800 4.3056 2 Bream 340.0 26.5 31.1 12.3778 4.6961 3 Bream 363.0 29.0 33.5 12.7300 4.4555 4 Bream 430.0 29.0 34.0 12.4440 5.1340 In [2]: print(pd.unique(fish['Sp..
다중회귀 (multiple regression)¶ ② 규제¶ In [40]: import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0, 218.0, 300.0, 2..
다중회귀 (multiple regression)¶ ② 규제¶ In [40]: import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0, 218.0, 300.0, 2..
다중회귀 (multiple regression) ① 특성공학¶ 데이터 준비¶ pandas는 데이터 분석 라이브러리 pandas의 핵심 데이터 구조는 데이터프레임(dataframe)이다. In [22]: import pandas as pd In [23]: df = pd.read_csv('https://bit.ly/perch_csv_data') # Data.frame형태 perch_full = df.to_numpy() # 넘파이 배열 print(perch_full.shape) (56, 3) In [24]: import numpy as np perch_weight = np.array( [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0, 11..
선형 회귀¶ k-최근접 이웃의 한계 훈련 샘플 범위 밖의 데이터 예측이 힘들다 추세를 반영하지 못한다. In [2]: import numpy as np perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36.0, 37.0, 37.0, 39.0, 39.0, 39.0, 40.0, ..
k-최근접 이웃회귀 농어의 무게를 예측하라 회귀 regression -> 타깃 (임의의 숫자) 지도학습 : 분류, 회귀 In [ ]: import numpy as np In [ ]: # 농어의 무게를 예측하라 # 회귀 regression -> 타깃 (임의의 숫자) # 지도학습 : 분류, 회귀 perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0,..
데이터 전처리 이진 분류 binary classfication : 찾고자 하는 대상 (양성 클래스:1, 음성 클래스:0) 도미 1 빙어 0 넘파이로 데이터 준비 데이터 형태 행은 샘플 열은 특성을 둔 모양을 필요로 한다. In [ ]: import numpy as np In [ ]: bream_length = [25.4, 26.3 ,26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0] bream_weight ..
데이터 분리 머신러닝 1) 지도학습 : 입력과 타겟이 있는 데이터를 갖고 학습 ★ 사이킷런은 데이터를 행:샘플, 열:특성으로 구성할 것으로 기대한다. 2) 비지도학습 : 입력 있는 데이터만 갖고 학습 3) 강화학습 : 행동의 결과를 개선해 나가는 학습 (ex. 알파고) -> 핸즈온 머신러닝 데이터 준비 In [2]: # 도미 데이터 bream_length = [25.4, 26.3 ,26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39...