목록전체 글 (44)
kang's study

트리의 앙상블 (tree ensemble)¶ 정형 데이터에서 가장 뛰어난 성능을 내는 머신러닝 알고리즘 중 하나¶ 랜덤포레스트 (RandomForest) 결정트리를 랜덤하게 만들어 숲을 이룬다. 사이킷런에 구현된 앙상블 학습 알고리즘으로 학습 In [1]: import numpy as np import pandas as pd from sklearn.model_selection import train_test_split In [2]: # 데이터 불러오기 wine = pd.read_csv('https://bit.ly/wine_csv_data') # 특성변수와 타겟변수 구분 data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to..

교차 검증(cross validation)과 그리드 서치(Grid Search) 검증 세트 (validation set)¶ 데이터의 열 중 타깃 배열과 특성 배열을 구분¶ In [31]: import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') 데이터를 훈련세트와 테스트 세트로 나누기¶ In [32]: data = wine[['alcohol', 'sugar', 'pH']].to_numpy() target = wine['class'].to_numpy() In [33]: from sklearn.model_selection import train_test_split train_input, test_input, train_target, tes..

회귀에서 MSE 성능 평가와 손실함수로 사용가능, 가중치의 함수 (미분가능) 분류에서 정확도는 성능평가, 손실함수는 로지스틱 손실함수를 사용한다.¶ 결정 트리 (Decision tree)¶ 새로운 분류 문제 와인 분류하기¶ In [26]: import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') In [27]: wine.head(3) # class는 타깃값 0이면 레드, 1이면 화이트 → 화이트 와인이 양성 # 이진 분류 문제 Out[27]: alcohol sugar pH class 0 9.4 1.9 3.51 0.0 1 9.8 2.6 3.20 0.0 2 9.8 2.3 3.26 0.0 In [28]: wine.info() # data f..