반응형

머신러닝 2

[ 머신러닝 프로그램 ] k-최근접 이웃 분류 알고리즘 ver3 - 데이터 전처리

버전2의 머신러닝 프로그램은 완벽해보인다. 하지만 어떤 도미를 넣으면 빙어라고 판단하기도 한다! 이는 데이터들이 덜 가공되었기 때문이다. 이런 부분을 데이터 전처리로 해결해보자! 기본 데이터 준비 #머신러닝 프로그램 ver3 import numpy as np import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split #도미의 정보 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32...

공부/머신러닝 2023.02.13

[ 머신러닝 프로그램 ] k-최근접 이웃 분류 알고리즘 ver2 - 테스트 세트 추가

버전 1의 머신러닝 프로그램은 훈련 데이터 세트와 테스트 데이터 세트가 다르지 않았다. 이는 시험 보기전 답을 다 알려준 상태라고 볼 수 있다..! 테스트 세트 설정 보통은 훈련 데이터 세트에서 일부를 테스트 데이터로 활용한다. 근데 여기서 주의할 점은 훈련데이터에 한 종류의 데이터만 편향되면 안된다는 것이다. 전에 했던 데이터들을 다시 떠올려보면 도미가 35개 빙어가 14개 있었다. 여기서 도미 35개를 훈련세트로 하고 빙어 14개를 테스트세트로 하면 정확도는 0이 나올 것이다. 이를 샘플링 편향이라고 한다. 이를 방지하려면 훈련세트와 테스트세트를 잘 섞어줘야한다. 넘파이라는 라이브러리를 사용하면 이러한 작업을 편리하게 할 수 있다. 넘파이의 함수들을 사용하려면 리스트들을 넘파이배열로 바꿔줘야한다. 그..

공부/머신러닝 2023.02.11
반응형