01-3 마켓과 머신러닝

가장 간단한 머신러닝 알고리즘 중 하나인 K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련합니다.

Situation & Target

마켓에서 팔기 시작한 생선을 프로그램으로 분류한다고 가정해보자. 어떻게 프로그램을 만들어야 할까?
생선 데이터셋의 출처: https://www.kaggle.com/aungpyaeap/fish-market

Action & Result

도미 데이터 준비하기

bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

import matplotlib.pyplot as plt

plt.scatter(bream_length, bream_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

35마리의 도미
첫번째 도미의 길이는 25.4cm, 무게는 242.0g. 각 도미의 특징을 길이와 무게로 표현한 것을 특성(feature)이라 한다.

빙어 데이터 준비하기

smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]

plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

14마리의 빙어
빙어는 길이가 늘어나더라도 무게가 많이 늘지 않아 무게가 길이에 영향을 덜 받는다고 할 수 있다.

첫 번째 머신러닝 프로그램

length = bream_length+smelt_length
weight = bream_weight+smelt_weight

fish_data = [[l, w] for l, w in zip(length, weight)]

print(fish_data)

fish_target = [1]*35 + [0]*14
print(fish_target)

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()

kn.fit(fish_data, fish_target)

kn.score(fish_data, fish_target)

도미와 빙어 데이터를 합쳐 length, weigth 리스트로 만든다.
[ length, weigth ]가 하나의 원소로 구성된 리스트 fish_data를 만든다.
생선 49개의 길이와 무게를 모두 준비했으니. 정답 데이터를 준비해야 한다.
도미와 빙어를 순서대로 나열했기 때문에 도미 1, 빙어 0으로 표현하여,
1이 35번 등장하고 0이 14번 등장하는 정답 데이터를 준비한다.
KNeighborsClassifier를 import 하고 KNeighborsClassifier() 객체를 만든다.
이 객체에 fish_data, fish_target를 전달하여 도미를 찾기 위한 기준을 학습시킨다.
fit() 메서드가 이런 역할을 맡는다.
score() 메서드를 통해 1.0의 수치를 도출하였다. 정확도 100% 성능의 모델임을 확인할 수 있다.

K-최근접 이웃 알고리즘

plt.scatter(bream_length, bream_weight)
plt.scatter(smelt_length, smelt_weight)
plt.scatter(30, 600, marker='^')
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

kn.predict([[30, 600]])

for i, data in enumerate(kn._fit_X):
    if i%5 == 0:
        print()  # 5번째 데이터 이후 줄바꿈
    print(data, end=" ")

print(kn._y)

kn49 = KNeighborsClassifier(n_neighbors=49)

kn49.fit(fish_data, fish_target)
kn49.score(fish_data, fish_target)

print(35/49)

삼각형으로 표시되는 [300, 60]의 데이터를 입력. 이 삼각형은 도미와 방어중 어디에 속할 까?
kn._fit_X에 fish_data, kn._y에 fish_target을 가지고 있다.
참고 데이터를 49개로 한 kn49 모델을 사용하여 예측
kn49 모델은 도미만 올바르게 맞히기 때문에, score는 0.7242...도출
49개중 35개를 정확히 맞힐 확률(35/49) = 0.7242...
따라서, 도미 예측 모델은 도미를 완벽하게 분류할 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'데이터 분석 > 혼자공부하는 머신러닝+딥러닝' 카테고리의 다른 글

02_2 데이터 전처리 (3)	2024.11.17
02_1 훈련 세트와 테스트 세트 (2)	2024.11.17

Toddler_AD 님의 블로그

01-3 마켓과 머신러닝

가장 간단한 머신러닝 알고리즘 중 하나인 K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련합니다.

Situation & Target

Action & Result

'데이터 분석 > 혼자공부하는 머신러닝+딥러닝' 카테고리의 다른 글

티스토리툴바

01-3 마켓과 머신러닝

가장 간단한 머신러닝 알고리즘 중 하나인 K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련합니다.

Situation & Target

Action & Result

'데이터 분석 > 혼자공부하는 머신러닝+딥러닝' 카테고리의 다른 글

관련글

티스토리툴바