본문 바로가기
인공지능

[AI학습방법]인공지능의 학습, 그림 코딩으로 지도학습 알아보기 1장

by y은광 2024. 5. 31.
728x90

지도학습(Supervised Learning)은 머신러닝의 한 방법으로, 인공지능에게 정답을 알려주며 문제(입력)와 답(출력)이 구성된 데이터들이 주어질 때, 새로운 문제를 풀 수 있는 함수, 패턴을 찾는 방법입니다. 데이터에 정확한 예측을 할 수 있는 일반화된 모델을 개발합니다.

 

인공지능과 포함관계
<인공지능 포함관계, 출처 : y은광>

 

 

□ 인공지능 포함관계

인공지능 단계는 소프트웨어 인공지능 머신러닝 딥러닝 순으로 문제 해결 기법의 계층으로 나타납니다. 머신러닝은 지도학습, 비지도 학습, 강화학습으로 구분합니다. 딥러닝은 머신러닝의 학습 구분을 모두 포함하며, 다층을 이용한 인공 신경망으로 대규모 데이터에서 복잡한 패턴을 학습합니다.

 

1. 소프트웨어

소프트웨어(software)는 컴퓨터나 전자 기기가 특정 작업을 수행할 수 있도록 지시하는 명령어나 데이터의 집합입니다. 또한 컴퓨터 하드웨어와 함께 작동하여 다양한 기능을 수행하며, 이러한 소프트웨어는 크게 두 가지 주요 범주로 시스템 소프트웨어와 응용소프트웨어로 분류됩니다.

 

2. 인공지능

인공지능(Artificial Intelligence, AI)은 인간의 학습추론, 문제 해결, 인지 등의 능력을 모방하거나 인간의 지능으로 할 수 있는 사고, 학습, 자기 개발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하고 수행할 수 있도록 하는 기술 및 과학 분야입니다.

 

3. 머신러닝

머신러닝(Machine Learning)은 인공지능(AI)의 한 분야로, 컴퓨터가 데이터로부터 학습하여 스스로 예측이나 결정을 내릴 수 있도록 하는 알고리즘과 기술을 말합니다. 이는 명시적으로 프로그래밍되지 않은 작업을 수행할 수 있는 컴퓨터 시스템을 개발하는 것을 목표로 합니다.

 

머신러닝의 기본 아이디어는 데이터를 분석하여 특정 패턴을 찾고, 이를 기반으로 새로운 데이터에 대해 예측을 하는 것입니다. 이러한 과정을 통해, 시스템은 데이터로부터 학습하며 점차 정확도를 향상할 수 있습니다. 

 

4. 딥러닝

딥러닝은 머신러닝의 한 분야로, 인간의 뇌 구조와 작동 방식을 모방한 인공 신경망을 기반으로 합니다. 이러한 인공 신경망은 데이터로부터 복잡한 패턴과 특징을 스스로 학습할 수 있는 다층적인 구조로 되어 있습니다. 딥러닝은 특히 대량의 데이터로부터 복잡한 패턴을 학습하는데 강력한 능력을 보여줍니다.

 

□ 지도학습(supervised learning) 방법

지도학습방법은 입력 데이터와 그에 상응하는 정답을 받습니다. 목표는 제공된 데이터로부터 학습하여 새로운 데이터에 대해 정확한 예측이나 분류를 수행하는 것입니다. 지도학습은 크게 두 가지 유형의 문제에 적용됩니다. 회귀(Regression)와 분류(Classification)가 있습니다.

 

1. 회귀(Regression)

회귀(Regression)는 관찰된 연속형 변수들 사이의 관계를 모델링하는 통계적 방법입니다 회귀 분석의 목적은 독립변수(예측 변수)와 종속 변수(응답 변수) 사이의 관계를 찾아내는 것입니다. 이러한 분석을 통해 새로운 데이터에 대한 예측이 가능 해집니다. 회귀 방법은 다양한 종류가 있으며, 각각의 방법은 데이터의 특성과 분석의 목적에 따라 선택됩니다.

 

단순 선형 회귀 (Simple Linear Regression) : 하나의 독립변수와 하나의 종속변수 사이의 선형 관계를 모델링합니다. 모델은 최소 제곱법을 사용하여 직선의 기울기와 절편을 찾습니다.

 

다중 선형 회귀(Multiple Linear Regression) : 두 개 이상의 독립변수를 사용하여 종속변수를 예측합니다. 각 독립변수의 계수를 찾기 위해 최소제곱법을 사용합니다.

 

비선형 회귀(Non-linear Regression)

비선형 회귀는 독립변수와 종속변수 사이의 관계가 비선형일 때 사용됩니다. 다양한 비선형 함수가 모델링에 사용될 수 있으며, 이는 데이터의 패턴과 분포에 따라 결정됩니다.

 

로지스틱 회귀(Logistic Regression)

로지스틱 회귀는 종속변수가 범주형일 때 사용되는 회귀 분석 방법입니다. 주로 이진 분류 문제에 사용되며, 선형 회귀와 비슷하지만 종속 변수가 로지스틱 함수를 통해 모델링 됩니다..

 

릿지 회귀(Ridge Regression)와 라쏘 회귀(Lasso Regression)

릿지 회귀와 라쏘 회귀는 과적합을 방지하기 위해 사용되는 선형 회귀의 변형입니다. 릿지 회귀는 계수의 제곱합에 대한 페널티를 추가하고 라쏘 회귀는 계수의 절댓값의 합에 대한 페널티를 추가합니다. 이러한 방법은 모델의 복잡성을 줄이고 일반화 능력을 높입니다.

 

다항 회귀(Polynomial Regression)

다항 회귀는 독립변수의 고차항을 사용하여 종속 변수와의 관계를 모델링합니다. 이 방법은 선형 회귀를 확장한 것으로 비선형 관계를 포착할 수 있습니다.

 

2. 분류(Classification)

지도학습에서 분류(Classification)는 주어진 입력 데이터가 특정 클래스나 범주에 속하는지를 예측하는 문제를 다룹니다. 분류 알고리즘은 레이블이 있는 데이터를 사용하여 학습하며, 새로운 데이터가 주어졌을 때 어떤 클래스에 속하는지 예측합니다. 분류는 이진 분류(binary classification)와 다중 클래스 분류(multi-class classification)로 나눌 수 있습니다.

 

이진 분류(Binary Classification)

이진 분류는 두 개의 클래스 중 하나로 데이터를 분류하는 문제입니다. 예를 들어, 스팸 이메일 분류 문제에서는 이메일이 스팸인지 아닌지를 예측합니다.

 

다중 클래스 분류(Multi-class Classification)

다중 클래스 분류는 세 개 이상의 클래스 중 하나로 데이터를 분류하는 문제입니다. 예를 들어, 손글씨 숫자 인식 문제에서는 숫자 0부터 9까지의 10개 클래스 중 하나로 이미지를 분류합니다

 

3. 그림 코딩 보기

조금 더 쉽게 이해할 수 있도록 스크래치 코딩 사진을 보겠습니다. 

텍스트에 메서드와 무엇이라는 레이블에 적절한 단어를 입력한 후 인공지능을 학습합니다. 인공지능은 이때 레이블을 기반으로 답을 도출하는데 도출할 수 있는 정답도 미리 만들어서 기억시키는 것입니다.

 

스크레치 코딩
<출처 :y은광>

 

 

그게 뭔 대 라는 질문에 인공지능은 위에 입력했던 무엇 레이블 자료에서 단어들을 학습하고 계산하여 학습 훈련한 후 인공지능이 출력층을 보여주는 모습입니다. 

엔트리 코딩
<출처 : y은광>

 

 

이번에는 엔트리를 이용한 동물 사진을 활용한 분류 모습입니다. 강아지와 고양이 사진을 따로 모아서 저장 후 각각 레이블에 사진을 입력합니다. 이때 강아지 같은 고양이 또는 고양이 같은 강아지 사진을 활용하여 인공지능을 시험해 보았습니다. 처음에는 강아지 사진 5개와 고양이 사진 15개를 학습시킨 후 결과를 보면 오류가 나오는 것을 볼 수 있습니다. 이처럼 학습자료가 부족하면 고양이 같은 자세를 취한 강아지를 고양이로 인식하는 오류가 나옵니다.

오류사진
<출처 : y은광>

 

 

다음은 강아지 사진 16개와 고양이 사진 15개 비슷하게 학습시킨 후 결과입니다. 고양이처럼 앉아 있는 강아지를 인식할 수 있도록 많은 자료를 저장하고 학습 훈련 하면 인공지능은 이처럼 강아지를 99.78%로 인식하게 되는 것입니다.

정상
<출처: y은광>

 

지도학습에서 중요한 것은 데이터입니다. 2015년에 구글에서 흑인 여성을 고릴라로 인식하며 구글에서 빠른 사과를 하기도 했습니다. 우리가 인공지능을 안심하고 편리하게 사용하기 위해서는 이처럼 오류가 없어야 하는데 많은 자료와 학습 시간이 필요합니다. 올바르고 정확한 자료를 많이 학습시키고 훈련해야 인공지능이 제대로 된 답을 도출할 수 있습니다. 또한 편견 없는 자료로 누구나 공평하고 편향성 없이 사용할 수 있어야 합니다.

 

감사합니다.