머신러닝과 딥러닝의 확실한 차이
오늘 아침, 날씨 앱을 열었을 때 “오늘은 비가 올 확률이 80%”라는 예보를 확인했다.
그리고 며칠 전 쿠팡에선 내가 필요할 법한 제품을 척척 추천해주기도 했다.
가끔은 이런 생각이 든다.
“어떻게 나보다 나를 더 잘 알 수 있지?”
이 모든 건 ‘예측’을 잘하는 기술, 바로 머신러닝 덕분이다.
그리고 그 뒤엔 조용히, 하지만 강력하게 작동하는 ‘통계’가 있다.
머신러닝의 시작은 언제나 단순한 질문에서 출발한다.
머신러닝의 핵심 개념
1. 회귀
“이 숫자들을 보고 다음 숫자는 뭘까?”
이 질문에 답하는 가장 기본적인 방법이 바로 회귀(Regression)이다.
통계에서 배웠던 회귀 분석이
머신러닝에서도 리니어 리그레션(선형 회귀)이라는 이름으로 활용된다.
구분 | 설명 |
---|---|
회귀(Regression) | 숫자 데이터를 넣어서 숫자를 예측하는 모델 |
예시 | 집값 예측, 판매량 예측, 기온 예측 등 |
즉, 입력도 숫자, 결과도 숫자인 모델이 회귀다.
“2026년 이 집값은 얼마일까?”처럼 수치를 예측할 때 사용한다.
2. 분류
반면에 결과가 숫자가 아니라 카테고리일 경우는 어떨까?
“이 메일은 스팸일까 아닐까?”
이런 문제를 해결하는 것이 바로 분류(Classification) 모델이다.
입력값을 보고 그에 맞는 ‘클래스’를 예측한다.
구분 | 설명 |
---|---|
분류(Classification) | 데이터를 보고 어떤 그룹에 속하는지 예측 |
예시 | 스팸 메일 필터링, VIP 고객 분류, 종양 진단 등 |
이메일이 들어오면, AI는 내용을 분석해
‘스팸함으로 보낼지’, ‘받은편지함으로 보낼지’를 결정한다.
3. 군집(Clustering)
그런데 가끔은 정답이 아예 없는 문제도 있다.
“이 사진들은 비슷한 것끼리 묶을 수 있을까?”
이때 사용하는 기법이 군집(Clustering)이다.
정답 없이 데이터를 묶는 방식이다.
구분 | 설명 |
---|---|
군집(Clustering) | 라벨 없이 유사한 데이터끼리 묶기 |
예시 | 고객 세그먼트 분류, 이미지 유사도 기반 묶음 등 |
모양, 색, 질감 등 어떤 기준으로 묶을지는 AI가 데이터의 패턴을 보고 스스로 판단한다.
딥러닝
머신러닝의 하위 개념이다.
여러 개의 수식을 겹겹이 쌓아 만든 구조,
즉, 인공 신경망(Neural Network)을 활용한다.
“여러 데이터를 입력받고,
각 데이터에 가중치를 곱하고,
결과를 내는 수식들을 여러 층으로 연결한 구조”
예를 들어, 자동차 판매량을 예측할 때
날씨, 소득수준, 유가 가격, 금리, 계절 요인, 마케팅 예산, 경쟁사 가격 변화, 신모델 출시 일정 등
이러한 변수들을 다 넣고, 각 값에 적절한 가중치를 곱해서 결과를 계산하는 방식이다.
딥러닝은 이 과정을 수천 수만 번 반복하며, 정확도를 극대화한다.
생성형 AI의 시대
머신러닝의 발전은 예측을 넘어 생성까지 이르렀다.
“AI가 텍스트, 이미지, 음악 등을 직접 만들어낸다?”
이게 바로 생성형 AI(Generative AI)이다.
ChatGPT는 텍스트를 생성하고, DALL·E는 이미지를 생성한다.
구분 | 생성형 AI |
---|---|
생성 결과 | 텍스트, 이미지, 음악, 영상 등 |
대표 예시 | ChatGPT, DALL·E, Stable Diffusion 등 |
단순한 분류나 예측을 넘어 이제는 새로운 콘텐츠를 만들어내는 시대가 열린 것이다.
통계와 머신러닝의 분석 구조
두 기술의 가장 큰 차이는 해석 가능성이다.
구분 | 통계 | 머신러닝 |
---|---|---|
방식 | 사람이 수동으로 분석 | 기계가 자동으로 학습 |
데이터 | 비교적 적음 | 대량의 데이터 |
해석 | 수학적으로 설명 가능 (화이트박스) | 내부 로직 파악 어려움 (블랙박스) |
통계 : 왜 이런 결과가 나왔는지 설명할 수 있는 화이트박스.
머신러닝 : 수많은 연산과 학습을 거쳐 나온 결과지만,
그 내부는 보기 어려운 블랙박스에 가깝다.
목적에 따른 모델 선택
우리는 이 둘의 장점을 잘 이해하고,
필요한 곳에 통계를, 적절한 곳에 머신러닝을 쓰는 지혜가 필요하다.
1.데이터를 예측하고 싶다면? ➡️ 회귀
2.데이터를 분류하고 싶다면? ➡️ 분류
3.비슷한 것끼리 묶고 싶다면? ➡️ 군집
4.뭔가를 창작하고 싶다면? ➡️ 생성형 AI
오늘을 마치며
이제는 단순히 데이터를 ‘보는’ 것을 넘어서,
데이터로부터 예측하고, 분류하고, 생성까지 가능한 시대에 살고 있다.
머신러닝의 모든 시작점은 ‘데이터’며,
그 뿌리는 여전히 통계라는 사실을 기억해야 한다.
우리가 배우는 통계는 단순한 숫자놀이가 아니라,
AI의 기반이 되는 언어다.