데이터 분석에 대해서
막연했던 데이터 분석, 감을 잡기까지
May 18, 2025
‘데이터 분석’을 처음 접했을 때 가장 막막했던 건
어디서부터 생각해야 하는지조차 몰랐던 점이었다.
검색으로는 툴과 기법만 넘쳐났고,
정작 중요한 문제의 출발점, 데이터의 맥락, 구조의 뿌리는 잘 보이지 않았다.
이번 실습을 통해 확실히 느낀 건,
분석은 기술보다 구조와 흐름을 잡는 작업이라는 것.
-
- 무엇을 알고 싶은지 파악하고
-
- 필요한 정보를 선별하고
-
- 그것들을 연결해 의미를 찾아가는 과정
분석은 단순히 데이터를 다루는 일이 아니라,
문제를 논리적으로 풀어나가는 사고 과정이다.
데이터 분석의 흐름
단계 | 설명 | 나의 해석 |
---|---|---|
1. 목표 설정 | 분석 목적 정하기 | “이걸 왜 분석해야 하지?” 라는 질문하기 |
2. 데이터 확인 | 데이터 점검 및 전처리 | 누락값 • 이상치 • 형식 등 꼼꼼히 살피기 |
3. 분석 방법 선택 | 적절한 방식 고르기 | 통계? 머신러닝? 문제에 따라 전략이 달라짐 |
4. 가설 수립 | 예측 또는 추측 세우기 | 데이터로 증명 가능한 형태로 정리 |
5. 가설 검증 | 실제 분석으로 확인 | 예측이 맞는지, 틀렸는지 판단 |
6. 문제 해결 | 결과로부터 인사이트 도출 | 문제에 대한 실질적 해결책 제시 |
분석 목적에 따른 전략
분석 목적 | 보고 싶은 결과 | 분석 방법/도구 | 쉽게 말하면… |
---|---|---|---|
현상 파악 | 지금 상태가 어떤지 | 기술통계 • 시각화 | 표 • 그래프로 ‘현재’를 설명하기 |
인과관계 | A가 B에 영향 줬는지 | 회귀분석 • 구조방정식 등 | “이게 이거 때문이야”라는 말의 근거 찾기 |
유사도 분석 | 비슷한 특성끼리 묶기 | 상관분석 • 군집 분석 | 유형 나누기, 특성별 그룹 만들기 |
예측 • 분류 | 미래 예측 or 그룹 구분 | 회귀 • 결정트리 • SVM 등 | 어떤 값이 나올지 미리 알아보기 |
실습: 직접 분석해본 교통 데이터🚌
주제: 버스 노선이 길면, 정말 사고가 더 많을까?
- 데이터
-
- 노선 거리, 정류장 통계
-
- 교통사고율
-
- 버스 수량
-
- 버스 운수 종사자 수
-
가설
“버스 기사님들의 피로 누적 때문에 교통사고가 많을 거야.” -
결과
반전. 제주도는 전국 평균보다 교통사고율이 낮았다.
가설 기각.
결과는 예상 밖이었지만,
그만큼 데이터를 통해 ‘사실 기반의 사고’를 할 수 있게 됐다는 게 핵심이었다.
오늘을 마치며
답을 맞히는 게 아니라,
진짜 이유를 찾아가는 과정이었다.
숫자보다 흐름,
결과보다 맥락이 더 중요하다는 걸 느꼈다.
질문을 던지고, 데이터를 통해 그 질문에 답을 찾아가는 과정이라는 걸 깨달았다.
약간의 감이, 조금 잡힌 것 같다.