데이터 분석에 대해서

막연했던 데이터 분석, 감을 잡기까지

May 18, 2025

‘데이터 분석’을 처음 접했을 때 가장 막막했던 건
어디서부터 생각해야 하는지조차 몰랐던 점이었다.

검색으로는 툴과 기법만 넘쳐났고,
정작 중요한 문제의 출발점, 데이터의 맥락, 구조의 뿌리는 잘 보이지 않았다.

이번 실습을 통해 확실히 느낀 건,
분석은 기술보다 구조와 흐름을 잡는 작업이라는 것.

    • 무엇을 알고 싶은지 파악하고
    • 필요한 정보를 선별하고
    • 그것들을 연결해 의미를 찾아가는 과정

분석은 단순히 데이터를 다루는 일이 아니라,
문제를 논리적으로 풀어나가는 사고 과정이다.


데이터 분석의 흐름

단계 설명 나의 해석
1. 목표 설정 분석 목적 정하기 “이걸 왜 분석해야 하지?” 라는 질문하기
2. 데이터 확인 데이터 점검 및 전처리 누락값 • 이상치 • 형식 등 꼼꼼히 살피기
3. 분석 방법 선택 적절한 방식 고르기 통계? 머신러닝? 문제에 따라 전략이 달라짐
4. 가설 수립 예측 또는 추측 세우기 데이터로 증명 가능한 형태로 정리
5. 가설 검증 실제 분석으로 확인 예측이 맞는지, 틀렸는지 판단
6. 문제 해결 결과로부터 인사이트 도출 문제에 대한 실질적 해결책 제시

분석 목적에 따른 전략

분석 목적 보고 싶은 결과 분석 방법/도구 쉽게 말하면…
현상 파악 지금 상태가 어떤지 기술통계 • 시각화 표 • 그래프로 ‘현재’를 설명하기
인과관계 A가 B에 영향 줬는지 회귀분석 • 구조방정식 등 “이게 이거 때문이야”라는 말의 근거 찾기
유사도 분석 비슷한 특성끼리 묶기 상관분석 • 군집 분석 유형 나누기, 특성별 그룹 만들기
예측 • 분류 미래 예측 or 그룹 구분 회귀 • 결정트리 • SVM 등 어떤 값이 나올지 미리 알아보기

실습: 직접 분석해본 교통 데이터🚌

주제: 버스 노선이 길면, 정말 사고가 더 많을까?

  • 데이터
    • 노선 거리, 정류장 통계
    • 교통사고율
    • 버스 수량
    • 버스 운수 종사자 수
  • 가설
    “버스 기사님들의 피로 누적 때문에 교통사고가 많을 거야.”

  • 결과

    반전. 제주도는 전국 평균보다 교통사고율이 낮았다.
    가설 기각.

    데이터분석처리과정

결과는 예상 밖이었지만,
그만큼 데이터를 통해 ‘사실 기반의 사고’를 할 수 있게 됐다는 게 핵심이었다.


오늘을 마치며

답을 맞히는 게 아니라,
진짜 이유를 찾아가는 과정이었다.

숫자보다 흐름,
결과보다 맥락이 더 중요하다는 걸 느꼈다.

질문을 던지고, 데이터를 통해 그 질문에 답을 찾아가는 과정이라는 걸 깨달았다.

약간의 감이, 조금 잡힌 것 같다.