정형 비정형 반정형 데이터 예시
데이터 분석을 시작하면 가장 먼저 마주하는 개념이 바로 정형, 비정형, 반정형 데이터입니다. 같은 데이터라도 구조화 정도에 따라 처리 방법과 분석 난이도가 완전히 달라지죠. 엑셀처럼 깔끔한 표 형태도 있고, SNS 텍스트처럼 자유로운 형식도 있으며, JSON처럼 중간 형태도 존재합니다. 이 글에서는 세 가지 데이터 유형의 차이점을 실생활 예시와 함께 명확하게 정리해드립니다.
정형 데이터는 표 형태로 정리된다
정형 데이터는 행과 열로 구성된 표 형태로 정리되어 있어 가장 다루기 쉬운 데이터입니다. 엑셀 스프레드시트, 데이터베이스 테이블, CSV 파일이 대표적인 예시죠. 고객 정보를 담은 테이블이라면 '이름', '나이', '성별', '구매금액' 같은 열로 구성되고, 각 행에는 한 명의 고객 데이터가 들어갑니다. 모든 데이터가 미리 정의된 스키마에 따라 저장되므로 SQL 같은 쿼리 언어로 쉽게 검색하고 집계할 수 있습니다. 은행 거래 내역, 판매 실적 데이터, 직원 급여 테이블 등 비즈니스에서 가장 흔하게 사용되는 형태입니다.





비정형 데이터는 자유로운 형식이다
비정형 데이터는 정해진 구조 없이 자유로운 형태로 존재하는 데이터를 말합니다. SNS 게시글, 이메일 본문, 유튜브 영상, 음성 녹음 파일, 사진, PDF 문서 등이 모두 비정형 데이터에 해당하죠. 예를 들어 고객 후기를 텍스트로 작성한 경우, 누구는 한 줄로 쓰고 누구는 긴 문단으로 작성하는 등 형식이 제각각입니다. 이런 데이터는 바로 분석하기 어렵고, 자연어 처리나 이미지 인식 같은 특수한 기술이 필요합니다. 하지만 전체 데이터의 80% 이상이 비정형 데이터일 만큼 양이 방대하고, 감정 분석이나 트렌드 파악 등 귀중한 인사이트를 제공합니다.
반정형 데이터는 태그로 구조를 표현한다
반정형 데이터는 정형과 비정형의 중간 형태로, 일정한 구조는 있지만 표 형태는 아닌 데이터입니다. JSON, XML, HTML 파일이 대표적인 예시죠. 웹사이트 API 응답 데이터나 웹 페이지 소스 코드가 여기에 해당합니다. 예를 들어 JSON 형식은 중괄호와 키-값 쌍으로 데이터를 표현합니다. 고객 정보를 JSON으로 나타내면 '이름:홍길동, 나이:30, 주소:서울'처럼 태그와 값이 쌍으로 저장되죠. 데이터베이스처럼 완벽하게 구조화되지는 않았지만, 태그 덕분에 어느 정도 패턴이 있어서 파싱 도구로 추출하고 분석할 수 있습니다.





실생활에서 만나는 데이터 유형 구분
실제 생활에서 이 세 가지 유형을 어떻게 구분할 수 있을까요? 온라인 쇼핑몰을 예로 들어보겠습니다. 주문 내역 테이블(주문번호, 상품명, 수량, 금액)은 정형 데이터입니다. 고객이 작성한 상품 후기 텍스트는 비정형 데이터죠. 그리고 상품 상세 페이지의 HTML 코드나 장바구니 정보를 담은 JSON 데이터는 반정형 데이터입니다. 같은 쇼핑몰에서도 목적에 따라 세 가지 유형의 데이터가 모두 생성되고 활용됩니다. SNS 게시물도 마찬가지입니다. 좋아요 수와 댓글 수는 정형, 게시글 본문은 비정형, 메타데이터를 담은 API 응답은 반정형으로 분류됩니다.
데이터 유형별 분석 도구와 방법
각 데이터 유형은 분석 도구와 방법도 다릅니다. 정형 데이터는 엑셀, SQL, 파이썬의 판다스 라이브러리로 쉽게 처리할 수 있습니다. 피벗 테이블로 집계하거나 그래프로 시각화하는 것이 직관적이죠. 비정형 데이터는 자연어 처리 라이브러리나 딥러닝 모델이 필요합니다. 텍스트 마이닝으로 키워드를 추출하거나, 이미지 분류 AI로 사진을 분석하는 식입니다. 반정형 데이터는 파싱 도구를 사용해 필요한 부분만 추출한 후 정형 데이터로 변환하는 경우가 많습니다. 최근에는 세 가지 유형을 통합해서 분석하는 빅데이터 플랫폼도 등장했습니다.






