본문 바로가기
데이터 사이언스 노트

데이터와 DIKW 피라미드

by KENKEN01 2024. 2. 3.

목차

    보름달물해파리 (출처 : https://pixabay.com/photos/jellyfish-underwater-sea-aquarium-5275858/)

    知彼知己 百戰不殆
    (지피지기 백전불태)
    적을 알고 나를 알면 백번 싸워도 위태로움이 없다.
    - 손자병법 3장 모공

     

     꽤 유명한 말이기도 하고 , 여러 미디어에서도 한번쯤은 본적이 있는 내용이죠.

     

     데이터과학에서도 위처럼 말할 수 있는지 모르겠지만

     그래도 , 데이터 과학을 공부하는 거라면 우리가 다루어야 할 "데이터"라는 상대를 잘 알고 , 또 나의 현재 실력을 잘 파악하고 부족한 점이 뭔지를 잘 안다면 더 나은 성장을 할 수 있을 것 같네요!

     

    그래서 이번에는 데이터란 무엇인지 , 그리고 데이터가 우리가 활용할 수 있는 모양으로 단계적으로 변해가는 단계를 표현한 DIKW 피라미드에 대해서 포스팅 하려고 합니다!.

     

    데이터란

     

     

    문자 , 숫자  , 소리 , 그림 , 영상 , 단어 등의 형태로 된 의미 단위이다.
    보통 연구나 조사 등의 바탕이 되는 재료를 말하며 , 자료를 의미있게 정리하면 정보가 된다.
    (wikipedia)

     

     위는 , 위키피디아에서의 데이터에 대한 정의 입니다.

     

     그런데 , 여기에서 마지막 부분을 잘 보면 "정보"라는 말이 있습니다. 위의 정의대로 보면 데이터와 정보는 다르게 본다는 것인데 먼저 정보에 대해서 생각을 해보면 저희는 일상생활 속에서도 많은 정보를 접하고 , 그리고 사용하고 있죠.

     

    • 이 근처에 맛있는 카페가 있어
    • 새로 나온 영화 평이 좋아
    • A 에서 B까지 가려면 1시간 정도 걸리는 것 같아

     그러면 , 위처럼 판단하게 된 이유가 있을 것입니다. 첫번째는 리뷰를 한 사람의 수가 많았고 동시에 별점이 높았거나 , 두번째도 관람객 수가 많고 , 그리고 평이 좋고 , 세번째 같은 경우에는 네비게이션 앱을 사용했더니 그정도 시간이 나왔다든지 ,

     

     이렇게 우리가 판단을 할 수 있게 해주는 수치 , 혹은 문자 등의 근거를 데이터라고 할 수 있습니다.

     

     위의 데이터들은 어떠한 가공을 거친 것이 아니고 , 순수하게 기록된 자료들이죠 , 그렇기 때문에 데이터는 아직 가공되지 않고 순수하게 기록된 상태의 자료들 이라고 생각할 수 있습니다.

     

    데이터의 형태

     데이터는 평점이나 , 관람객 수처럼 수치적으로만 되어있는 것이 아니고 문자 , 소리 , 그림 , 영상 등 여러가지 형태가 있습니다.

     

     크게는 아래와 같이 3가지 형태로 데이터가 분류할 수 있습니다.

     

    • 정형 데이터 ( Structured Data)
    • 반정형 데이터 ( Semi-structured Data)
    • 비정형 데이터 (Unstructured Data)

     

    1. 정형 데이터 ( Structured Data)

     정형 데이터는 데이터의 형태가 정해진 데이터 라고 말할 수 있습니다.

     

    대표적인 것으로는 스프레드시트 , 데이터베이스 등이 있습니다.

    정형 데이터의 예시

     

    2. 반정형 데이터 ( Semi-structured Data)

     반정형 데이터는 정형 데이터와 같이 , 형태가 정해져 있는 데이터이지만 다른 점은 데이터 안에 해당 데이터의 구조에 대한 설명이 같이 들어가 있다는 차이점을 보이는 데이터입니다.

     

     대표적인 것으로는 JSON , XML 등이 있습니다.

    반정형 데이터의 예시

     

    3. 비정형 데이터 ( Unstructured Data)

     비정형 데이터는 위의 두 데이터와는 다르게 , 완전히 형태가 정해져 있지 않은 데이터입니다.

     

     대표적인 것으로는 문자 , 영상 , 이미지 등이 있습니다.

    비정형 데이터의 예시

     

    DIKW 피라미드

     

    DIKW 피라미드

     

     위에서 "데이터"와 "정보"가 구분이 되어있다고 표현한 부분이 있었습니다.

     

     정보의 예시와 그리고 데이터의 정의를 통해서 정리를 하자면 데이터는 기록된 순간부터 가공되지 않고 순수한 형태로 남아있는 자료를 말하며 , 정보는 해당 데이터를 통해서 얻은 성찰을 데이터에 부여한 것이라고 할 수 있습니다.

     

     위의 내용을 토대로 생각한다면 , 데이터에서 정보로 "변화" 할 수 있는 것이라고 생각이 듭니다.

     

     그리고 실제로 데이터 과학에서 순수한 상태의 데이터를 분석하여 성찰을 얻는 과정이 존재하는데 , 데이터 과학에서는 해당 성찰을 패턴이라 부르기도 합니다. 그래서 해당 패턴을 데이터에 부여를 하면 정보가 됩니다.

     

     그래서 이러한 데이터의 변화를 계층적으로 표현한 체계(?) 와 같은 것이 있는데 그것이 DIKW 피라미드 입니다.

     

     아래에서 위로 올라가며 , 자료는 정보로 바뀌고 , 정보는 지식으로 바뀌고 , 지식은 지혜로 바뀐다는 것을 알 수 있습니다.

     

     그러면 각 계층은 어떤 것을 의미하는 걸까요?

     

    계층 의미
    자료 (Data) 아직 가공되지 않은 순수한 자료를 뜻함
    정보 (Information) 자료를 분석하여 얻은 성찰을 자료에 부여한 것을 뜻함
    지식 (Knowledge) 정보를 토대로 , 미래를 예상하거나 예측을 하여 얻은 결과물을 뜻함
    지혜 (Wisdom) 지식이 축적이 되면서 , 많은 모인 지식을 기반으로 해서 얻은 성찰이나 , 아이디어를 뜻함

     

     위처럼 , 표로 정리할 수 있습니다.

     

     

     우리가 사용하는 데이터는 위처럼 계층적으로 변할 수도 있습니다.

     

     그리고 해당 과정들은 자료에서 정보로 변하는 부분에서는 "데이터분석"이 , 그리고 정보가 지식으로 변하는 부분에서는 "기계학습"이 , 그리고 지식이 쌓이고 지혜를 얻어내는 과정에서는 "의사결정"이 들어가기에 , DIKW 피라미드를 통해서 우리가 다루는 데이터가 어떤 식으로 변하며 어떤 곳에 쓰이는지 전체적인 프로세스를 볼 수 있기 때문에 정리해보았습니다!.

     

     이번에 블로그 작성하면서 기본적인 내용이지만 그래도 다른 블로그도 참고하고 , 하면서 아직 내 지식으로 만들지 못한 부분도 많아서 더 힘내야 겠다고 생각했네요 , 틀린 부분이나 지적 있으시면 댓글에 부탁드립니다! ㅎㅎ

    '데이터 사이언스 노트' 카테고리의 다른 글

    판다스(Pandas)란?  (0) 2024.07.15
    데이터 분석 방법론  (0) 2024.02.13
    데이터 사이언스와 데이터 사이언티스트  (0) 2024.01.29
    나의 tistory 첫글  (0) 2024.01.09