본문 바로가기
Machine-Learning

빅데이터(Big Data)의 개념, 특징, 기술에 대해 알아봅시다.

by 파파공룡 2020. 8. 14.
반응형

검색엔진에서 검색하지도 않았는데, 여러분께서 혹 할만한 사이트나 광고가 잘 보이시나요?

평소 잘 구입했던 제품의 할인 상품을 쇼핑앱이 추천한 적이 있으신가요?

기업들이 활용하고 있는 빅데이터 기술의 실 사례입니다.

 

사이트 가입하실 때 '개인정보 활용 동의'에 체크를 하실텐데요.(안하면 가입이 안돼요.) 이 것을 통해 여러 기업들은 여러분의 데이터(개인정보, 예를 들면 개인 성향 및 기호품 등)를 합.법.적으로 수집하고 활용한답니다. 그럼, 빅데이터가 과연 무엇이고 또 어떤 특징을 가지고 있는지 알아볼까요?

 

 

빅데이터의 개념

 

빅데이터는 기존 데이터 보다 훨~씬 방대한 데이터로, 일반적인 방법이나 도구로는 수집 및 저장, 분석이 제한되는 정형 및 비정형 데이터를 의미합니다. 여기서 정형 데이터란 사전에 지정해 놓은 구조와 형식대로 구성되는 데이터를 의미합니다. 예로는 관계형 데이터베이스(RDB;Relational Database), 스프레드시트, CSV 데이터 등이 있습니다. 이와 반대로 비정형 데이터란 정해진 형식과 구조가 없어, 데이터를 활용 가능한 형태로 바꾸기 전에는 검색 및 분석 등이 어렵습니다. 정형 데이터가 아닌 일상적인 데이터는 모두 비정형 데이터로 이해하시면 되겠습니다. 지금 제가 작성하고 있는 본 포스트도 일정한 형식이 없기에 비정형 데이터입니다.

 

빅데이터는 서버에 모이는 데이터가 더 이상 소규모로 분석할 수 있는 수준을 뛰어넘으면서부터 그 필요성이 부각되었습니다. 여러 사람들이 기업들의 서비스를 이용하면서 남긴 데이터(개인 기호, 선택, 자주 보는 섹션, 검색어 등)가 일정 규모 이상으로 모이자, 이것을 분석하면 유의미한 정보가 나오지 않을까라는 고민을 하게 되었고요. 실제로, 상상할 수 없는 데이터가 모이니 정확도와 신뢰도까지 뒷받침되면서 본격적인 기술 형태로 구현이 되었습니다.

 

블로그나 SNS에서 소통되는 텍스트나 사진 정보를 통해 게시글 작성자의 성향뿐만 아니라, 어느 인물과 어떤 관계인지까지도 분석이 가능합니다. 그리고, 요 근래 약 10년간은 스마트폰이 비약적으로 발전했기 때문에, PC 앞에서만 인터넷에 접속할 수 있었던 과거와는 환경이 달라졌습니다. 거의 인간은 24시간 중 수면시간을 제외한 나머지 시간 동안 인터넷에 상시 연결되어 있다고 해도 과언이 아닙니다. 이러한 상황에서 데이터가 모이는 속도는 당연히 더 빨라졌습니다.

 

정리하자면, 사람들이 '빅데이터'라고 호칭했을 때 주요 의미는 두 가지 정도입니다.

1. 엄청나게 많이 수집된 정형 및 비정형 데이터

2. 위의 수집된 데이터를 유의미하게 분석하는 기술

 

즉, 빅데이터란 '데이터' 그 자체를 칭하기도 하고 '기술'을 의미하기도 합니다.

 


 

빅데이터의 특징

 

빅데이터의 특징은 3V로 요약됩니다.

1. 데이터의 양(Volume)

빅데이터에서는 어지간한 데이터는 대부분 스몰 데이터입니다. 빅데이터의 데이터 용량은 기본 단위가 테라바이트 단위입니다. 1024GB가 1TB인 것을 감안할 때, 하루에도 수십수백 테라바이트의 데이터가 쌓인다면 나중에는 감당할 수 없을 정도로 많은 데이터가 되겠죠? 하지만, 빅데이터는 TB 뿐만 아니라, 1024TB가 변환되는 PB(페타바이트), 그리고 이 1024PB가 변환되는 EB(엑사바이트) 수준의 데이터까지도 포함합니다. 정말 대단하죠?

 

2. 데이터 생성 속도(Velocity)

속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 특징입니다. 데이터 양이 많은 만큼 빠르게 분석 및 처리하지 못하는 데이터는 활용가치가 떨어집니다. 속도라는 것은 어쩌면 빅데이터가 목표로 할 필요조건이기도 하면서도, 빅데이터라면 당연히 갖추었어야 할 충분조건이기도 하겠습니다.

 

3. 형태의 다양성(Variety)

앞서 말씀드렸듯이 빅데이터는 정말 다양한 데이터 형태가 있습니다. 정형, 반정형, 비정형 등 세상에 존재하는 모든 데이터가 분석 대상이 될 수 있습니다. 데이터 형태에서의 특성을 나타내는 것이 다양성입니다.


하지만, 리서치 결과 이밖에도 최근에 세 가지의 새로운 V가 추가되고 있더군요. 

 

(추가) 새로운 3V(총 6V)

1. 정확성(Veracity)

많은 양의 데이터를 분석하고 그것을 어떠한 목적으로 활용할지 판단하기 위해서는 무엇보다도 그 데이터 자체와 분석 결과가 정확한 지가 중요할 것입니다. 이에 따라 정확성이라는 특성도 빅데이터에 요구되고 있다고 하네요.

 

2. 가변성(Variability)

데이터가 현실을 항상 대변하는 것은 아니죠. 실제로는 다른 의도로 작성하고 만든 데이터인데, 데이터 분석할 때는 의미가 본 의도와는 다르게 해석될 수 있습니다. 이러한 측면에서 데이터가 분석되는 맥락에 따라 의미가 달라질 수 있다고 하여, 가변성을 추가하는 것으로 검토하고 있습니다.

* 그나저나, 일부러 앞 글자를 V로 만든 건지 모든 특성이 V로 시작하니 신기하네요.

 

3. 시각화(Visualization)

최근에는 정보가 팩트나 유의미한 것을 포함하고 있는지 보다 제대로 이해할 수 있는 정보인지가 더 중요한 것 같아요. 회사에서도 보고서를 쓸 때 내용은 다 포함되어 있지만, 어떻게 표현하는지에 따라 이해가 잘 되기도 안되기도 하잖아요? 그렇듯, 이제는 데이터를 분석하고 처리하는 것만 중요한 것이 아니라 실제 활용할 사람들이 쉽게 활용할 수 있도록 잘 표현하는 것이 중요해지고 있습니다. 이것을 시각화라고 한답니다.

 

 


빅데이터의 가능성

 

그럼 빅데이터로 무엇을 할 수 있을 까요? 간단한 사례를 들어보겠습니다.

 

1. 의료분야

미국에서 검색엔진 내 '독감 증상'이라는 키워드가 갑자기 대규모로 입력되기 시작하자, 빅데이터를 활용하여 질병관리센터(CDC) 보다 빨리 독감 유행시기를 판단할 수 있었다고 합니다. 

 

이 뿐만 아니라, 진단 의학 관점에서는 어떠한 질병에 걸린 개인들의 증상에 대한 데이터가 무수히 많이 모이게 되면 빅데이터가 될 것입니다. 그리고 이를 분석하여 질병에 걸리기 한참 전에도 유사 증상의 발현을 식별하여 미리 해당 질병을 인지하게 되는 '예방 의학'이 발전하게 되겠지요. 예를 들면, 'ooo증상을 가지고, ㅁㅁㅁ 취미를 오랫동안 해 온 50대 남성은 A라는 질병에 걸릴 확률이 00%이다.'라는 식으로 말이죠. 여기에 취미 같이 측정하기 어려운 변수보다 유전자라는 확실한 변수가 개입될 시 분석 결과(예측)는 더 정확해질 것이라고 봅니다.

 

2. 쇼핑 

한 개인이 어떤 물건을 좋아할지 예측하는 것은 서두에서 말씀드렸죠? 이제는 그룹으로 가볼까요? B라는 회사에 근무하는 20대 여성은 OO를 좋아한다 정도는 손쉽게 분석할 수 있을 겁니다. 하지만, 회사 본관 1층에 흡연장이 있을 경우 사내 연애를 할 확률이 증가한다는 데이터는 쉽게 분석할 수 있나요? 너무 뜬금없다고요? 실제로 빅데이터로 분석해본 결과 마트에서 맥주 구입량과 기저귀 구입량이 유의미한 관계가 있다고 해요. 빅데이터가 없으면 감히 상상도 못 할 만한 결과일 거예요. 

 


 

이렇듯 빅데이터는 기존의 통계학에서는 도출하기 어려운 복합적이고 다차원적인 분석 결과도 뽑아낼 수 있다고 해요. 통계학은 합리적인 가정을 하고 표본을 샘플링해서 분석하는데요. 그래서 샘플링할 수 있는 대상이 한정적입니다. 하지만, 빅데이터는 정형 비정형 할 것 없이 모든 종류의 데이터를 다 분석하기 때문에 통계학에서 볼 수 없었던 결과도 가져오곤 한답니다. 하지만, 빅데이터가 만능은 아니겠죠? 그냥 분석 툴에 넣기만 하면 자동으로 분석이 되는 게 아니라, 분석 가능한 형태로 바꾸어줘야 하는데요. 이 작업이 매우 매우 힘들어요. 이것을 데이터 전처리라고 합니다.

 

그래서 데이터 사이언티스트들이 할 일이 생기는 거죠. 사실 이런저런 데이터를 그냥 쌓아두고 나중에 분석하기에는 데이터가 너~~~ 무 많겠죠? 그래서, 데이터 사이언티스트들은 애초에 데이터들이 쌓일 때부터 나중에 분석할 수 있는 형태로 쌓이도록 프로그래밍하기도 한답니다. 

 

이렇게 대용량의 데이터를 분석하기 위해 보통 '하둡'이라는 툴을 사용하고요. 분석한 것을 표현하는 데이터 분석 언어에는 'R'과 '파이썬'을 사용한답니다. 

 


 

이상입니다.

오늘은 세계가 본격적인 4차 산업혁명 시대에 접어듦에 따라 점점 발전하고 있는 '빅데이터'에 대해 알아보았습니다. 빅데이터는 현재도 각 분야에서 여러 파격적인 결과를 도출하고 있는데, 데이터가 더 모인 미래에는 더 많은 것을 분석할 수 있을 거라고 예상됩니다.

 

감사합니다!

다음에 또 유익한 정보로 찾아뵐게요.

반응형

댓글