데이터 엔지니어링/빅데이터

빅데이터란?

Malachai Lee 2022. 5. 2. 20:35

2010년대 초반, 사물인터넷 기술이 각광받이 시작하며 각종 센서들을 사물에 대입하기 시작하였다. 이러한 센서들이 점점 많아지자, 인터넷을 통해 중앙으로 집결되는 데이터량 또한 천문학적으로 많아졌다. 심지어 이러한 데이터들은 text, numeric, categoric, relational, audio, video 등의 비정형 데이터 형태를 띄고있어 데이터의 처리가 더욱 힘들어졌다. 1990년대의 PC, 2000년대의 인터넷/모바일, 2010년대의 사물인터넷을 통한 데이터 소스가 점점 많아지면서, 데이터들을 관리하고 분류하기 더욱 힘들어지게 되었다.

 

빅데이터의 특성 - 3V

Volume - 데이터 볼륨의 증가

PC, 모바일, 센서 등 비졍형의 데이터가 많아짐에 따라 데이터 타입의 볼륨은 증가하였다. 또한, 지난 10년간 생성된 데이터의 양보다 최근 2년간 생성된 데이터의 양이 더움 많고, logametric하게 늘어나는 양상을 띈다.

Velocity - 데이터 발생 속도 증가

사람들의 인터넷 접근 빈도가 증가하고 모바일 기기의 센서 또한 지속적으로 데이터를 읽어옴으로써, 데이터 생성속도 또한 증가한다.

Variety - 데이터 포맷 다양성 증가

기존 데이터 웨어하우스에선 정형화된 된 텍스트의 데이터를 다루던 반면, 현재에는 반정형, 비정형 등 아주 다양한 형태의 데이터가 생성되어 기존 관계형 데이터베이스로는 이를 처리하기에 매우 힘들어졌다.

 

빅데이터의 유형

정형 데이터

텍스트를 이용해 정형의 구조로 만든 규칙적인 데이터이다. 관계형 데이터베이스에서 다루어진다.

 

반정형 데이터

정형 구조의 데이터 모델을 준수하지 않는 정형 데이터의 한 형태이다. html, json, xml등의 마크업 언어로 구축된 데이터나 웹 로그 데이터가 포함된다.

 

비정형 데이터(빅데이터)

형태나 구조가 정형화되지 않은 다양한 형식의 모든 데이터이다. 문서, 텍스트, 이미지, 동영상 등 다양한 데이터가 포함된다.

다양해지고 복잡해지는 데이터에 따라 기존데이터 처리방식으로 효율적, 생산적으로 접근할 수 없게 되었다. 새로운 빅데이터 처리 시스템이 필요하게 된것이다.

 

 

빅데이터 시스템

대용량 데이터를 분산 병렬처리 하고 관리하는 시스템이다. 빅데이터 처리를 가능케 하는 시스템을 만들기 위해선 다음을 만족시켜야 했다.

  • 빠른 데이터 생성 속도를 따라가기 위해 실시간 처리(Real-time)나 효율적인 데이터 전송을 위해 배치 처리(Batch)를 할 수 있도록 한다.
  • 대규모 데이터의 수집, 관리, 유통, 분석을 처리하는 일련의 분산 병렬 처리를 할 수 있도록 한다.

 

이는 네가지 요구사항으로 정리되었다.

 

사용자 요구사항

 

실시간 데이터 처리

실시간 데이터를 처리하면서 통합 분석할 수 있는 처리기술

이벤트를 관리하면서 유효성 질의 및 비정상적 이벤트 분석에 대한 통합 처리

 

많은 데이터를 저비용으로 처리

다량의 비정형 데이터를 효율적으로 처리하기 위한 프레임워크

 

 

시스템 요구사항

 

결함 허용이 되는 시스템

 

분산 처리가 가능한 시스템

'데이터 엔지니어링 > 빅데이터' 카테고리의 다른 글

빅데이터 처리 인프라  (0) 2022.05.02
빅데이터 처리 프로세스  (0) 2022.05.02
Hadoop 클러스터 동작방식  (0) 2022.05.02
시스템의 확장  (0) 2022.05.02
빅데이터 처리 시스템의 목표  (0) 2022.05.02