데이터 엔지니어링/빅데이터

Hadoop의 빅데이터 처리 방식

Malachai Lee 2022. 5. 9. 22:36

Hadoop의 큰 특징은 다음과 같이 정리할 수 있다.

  1. 오픈소스 SW
  2. HDFS + MapReduce
  3. 빅데이터 처리 프레임워크
  4. 다양한 하둡 에코시스템으로 구성
  5. 결함 허용
  6. 데이터 블록의 복사본을 중복 저장하고 유지

Hadoop이 데이터를 처리하는 방식은 다음과 같은 단계로 나타낼 수 있다.

데이터 블록 전송 단계

하나의 파일을 여러 블록으로 나누어 클러스터에 있는 데이터 노드들에게 분산하여 저장한다.

데이터 블록 복제 단계

하나의 블록은 여러개의 복제본을 생성하여 분산 저장한다.

프로그램 코드 전송 단계

데이터를 저장하고 전처리와 같은 처리방법 전달을 위해 작업을 전달한다. 패키지 된 프로그램 코드를 해당 노드들에게 전달한다.

데이터 병렬 처리 단계

데이터를 병렬 처리할 수 있게 한다.

'데이터 엔지니어링 > 빅데이터' 카테고리의 다른 글

Apache Hadoop Ecosystem  (0) 2022.05.09
Hadoop의 구성 요소  (0) 2022.05.09
Hadoop의 계층  (0) 2022.05.09
빅데이터 처리 시스템 HW  (0) 2022.05.09
빅데이터 처리 방식  (0) 2022.05.02