전체 글 126

빅데이터 처리 방식

배치 처리 일간, 월간, 연간 등 주기적으로 작업을 일괄적으로 수행하는 방식이다. 배치 처리의 대표적인 툴은 MapReduce, Hive, Pig 등이 있다. 배치 처리 방식의 핵심인 ETL은 주기적 Extraction, 추출한 데이터의 Transformation, 데이터를 받아오는 Load 프로세스로 구성된다. 배치 처리 수행의 스케줄링을 위해 Unix/Linux에선 cron 명령어나 at, Windows에선 Job Scheduler를 사용한다. https://webdir.tistory.com/174 리눅스 cron - 작업 예약 명령 CentOS 6.4에서는 RHEL6 버전부터 사용된 anacron이 채용되어 있습니다. 이로 인해 RHEL5 버전까지 crontab에 설정되어 있던 run-part부분,..

빅데이터 처리 SW

Hadoop 오픈소스 빅데이터 처리 플랫폼이며, 분산 파일 시스템인 HDFS와 분산 병렬 처리 시스템인 Map Reduce의 두가지 핵심기능을 제공한다. 데이터 처리, 분석, 시각화 등 다양한 기능을 가진 툴들과 함께 시스템을 이루는 경우가 많은데, 이를 Hadoop Ecosystem이라 부른다. 결함 허용의 특징이 있으며, 데이터 블록의 복사본을 중복 저장하고 유지한다. Big Query 구글 클라우드 스토리지와 함께 사용하는 대용량 데이터 처리 엔진이다. 클라우드 서비스로, 자체적인 SW 설치나 운용이 필요 없다. 분석할 데이터를 구글 시스템에게 전송한 후, BigQuery API를 사용하여 질의하는 방식이다. 최대 2TB까지 무료로 데이터를 업로드하고 분석할 수 있다. SQL 언어를 사용하며 구글 ..

빅데이터 처리 인프라

개별적 시스템 구축 On-Premise 환경에서 자체적으로 구축한 시스템을 사용하는 방식이다. 소프트웨어를 서버에 직접 설치함으로써 시스템을 구축한다. 이 방법은 내부데이터의 관리정책과 보안 문제로 외부 IaaS나 PaaS를 활용하기 어려울 때, 서비스의 요구사항을 외부 서비스가 지원하지 않을 때 사용된다. 클라우드 컴퓨팅 외부 서비스업체로부터 하드웨어나 소프트웨어, 네트워크 등의 자원을 구매하여 원격으로 지원받아 환경을 구축한다. 초기 투자비용이 상대적으로 적게 발생하며 시스템에 대한 구축 오버헤드 또한 절감할 수 있다. 향후 시스템이 확장되어야 할 때 확장성을 보장받을 수 있다. 베어메탈(Bare-metal) 기반 클라우드 컴퓨팅 타입1 하이퍼바이저(TYPE1 Hypervisor)라고도 불리우는 클라..

빅데이터 처리 프로세스

빅테이터 처리는 데이터로부터 유용한 정보를 발견하고, 정보를 분석하여 가설이나 규칙을 만들어, 의사결정을 지원한다. 이를 정리하면 데이터를 수집, 저장, 처리, 분석, 표현하는 전반적인 프로세스이다. 1. 데이터 소스 파일, DB와 같은 내부 데이터 소스나 공공DB, SNS, IoT 센서와 같은 외부 데이터소스가 있다. 2. 데이터 수집 정형화된 데이터로 RDB, CSV 파일 등이 있다. 반정형 데이터로 JSON, RSS, XML, 웹 로그, HTML, 센서 데이터 등이 있다. 비정형 데이터로 이진파일, 이미지, 텍스트, 동영상 등이 있다. 3. 데이터 저장 수집한 데이터의 형식에 따라 파일시스템 RDBMS, NoSQL DB의 데이터베이스 형식로 저장할 수 있다. 4. 데이터 처리 배치처리, 실시간 처리..

빅데이터 처리 시스템 도입 계획

빅데이터 처리를 위한 환경 파악 처리해야 할 빅데이터의 3V 특징 파악 클러스터 구축 방법 목적에 맞는 처리 시스템 계획 빅데이터 처리 시스템 구축을 위한 세부 계획 수립 - 정보 시스템 계획 및 수립: 빅데이터 처리 시스템 도입 및 설정에 필요한 계획 수립 - HW/SW 아키텍쳐 설계: 클러스터 구축을 위한 제반 환경 점검 및 체크리스트 작성 - 빅데이터 저장 방식 확인: 관계형 데이터베이스, 분산파일 시스템, NoSQL 데이터베이스 등 - 세부 운영 계획 수립: 보안 운영 계획, 네트워크/시스템 관리 계획, 가용성/장애관리 계획, 서비스 관리 계획, 자원 관리 계획 등 기존 시스템과의 연계 가능성 고려 기존 시스템 파악 기존 DBMS와 하둡 시스템 간의 연계 툴 조사 비관계형 데이터베이스(NoSQL)..

카테고리 없음 2022.05.02

Hadoop 클러스터 동작방식

클러스터 환경인 Hadoop의 클러스터는 세가지 동작 방식이 있다. 독립모드(Standalone Mode) 데몬 프로세스 없이 모든 프로그램이 하나의 JVM(Java Virtual Machine) 위에서 동작하는 모드이다. 일반적으로 Map Reduce 프로그램을 동작시키고 테스트를 하며 사용된다. 분산운영 모드가 아니므로 실제 빅데이터 처리 환경으로는 부적합하다. HDFS(Hadoop Distriuted File System; 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 파일시스템)를 사용하지 않고, 로컬 파일 시스템을 사용한다. 의사 분산 모드(Pseudo-Distributed Mode) 하나의 노드에 하둡 데몬프로세스가 여러 개 분리되어 동작하는 모드이다. 하..

시스템의 확장

수직적 확장(Scale up) 증가하는 부하와 감소하는 자원에 따라 시스템 내의 노드 성능을 증가시키는 확장기법 개별 노드의 성능 증가에는 기술적, 공간적 제약을 받기 떄문에 확장성에 한계가 있다. 수평적 확장(Scale out) 증가하는 부하와 감소하는 자원에 따라 시스템 내의 노드 개수를 증가시키는 확장기법 충분한 공간과 분산 네트워크의 효율이 보장된다면, 무한한 확장이 가능하다.

빅데이터 처리 시스템의 목표

시스템에 대한 다양한 요구사항을 통해 시스템이 가져야 할 원칙을 세울 수 있다. 총 세가지의 원칙을 소개한다. 결함 허용 시스템(Fault Tolerance) 한대의 서버가 1년에 한번 장애가 발생한다면, 365개의 서버를 분산구축 한 distributed 서버환경에서는 하루에 한번씩 장애가 발생하게 된다. 빅데이터를 처리하기 위해 구축한 방대한 클러스터에서는 거의 매시간마다 장애가 발생할 수 있다. 모든 시스템은 애플리케이션 문제 또는 하드웨어 리로스 문제로 인해 장애가 발생할 수 있다. 장애가 발생해도 다른 서버에서 장애를 극복할 수 있도록 하는 대체 시스템이나 대응 체계를 통해 시스템 운영을 계속할 수 있게 해야한다. 빅데이터 처리 시스템중 하나인 하둡(Hadoop)에서는 결함 허용 전략으로 클러스..

빅데이터란?

2010년대 초반, 사물인터넷 기술이 각광받이 시작하며 각종 센서들을 사물에 대입하기 시작하였다. 이러한 센서들이 점점 많아지자, 인터넷을 통해 중앙으로 집결되는 데이터량 또한 천문학적으로 많아졌다. 심지어 이러한 데이터들은 text, numeric, categoric, relational, audio, video 등의 비정형 데이터 형태를 띄고있어 데이터의 처리가 더욱 힘들어졌다. 1990년대의 PC, 2000년대의 인터넷/모바일, 2010년대의 사물인터넷을 통한 데이터 소스가 점점 많아지면서, 데이터들을 관리하고 분류하기 더욱 힘들어지게 되었다. 빅데이터의 특성 - 3V Volume - 데이터 볼륨의 증가 PC, 모바일, 센서 등 비졍형의 데이터가 많아짐에 따라 데이터 타입의 볼륨은 증가하였다. 또한..