SPARK
- 범용 분산처리 플랫폼, 맵리듀스, 스톰과 동일한 스트리밍 처리, SQL 기반의 쿼리 수행
- 하둡과 연동, 파이썬, 자바 등 다양한 언어 지원
- Driver, Workers, Cluster manager(YARN)으로 이루어짐
- RDD Operation : Transformation(데이터를 변경하여 새로운 RDD 생성), Action
STORM
- 분산처리 플랫폼, Nimbus, Supervisors, Zookeeper, 작업노드로 구성
- Nimbus : 작업 노드에 있는 슈퍼바이저에게 작업 분배. 사용 가능한 슈퍼바이저의 현황 파악 및 관리
- Zookeeper : 노드 간 통신 및 작업 진행 상태 관리. 클러스터의 설정과 상태 관리. 님버스와 슈퍼바이저에게 작업 상황 및 클러스터 상태 정보 제공
- Supervisors : 작업 노드의 데몬. 님버스에서 할당받은 작업 수행
- Storm 네트워크 구조의 구성요소 : Spout(데이터 소스를 처리하는 시작 노드의 역할, 입력 데이터를 볼트로 전달), Bolt(스파우트에서 전달받은 데이터 처리, 수행 결과를 복수의 노드에 전달)
데이터의 효율적인 검증 절차
- 데이터 품질관리 요소 검증 -> 데이터 무결성 검증 -> 데이터 비식별화 조치
Fluentd
- 데이터 수집 소프트웨어, 반 또는 비정형 데이터셋 수집
- 로그 수집을 해야 하는 서버에 설치. 서버에서 로그 수집 및 중앙 로그 저장소로 전송
HDFS
- 일반적으로 클러스터에 2개의 네임 노드 구축
- 네임 서버는 파일의 메타 정보 보관
- 클라이언트로부터 특정 파일에 요구가 발생한 경우 파일을 보관하는 블록들에 대한 정보를 통해 실제 데이터 제공
- 데이터 접근은 데이터 노드를 통해 이루어짐. 파일은 블록으로 나누어 데이터 노드에 저장.
- 데이터 블록 관리 : Name node , 데이터 블록 저장 : Data Node
HIVE
- 하둡 상에 구축된 정형화된 데이터 관리 시스템. HDFS를 스토리지로 사용
- 테이블은 HDFS의 실제 디렉토리로 관리. 실제 데이터는 파일로 관리
- Metastore : 테이블 정보 저장, 데이터는 HDFS에 저장
- HCatalog : HIVE에서 생성한 테이블이나 데이터 모델을 피그나 맵리듀스에서 이용. 하둡으로 생성한 데이터를 위한 테이블 및 스토리지 관리 서비스
정형 데이터의 품질관리 요소
- 정확성(연 매출액은 월 매출액의 합과 일치), 완전성(not null), 일관성(코드값은 코드테이블에 정의), 유일성(고객의 이메일 주소는 유일해야 함), 유효성(주민번호 형식)
비정형 데이터의 품질관리 요소
- 기능성(자막, 사운드 내용), 신뢰성(결함 발생 횟수), 사용성(선명한 영상과 자막), 효율성(기준 시간 내 동영상 로딩), 이식성(운영 환경 및 플레이어 호환 여부)
데이터 수집 오픈소스
- Flume, Scribe, Chukwa
데이터 분석 플랫폼
- S4, Storm
데이터 할당 분석 수행 오픈소스
- Hadoop, Hive, Pig, Mahout
군집관리 및 모니터링 오픈소스
- Zookeeper, Cloumon, Hue
군집화 알고리즘
- 병합적 또는 상향식 군집, 분할식 또는 하향식 군집
비계층적 군집
- k-means, k-medoids, DBSCAN, 자기조직화지도, Fuzzy
확률기반 군집
- Gauss 혼합 모형
Holdout Cross Validation
- 데이터 집합을 서로 겹치지 않는 훈련집합과 시험집합으로 무작위 구분
- 훈련집합을 Training, Validation으로 구분하기도 함
ROC 곡선
- 혼동행렬의 값에서 FP와 TP 사이의 관계를 표현.
- 목표변수 범주 값 분류 시 긍정과 부정 범주의 변화 판단. 기준값의 변화에 따른 참긍정과 거짓긍정 비율 변화 분석
Lift(향상도)
- 무작위로 선택한 경우보다 데이터마이닝을 통해 예측력이 높아진 비율
- 1보다 작으면 우수한 규칙으로 평가
- P(X and Y) / (P(X) * P(Y))
Support(지지도)
- 전체 거래 중에서 어떠한 항목이 포함되었는가에 대한 거래 빈도
- P(X and Y) / n
Confidence(신뢰도)
- X규칙이 발생하면 Y규칙이 발생할 확률이 높다고 말할 수 있는 비율
- count(X, Y) / count(X)
'Programmer's' 카테고리의 다른 글
빅데이터 분석기사 실기 단답형 (0) | 2021.06.18 |
---|---|
코인 피라미딩 코딩 (0) | 2021.04.29 |
빅데이터 분석기사 요약 - 3과목. 빅데이터 모델링 (0) | 2021.04.16 |
빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색 (0) | 2021.04.15 |
빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획 (0) | 2021.04.15 |