데이터마트 개발(in case of R)
- reshape : melt()와 cast()를 이용해서 데이터를 재구성하거나 재정렬하기 위한 기법, 데이터를 재정렬하면서도 원본 데이터의 정보들을 유지 가능
- sqldf : sql 명령이 주어지면 자동으로 스키마를 생성하고 실행 결과를 R로 로드.
- plyr : 두 개 이상의 데이터 프레임을 병합하거나 분리해서 요약하고 집계할 때 사용하는 패키지
가설검정 오류
- 귀무가설 : 처음부터 버릴 것을 예상하는 가설
- 대립가설 : 귀무가설에 대립하는 명제
- 1종오류 : 가설이 참이어도 기각하는 경우(귀무가설 기각)
- 2종오류 : 가설이 거짓이어도 기각하지 않는 경우(귀무가설 채택)
검정통계량과 유의확률
- 검정통계량 : 귀무가설의 기각과 채택을 결정하기 위한 통계적 척도, 귀무가설을 기각할 수 있는 최소한의 유의수준인 유의확률을 통해 귀무가설의 기각과 채택을 결정할 수 있음.
- 유의확률 : 유의확률 p가 유의수준 a보다 작으면(p<a) 귀무가설을 기각하고 대립가설을 채택
상관관계분석
- 피어슨 상관계수 : 수치형 데이터에 대해서 두 변수의 선형적 연관성을 파악하기 위한 계수
- 스피어만 상관계수 : 데이터의 형태가 명목형 자료인 경우 스피어만 상관계수 r 계산
단어빈도 = 문서 내 단어 수 / 문서 내 모든 단어 수
역문서빈도 = 전체문서 수 / 단어를 포함한 문서 수
K-NN
- 간단하고 효과적, 학습과정이 빠름
- 적절한 k의 선택 필요. 분류 시간이 오래 걸림
의사결정나무
- 일부 명제가 손상되더라도 안정적으로 동작, 대규모 데이터세트에도 동작
- 각 노드에서의 부분 최적값에 빠지기 쉬움, 분류 정확도가 떨어지며 훈련 데이터의 개수, 노드 선정에 따라 의사결정나무 모델이 크게 달라짐
SVM
- 다차원 벡터 공간에서 효과적, 과적합 정도가 덜함, 분류나 예측에 모두 사용
- 모형 구축 시간에 오래걸림, 결과에 대한 설명력이 떨어짐
나이브 베이즈
- 데이터세트가 클 경우 효과적으로 학습 가능, 빠르며 정확도 높음, 잡음과 누락데이터 잘 처리
- 모든 특징이 동등하고 중요하며 독립이라는 가정이 잘못된 경우 오류. 수치 특징이 많은 데이터세트에는 이상적이지 않음
일치추정량
- 표본의 크기가 커지면서 확률적으로 모수에 수렴하는 추정량
정형 데이터 수집 기술
- Sqoop, Hiho
로그, 센서 데이터 수집 기술
- Apache Flume, Scribe, Chukwa, 확장성, 안전성, 유연성, 실시간성의 조건을 만족해야 함
시계열 예측 방법
- 추세분석법 : 관측값이 일정한 추세를 가지고 움직이는 경우
- 평활법 : 평균값 등을 이용하여 다음 시점의 예측값으로 활용
- ARIMA 모형 : 데이터 특성에 따라서 로그함수 등을 이용한 변환을 함
분석방법론
- 폭포수 모델 : 체계적 문서화가 가능해서 명확, 앞 단계가 완료되어야만 다음 단계로 넘어감
- 나선형 모델 : 반복을 통해 점증적으로 개발, 복잡성으로 인해 프로젝트 관리가 어렵고 개발 장기화 가능성 존재
- 프로토타입 모델 : 시스템 일부분을 구현한 후 다음 요구사항을 반영하는 점진적 개발, 사용자 요구사항 도출에 용이
추론과 실제 결과(오분류표)
최소제곱추정법
- 회귀분석 시 회귀계수를 추정하는 방법
데이터 품질 검증
- 정확성 평가 : 입력부터 오류를 검증할 수 있어야 하고 데이터가 규칙을 준수하는지를 평가
- 완전성 평가 : 결측치를 가지지 않도록 하는 평가
- 적시성 평가 : 그 의미가 유효한 시간 정보를 가지고 품질을 유지하는지에 대한 평가
- 일관성 평가 : 일관된 포맷을 가지고, 무결성 원칙을 만족하는지에 대한 평가
- 보안성 평가, 유효성 평가, 유용성 평가
검정통계량과 유의확률
- 검정통계량 : 귀무가설의 기각과 채택을 결정하기 위한 통계적 척도. 귀무가설을 기각할 수 있는 최소의 유의수준인 유의확률을 통해서 귀무가설의 기각과 채택을 결정
- 유의확률 : 유의확률 p가 유의수준 a보다 작으면(p<a) 귀무가설을 기각하고 대립가설을 채택한다.
데이터 품질 요소
- 정확성(분석 목적에 맞는 데이터 제공), 완전성(필요한 데이터를 식별), 적시성(활용 시점의 활용도 향상), 일관성(사용목적에 일관적)
정형데이터 품질 기준
- 완전성, 유효성(유효범위 및 도메인을 충족), 일관성, 정확성(실세계에 존재하는 객체의 표현 값이 정확히 반영)
의사결정나무모형
- CHAID : 카이제곱이나 F검정을 이용해서 분리를 수행하는 알고리즘.
- CART : 지니지수를 이용해서 분리를 수행, 지니지수 0에서 1 사이의 숫자에서 1은 완벽한 순수의 노드를 나타냄..
- C4.5 : 엔트로피지수를 이용해서 분리를 수행
와드연결법
- 군집 내 편차들의 제곱합에 근거를 두고 군집들을 병합시키는 방법
'Programmer's' 카테고리의 다른 글
코인 피라미딩 코딩 (0) | 2021.04.29 |
---|---|
빅데이터 분석기사 요약 - 4과목. 빅데이터 결과 해석 (0) | 2021.04.16 |
빅데이터 분석기사 요약 - 2과목. 빅데이터 탐색 (0) | 2021.04.15 |
빅데이터 분석기사 요약 - 1과목. 빅데이터 분석 기획 (0) | 2021.04.15 |
tnas os에서 python3 (0) | 2021.01.27 |