728x90

데이터마트 개발(in case of R)

- reshape : melt()와 cast()를 이용해서 데이터를 재구성하거나 재정렬하기 위한 기법, 데이터를 재정렬하면서도 원본 데이터의 정보들을 유지 가능

- sqldf : sql 명령이 주어지면 자동으로 스키마를 생성하고 실행 결과를 R로 로드.

- plyr : 두 개 이상의 데이터 프레임을 병합하거나 분리해서 요약하고 집계할 때 사용하는 패키지

가설검정 오류

- 귀무가설 : 처음부터 버릴 것을 예상하는 가설

- 대립가설 : 귀무가설에 대립하는 명제

- 1종오류 : 가설이 참이어도 기각하는 경우(귀무가설 기각)

- 2종오류 : 가설이 거짓이어도 기각하지 않는 경우(귀무가설 채택)

검정통계량과 유의확률

- 검정통계량 : 귀무가설의 기각과 채택을 결정하기 위한 통계적 척도, 귀무가설을 기각할 수 있는 최소한의 유의수준인 유의확률을 통해 귀무가설의 기각과 채택을 결정할 수 있음.

- 유의확률 : 유의확률 p가 유의수준 a보다 작으면(p<a) 귀무가설을 기각하고 대립가설을 채택

상관관계분석

- 피어슨 상관계수 : 수치형 데이터에 대해서 두 변수의 선형적 연관성을 파악하기 위한 계수

- 스피어만 상관계수 : 데이터의 형태가 명목형 자료인 경우 스피어만 상관계수 r 계산 

단어빈도 = 문서 내 단어 수 / 문서 내 모든 단어 수

역문서빈도 = 전체문서 수 / 단어를 포함한 문서 수

K-NN

- 간단하고 효과적, 학습과정이 빠름

- 적절한 k의 선택 필요. 분류 시간이 오래 걸림

의사결정나무

- 일부 명제가 손상되더라도 안정적으로 동작, 대규모 데이터세트에도 동작

- 각 노드에서의 부분 최적값에 빠지기 쉬움, 분류 정확도가 떨어지며 훈련 데이터의 개수, 노드 선정에 따라 의사결정나무 모델이 크게 달라짐

SVM

- 다차원 벡터 공간에서 효과적, 과적합 정도가 덜함, 분류나 예측에 모두 사용

- 모형 구축 시간에 오래걸림, 결과에 대한 설명력이 떨어짐

나이브 베이즈

- 데이터세트가 클 경우 효과적으로 학습 가능, 빠르며 정확도 높음, 잡음과 누락데이터 잘 처리

- 모든 특징이 동등하고 중요하며 독립이라는 가정이 잘못된 경우 오류. 수치 특징이 많은 데이터세트에는 이상적이지 않음

일치추정량

- 표본의 크기가 커지면서 확률적으로 모수에 수렴하는 추정량

정형 데이터 수집 기술

- Sqoop, Hiho

로그, 센서 데이터 수집 기술

- Apache Flume, Scribe, Chukwa, 확장성, 안전성, 유연성, 실시간성의 조건을 만족해야 함

시계열 예측 방법

- 추세분석법 : 관측값이 일정한 추세를 가지고 움직이는 경우

- 평활법 : 평균값 등을 이용하여 다음 시점의 예측값으로 활용

- ARIMA 모형 : 데이터 특성에 따라서 로그함수 등을 이용한 변환을 함

분석방법론

- 폭포수 모델 : 체계적 문서화가 가능해서 명확, 앞 단계가 완료되어야만 다음 단계로 넘어감

- 나선형 모델 : 반복을 통해 점증적으로 개발, 복잡성으로 인해 프로젝트 관리가 어렵고 개발 장기화 가능성 존재

- 프로토타입 모델 : 시스템 일부분을 구현한 후 다음 요구사항을 반영하는 점진적 개발, 사용자 요구사항 도출에 용이

추론과 실제 결과(오분류표)

최소제곱추정법

- 회귀분석 시 회귀계수를 추정하는 방법

데이터 품질 검증

- 정확성 평가 : 입력부터 오류를 검증할 수 있어야 하고 데이터가 규칙을 준수하는지를 평가

- 완전성 평가 : 결측치를 가지지 않도록 하는 평가

- 적시성 평가 : 그 의미가 유효한 시간 정보를 가지고 품질을 유지하는지에 대한 평가

- 일관성 평가 : 일관된 포맷을 가지고, 무결성 원칙을 만족하는지에 대한 평가

- 보안성 평가, 유효성 평가, 유용성 평가

검정통계량과 유의확률

- 검정통계량 : 귀무가설의 기각과 채택을 결정하기 위한 통계적 척도. 귀무가설을 기각할 수 있는 최소의 유의수준인 유의확률을 통해서 귀무가설의 기각과 채택을 결정

- 유의확률 : 유의확률 p가 유의수준 a보다 작으면(p<a) 귀무가설을 기각하고 대립가설을 채택한다.

데이터 품질 요소

- 정확성(분석 목적에 맞는 데이터 제공), 완전성(필요한 데이터를 식별), 적시성(활용 시점의 활용도 향상), 일관성(사용목적에 일관적)

정형데이터 품질 기준

- 완전성, 유효성(유효범위 및 도메인을 충족), 일관성, 정확성(실세계에 존재하는 객체의 표현 값이 정확히 반영)

의사결정나무모형

- CHAID : 카이제곱이나 F검정을 이용해서 분리를 수행하는 알고리즘.

- CART : 지니지수를 이용해서 분리를 수행, 지니지수 0에서 1 사이의 숫자에서 1은 완벽한 순수의 노드를 나타냄..

- C4.5 : 엔트로피지수를 이용해서 분리를 수행

와드연결법

- 군집 내 편차들의 제곱합에 근거를 두고 군집들을 병합시키는 방법

728x90

+ Recent posts