본문 바로가기
카테고리 없음

빅데이터 필기 요약 2

by footstepbook 2024. 3. 19.
반응형

수집 저장 처리 가공 분석

 

최적화 솔루션 통찰 발견

 

정형데이터 풀징검증 7가지

완전성 ,유효성,일관성 정확성 유일성 활용성 보안성

 

비정형데이터 5가지 

기능성 ,신뢰성,사용성,효율성,이식성

 

변수

범주형 데이터

수치형 데이터로 나눔

범주형은 명목형 데이터,순서형데이터가 존재함

 

수치형은 이산형데이터,연속형 데이터가 존재함

 

변수 선택: 종속변수에 가장 관련성 높은 변수 선택

필터기법,래퍼기법,임베디드 기법

필터기법:데이터의 통계적 특성을 사용하여 변수를 선택

래퍼기법: 모델을 통해 최적 변수를 찾는 과정

변수 추출: 새로운 변수 추출

pca,fa,pls등이있음

 

변수 선택을 위한 알고리즘

전진 선택법

후진 소거법

단계적 방법이 존재함

 

차원축소기법

pca,fa,lad,mds,svd가 존재

 

 

변수 변환

분석에 용이하도록 변수를 변환하는 것

 

함수 변환 정규분포의 형태를 따르는 것이 분석시용이하다

비닝: 범주형 변수로 변환하는 방법

정규화 및 표준화

단위가 맞지 않을때는 데이터를 비교 ,분석하기가 어렵다

 

불균형 데이터 처리

관심있는 데이터수가 적은경우 데이터 균형을 맞추어 처리하는 방법

불균형 분석시 편향및 과대 적합이 발생할수도 있음

 

불균형 데이터 처리방법은

과소 표집,과대표집,임곗값 이동,앙상블 기법등이 있다.

 

과소표집방법

랜덤과소표집,토멕 링크방법,cnn,oss

 

과대 표집방법

랜던 과대 표집

smote

voderline-smote

adayn

 

임곗값이동이란:임겟값 이동은 임곗값을 데이터가 많은 쪽으로 이동시키는 방법

학습시에는 그대로 진행 평가시에 임곗값으로 이동함

 

앙상블 기법:서로 다른 모형의 결과를 조합하여 최종적인 예측값을 도출하는 기법

 

기초 통계량

기술통계와 추론통계로 구분할수있다.

데이터의 기초 통계량 중심위치,변이,분포등을 파악한다.

 

데이터의 중심통계량

위치: 평균값,중위수,최빈수,사분위수

 

변이:분산,표준편차

 

분포:첨도,왜도

첨도는 데이터분포의 표정한정도

왜도는 분포의 기울어진동도를 말함

 

상관계수의 종류

종류에 따라 분석방법이 달라짐

수치적데잍,순서적데이타,명몽적데이터로 나눔

피어슨상관계수,스피어만 순위상관계수,카이제곱검정

 

산점도란 상관ㄴ관계를 표현하는 시각화 기법임

 

히스토그램은 정규성을 확인함

막대그래프는 범주형데이터를 시각화함

상재그래프는 4분위수로 시각화함

 

시공간데이터

공간적정보에 시간개념이 추가된데이터

 

평균에는 산술평균과 절사평균그리고 가중평균이 존재함

 

모평균은뮤로 표시하며 표본평균은 x바 로 표시

IQR은 3사분위수에서 제1사분위수차이값을 구함

 

변이요약

분산에는 모분산과 표본분산이 존재함

표본분선은 N-1로 나눔

첨도란  정규분포가 뾰족한 정도를 의미함

 첨도 0이면 집단분포가 표주ㅠㄴ정구분포와 뾰족한 정도가 같다

첨도가 높을수록 표준정규분포보다 뾰족하다

왜도는 0이면 좌우대칭이다.

값이 클수록 좌측으로 길어지며 최빈수,중앙값 평군이 왼쪽으로 커진다.

 

표본추출기법은4가지가있다.

단순 무작위 추출

계통추출

층화추출

군집추출

 

나이즈베이정리

사전확률과 관측데이터를 이용하여 사후확률을 계싼하는 방식

확률에 의해 그 값이 결정되며 대문자 X로 표시하는것이 확률 변수이다

확률변수에는 이상확률변수와 연속확률변수가 존재함

 

중심극한정리

표본의 크기가 충분히 크면 모집단의 분포와 상관없이 표본평군의 분포는 정규분포를 따른다.

큰수의법칙

실험시행횟수가 증가할수록 통계적활률은 수학적확률에 가까워진다.

 

표본초아

비푯뵨오차

표본편의가 존재함

 

추정과 가설검정이 있음

 

점추점은 오차가크다.

점추정은 모수를 하나의 값으로 추정하는 방식임

 

점추정의 4가지 조건

불편성,효율성,일치성,충족성

 

구간추정은 점추정과 달리 추정값에 대한 신뢰도를 제시하면서 모수를 범위로 추정하는 것

 

신뢰수준,신뢰구간

 

가설이란 어떤현상에 대한 잠정적인 결론

귀무가설과 대립가설이 존재함

 

반응형