본문 바로가기
카테고리 없음

빅데이터 모델링

by footstepbook 2024. 3. 20.
반응형

분석모형

단순하게 패턴화 시킨것을 말한다

현실의 복잡한 문제의 단순화를 통해 변수간의 관계로 정의하는 것을 의미함

 

통계 분석모형구분6가지

기술통계

상괁분석

회귀분석

분산분석

주성분 분석

판별분석

 

데이터 마이닝 기반 분석 모형

예측,분류,군집,연관

 

요구사항의 정의

요구사항이란 도출,설계,정의등을 수행

 

모형구축

모형구축이란 시물레이션,최적화기법을 사용한것

 

정의->모형구축->검증및 평가->운영및 유지보수

 

데이터 분할이란

주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하고 전체 데이터를 분할하여 사용함

 

 

회귀분석을 하귀위해서는 선형성,정규성,독립성,등분산성을 충족해야만한다.

 

로지스틱 회귀분석

오즈함수에 로그를 취하후 역함수를 취해 도출함

 

오즈와 오즈비

특정사건이 발생할확률을 p라면 사건이 발생하지않을 확률을 1-p이다

오즈비는 p/1-p이다.

 

로짓변환이란

오즈에 로그를 취한 함수

 

의사결정나무란

데이터를 분류하거나 예측하는 분석기법이다.

 

의사결정나무 구성요소

 

ㅃ쭈리마디

부모마디

자식마디

끝마디

중간마디

가지

 깊이

가지분할

가지치기

 

의사결정나무 활용 5가지

예측,분류,변수 선택,이상치.교호작용 파악

 

의사결정나무 절차 4가지

데이터,모델학습,가지치기.타당성평가,추론

 

의사결정나무 대표적 알고리즘은 cart,c4.5c5.0/chaid등이있따.

 

불순도 알고리즘

다양한 데이터가 섞여 있을 수록 불순도가 높아진다.

 

볼손됴 알고래즘

지니지수

엔트로피지수

카이제곱통계량

 

의사결정나무 장단점

장점:모형의결과를 직관적으로 이해할수있다.

단점 과대적합을 유도할수있다.

연산시간이 많이 소요된다.

 

 

ANN이란 인공신경망임

 

활성화 함수종료

계단함수

부호함수

leak relu함수

소프트맥스함수

 

인공신경망학습에는 3가지 과정을 따름

훈련 데이터 추출

기울기 산출

매개변수 최적화

 

서포트 벡터머신이란

훈련시간이 느리지만 정확성이 높고 과대 적합의 가능성이 낮은 모델임

데이터의 분류기준을 초평면또는 결정경계라고함

가장가까이에있는 데이터를 서포트벡터라고함

 

서포트벡터는 마진이라고하데 이마진을 최대화하는것이 서포틑 벡터머신에서 최적의 결정경계이다.

 

 

마진에는 하드마진과 소프트마진이 존재함

하드마진은 오차를 허용하지않는다

다만 하드마진은 현실에 적용하기 어렵다

 

비선형 서포트 벡터머신이란

비선형 데이터는 차원을 높이고 커널함수를 사용해 분류할수있다.

 

 

커널함수의 종류란

선형커널,다항커널,가우시안커널,가우시안rbf커널,시그모이드 커널

 

서포트벡터머신의 장단점

서포트벡터만을 이용하여 결졍경계를 생성하므로 데이터가 적을때 ㄹ횩화적이다.

단점 데이터의 크기가 클수록 학습시간이 오래걸린다.

 

연관성 분석

데이터간 연관규칙을 찾아는 기법이다.

연간분석은데이터 간 관계에서 조건과 반응을 발견하는 것임

지지도 신회도 향상도 지표를 측정한다.

 

지지도신뢰도 향상도지표를사용하는데

지지도란 조건품목과 결과품목을 동시에 거리해는 비율 (교집합)

신뢰도란 조건품목을 샀을때 결과 품목을 살 조건부 확률 (교집합/A)

향상도 연관규칙인지 우여인지를 측정하는 척도 

 

아프리오리 알고리즘이란 데이터의 발생빈도가 높은 빈발 항목을 찾는것

 

FP frowth알고리즘이란 트리구조를 사용하요ㅕ 최소 지지도를 충족하는 빈발항목추출

계층적 군집분석화 비계층적 군집분석이 존재함

비계층적 군집분석이란 미리 군집개수를 정한후 군집을 형성하는 방법

계측적은 미리 군집의 개수를 정하지않고 군집을 형성하는 방법

 

유사도 척도란 데이터간의 거리가 가까울수록 데이터의 유사성이 높다.

데이터의 속성에 따라 거리를 측정하는 방법이 달라진다.

 

연속형 변수 거리측정방법 4가지란

유클리드 거리

맨해튼 거리

민코프스키 거리

마할라노비스 거리

 

순서형 거리 측정방법

스피어만 순위상관계수란 값에 순위를 매겨 그순위에 대한 상관계수를 구하는 방법

 

계층적 군집분석이란 병합적방법과 분할적 방법이 존재함

 

최단연결법

최장연결법

평균연결법

중심연결법

와드연결법

 

이존재함

 

중심기반방식

엘보우기법

덴드로그램기법

실루엣계수

 

밀도기반방식

DBSCAN알고리즘이 있다

 

분포기반은 가우시한 혼합모델이 존재함

-분할표는 각 집단간의 비율을 파악할수있다.

 

상대 위험도란 rr <1

rr=1

rr>1에 따라 다르다

특정상황발생확률이 클수록 낮음

승산과 승산비란 

p/p-1을 의미함

카이제곱검정방법또한 존재함

핗셔의 정학검정방법이 존재함

피셔의 정확검정은 표본의 숫자가 적거나 한쪽 범주에 지나치게 치우친경우에 사용함

 

차분이란 비정상성의 시겨열 데이터를 정상성 시계열데이터로 변환하는 것을 의미합니다.

베이즈 기법이란 관측된 데이터와 사전 확률을통해 해당 대상의 사후 확률을 추론하는 방법

 

나이즈베이 분류란 모든사건이 독립이야한다는 가정을 따름

 

 

비모수 통계 종류

부호검정

월콕슨 부호 순위 검정

월콘슨 순위함 검정

크로스칼 알리스 검정

런검정이있다.

반응형