본문 바로가기
반응형

전체 글34

part2 빅분기 데이터 결측값 처리 절차 결측값 식별 부호화 처리 데이터 결측값 처리방법 완선분석법 평균대치법 단순확률 대치법 최근점 대치법 다중대치법종류 대치,분석,결합 데이터 이상값탐지방법 esd 기하평균 사분위수 확률밀도함수 히스토그램 시계열차트 군집화 의사결정나무 거리기반 밀도기법 이상값 처리방법 삭제,대체,변환 필터기법:상관관계 사용 레퍼기법:모델을 사용함 변수 선택 알고리즘 전진 선택법 후진 소거법 단계적 방법 2024. 3. 21.
part4 빅분기 필기 시험 내가보려고 만든 블로그 모형평가 지표 이상적인 모형은 편향과 분산이 낮다 모형평가지표는 종속변수의 유형에 따라 회귀 모형 평가 지표와 분류 모형 평가 지표로 구분된다, 연속형(회귀):RMSE,MSE,결졍계수등 범주형:정확도,정밀도,민감도 등 회귀모형 평가지표 mae:오차의 절댑값의 합으로 평군 mse rmse:평균제곱의 근으로 계산 ae:오차의 평균 mape:절대 평균 백분률오차 mpe:평균 백분률 오차 결정계수 지표 R2:결정계수 SSR:회귀 제곱합 SSE:오차 제곱합 SST:전체 제곱합 수정된 결정계수 지표 adjusted R2:수정된 결정계수 mallow's Cp mallow가 제안한 회귀모형,유의하지 않는 독립변수에 패널티 부여 회귀모형 검정 지표 다중공선성 분산팽창요인 aic bic 혼돈행렬 성능 지표 계산 정확도 오.. 2024. 3. 21.
빅분기 part1 내가 공부하려고만든 블로그 빅데이터 특징 규모,유형,주기가 큰 데이터 지식창조 매커니즘 내공표연 빅데이터 등장 배경 수집.저장,통신,분석 빅데이터의 산업 발전 처리,통합,분석,연결,권리 빅데이터 활용단계 도입 ,구축,운영 빅데이터 도입 3요소 기술,인력,자원 분석성숙도 평가 4단계 도입,활용,확산,최적화 빅데이터 조직유형 집중형:별도의 전담조직이 집중적수행 기능형:가장일반적임 분산형:모법사례공유가능 데이터 거버넌스 란 데이터관리 체계를 수립하여 데이터 조직과 프로세스를 관리하는 것을 의미함 데이터 거버넌스 주요기능 4가지 데이터품질관리,메타데이터관리,데이터주기관리,데이터 보안및 프라이버시 데이터 분석과정 데이터수집,저장,처리,가공,분석 분석기획유형 발견,통찰,솔루션,최적화 데이터 분석 계층 단계,테스트,스탭 데이터 분석절차 분석기.. 2024. 3. 21.
빅데이터 모델링 분석모형 단순하게 패턴화 시킨것을 말한다 현실의 복잡한 문제의 단순화를 통해 변수간의 관계로 정의하는 것을 의미함 통계 분석모형구분6가지 기술통계 상괁분석 회귀분석 분산분석 주성분 분석 판별분석 데이터 마이닝 기반 분석 모형 예측,분류,군집,연관 요구사항의 정의 요구사항이란 도출,설계,정의등을 수행 모형구축 모형구축이란 시물레이션,최적화기법을 사용한것 정의->모형구축->검증및 평가->운영및 유지보수 데이터 분할이란 주어진 데이터에 대해서만 높은 성능을 보이는 문제를 방지하고 전체 데이터를 분할하여 사용함 회귀분석을 하귀위해서는 선형성,정규성,독립성,등분산성을 충족해야만한다. 로지스틱 회귀분석 오즈함수에 로그를 취하후 역함수를 취해 도출함 오즈와 오즈비 특정사건이 발생할확률을 p라면 사건이 발생하지않을 확.. 2024. 3. 20.
반응형