실무에서 어떻게 사용할지에 대한 내용을 위주로 수업 진행

 

데이터 분석 절차

데이터 수집 -> 데이터 전처리 -> 탐색적 데이터 분석- > 모델 선택 -> 평가 및 적용

Data Collection -> Data Preprocessing -> EDA : Exploratory Data Analysis -> Model Selection -> Evaluation & Depolyment

 

데이터 전처리 + 탐새적 데이터 분석

- 데이터 정제

- 결측치 / 이상치 처리

- 극단치 분석

- 데이터 스케일 맞추기(Feature Scaling)

- 더미 변수화(Dummification)

- 차원 축소(Dimensionality Reduction)

 

모델 선택 + 평가 및 적용

- 학습/검증셋 분리

- Normalization ,Standardization, Regularization

- Cross Validation, GridSearchCV, 차원 축소

- 모델학습 model.fit

- 모델 예측 model.predict

- 모델 평및 검증

 

데이터 전처리를 어떻게 하느냐에 따라 성능이 갈리는 경우가 많다.

 

데이터 전처리, Feature Engineering

Feature Converting (변수 변환)

Feature Scaling (변수 스케일링)                    ->           Data Preprocessing

Feature Extraction (변수 추출)                                     Feature Engineering

Feature Selection (변수 선택)

 

데이터 분석 결과를 크게 좌우

 

데이터 기본 개요

 

 

 

1일차

데이터에 따른 구분 분석

데이터와 분석 간의 관계 독립 변수(Features)
범주형 수치형
종석 변수(Y) 범주형 교차 분석 분류(Classificatinos)
로지스틱 회귀 분석
수치형 t-test
ANOVA(분산분석)
상관분석
회귀(Regression)

 

정형, 비정형 데이터

  정형 데이터 반정형 데이터 비정형 데이터
특징 데이터 스키마 지원 스키마에 해당하는 메타 데이터가 데이터 내부에 존재 - 데이터 세트가 아니라 하나의 데이터가 객체화 되어 있음
- 구조화 되어 있지 않아 해석이 어려움
탐색 방법 - 스키마 구조를 통해 탐색  가능
- 스키마 정보를 관리하는 DBMS를 통해 탐색
데이터 내부에 있는 규칙성을 파악해 파싱 규칙 적용 이진 파일 형태의 데이터일 때 데이터 탐색 방법은 종류별로 응용 소프트웨어를 이용하여 탐색
예시 - RDBMS의 테이블들
- 스프레드 시트
- HTML - URL 형태로 존재
- XML, JSON - 오픈 API 형태
- 로그 형태 - 웹 로그, IOT에서 제공하는 센서 데이터
- 이진 파일 형태 : 동영상, 이미지
- 스크립트 파일 형태 : 소설 데이터의 텍스트
데이터 차원 행, 열 구성 2차원 파싱 적용 후 행, 열 2차원 3차원 이상

 

1. 데이터 기본 구조 이해 : 차원과 벡터

Vector : 연속 또는 이산 숫자 배열

Vector Space : 벡터로 구성된 공간

x와 y방향으로 평면에서 움직이는 각 각 속도 Vx, Vy

 

Sclar : 1차원 벡터로 크기만 있고 방향성이 없는 양

 

선형대수학(Linear Algebra)은 벡터 공간, 벡터, 선형 변환, 행렬, 연릭 선형 방정식 등을 연구하는 대수학의 한 분야.

벡터 공간이 주 연구대상.

 

 

DataFrame 상호변환

darray, 리스트 딕셔너리 dataframe 생성 : 2차원 (행,열)이하, 컬럼명 지정

df.values() -> ndarry 반환

df.values.tolist() -> 리스트 반환

df.to_dict() -> 딕셔너리 반환

 

OpenCV는 RGB 대신에 BGR 컬러 포맷 사용

 

 

3차원 데이터는 텐서?

이미지는 텐서로 이해하면 되나?

 

 

딥러닝은 연산이 많기 때문에 경량화를 해야한다.

예) dtype : unit8

 

 

2. Feature Enginerring : 데이터 전처리

 

3. Machine Learning 개요

Machine learning allows computers to learn and infer from data.

 

머신러닝과 딥러닝의 차이 정확히 찾아보기

 

Types of Machine Learning

Supervised : Datapoints have known outcome

unSupervised : Data points have unknown outcome

 

지도학습과 비지도학습의 차이 정확히 찾아보기

 

 

Machine Learning 핵심 Factor

1. Loss function( Cost function)

2. Paramteter, Hyperparameter

3. Regression Performace measure

- MSE, MAE, RMSE, R-square

4. Classification Performace

- Confusion matrix, f1-score, AUC/ROCN

5. Bias - Variance trade-off

- Overfitting, underfitting

6. Bootstrap aggregating(Bagging)

 

parameter : 데이터를 통해, 데이터에 의존하여 나온 파라미터

Hyperparameter : 사람이 직접 값들을 부여하는 파라미터

 

1. Hyperparameter Search

2. Feature Enginerring

3. Model Evaluation

 

 

 

비지도학습? semi supervised?, anomaly detection 보안감지??

 

 

4. Regression : 회귀

 

Regression시 스캐터를 사용하는 것이 좋다.

 

사이킷런 Regression에서 하급시 독립변수를 하나 넣으면 안된다.

데이터가 하나인 경우 새로운 값을 추가 해야 한다. 

그렇지 않다면 해당 데이터를 Series 에서 Dataframe을 바꿔준다.

예 ['feature'] -> [['feature']], 대괄호 추가

 

 

RFE(Recursive Feature Elimination)

통계에서 T value를 보고 필요없는 피처들은 지워버리고 학습하는 방식

R-Square와 T value의 관계?

 

 

 

 

2일차

Classification

KNNs

Naive Bayes

Logistic Regression

Optimization 최적화 방법

 

 

 

 

+ Recent posts