실무에서 어떻게 사용할지에 대한 내용을 위주로 수업 진행
데이터 분석 절차
데이터 수집 -> 데이터 전처리 -> 탐색적 데이터 분석- > 모델 선택 -> 평가 및 적용
Data Collection -> Data Preprocessing -> EDA : Exploratory Data Analysis -> Model Selection -> Evaluation & Depolyment
데이터 전처리 + 탐새적 데이터 분석
- 데이터 정제
- 결측치 / 이상치 처리
- 극단치 분석
- 데이터 스케일 맞추기(Feature Scaling)
- 더미 변수화(Dummification)
- 차원 축소(Dimensionality Reduction)
모델 선택 + 평가 및 적용
- 학습/검증셋 분리
- Normalization ,Standardization, Regularization
- Cross Validation, GridSearchCV, 차원 축소
- 모델학습 model.fit
- 모델 예측 model.predict
- 모델 평및 검증
데이터 전처리를 어떻게 하느냐에 따라 성능이 갈리는 경우가 많다.
데이터 전처리, Feature Engineering
Feature Converting (변수 변환)
Feature Scaling (변수 스케일링) -> Data Preprocessing
Feature Extraction (변수 추출) Feature Engineering
Feature Selection (변수 선택)
데이터 분석 결과를 크게 좌우
데이터 기본 개요
1일차
데이터에 따른 구분 분석
데이터와 분석 간의 관계 | 독립 변수(Features) | ||
범주형 | 수치형 | ||
종석 변수(Y) | 범주형 | 교차 분석 | 분류(Classificatinos) 로지스틱 회귀 분석 |
수치형 | t-test ANOVA(분산분석) |
상관분석 회귀(Regression) |
정형, 비정형 데이터
정형 데이터 | 반정형 데이터 | 비정형 데이터 | |
특징 | 데이터 스키마 지원 | 스키마에 해당하는 메타 데이터가 데이터 내부에 존재 | - 데이터 세트가 아니라 하나의 데이터가 객체화 되어 있음 - 구조화 되어 있지 않아 해석이 어려움 |
탐색 방법 | - 스키마 구조를 통해 탐색 가능 - 스키마 정보를 관리하는 DBMS를 통해 탐색 |
데이터 내부에 있는 규칙성을 파악해 파싱 규칙 적용 | 이진 파일 형태의 데이터일 때 데이터 탐색 방법은 종류별로 응용 소프트웨어를 이용하여 탐색 |
예시 | - RDBMS의 테이블들 - 스프레드 시트 |
- HTML - URL 형태로 존재 - XML, JSON - 오픈 API 형태 - 로그 형태 - 웹 로그, IOT에서 제공하는 센서 데이터 |
- 이진 파일 형태 : 동영상, 이미지 - 스크립트 파일 형태 : 소설 데이터의 텍스트 |
데이터 차원 | 행, 열 구성 2차원 | 파싱 적용 후 행, 열 2차원 | 3차원 이상 |
1. 데이터 기본 구조 이해 : 차원과 벡터
Vector : 연속 또는 이산 숫자 배열
Vector Space : 벡터로 구성된 공간
x와 y방향으로 평면에서 움직이는 각 각 속도 Vx, Vy
Sclar : 1차원 벡터로 크기만 있고 방향성이 없는 양
선형대수학(Linear Algebra)은 벡터 공간, 벡터, 선형 변환, 행렬, 연릭 선형 방정식 등을 연구하는 대수학의 한 분야.
벡터 공간이 주 연구대상.
DataFrame 상호변환
darray, 리스트 딕셔너리 dataframe 생성 : 2차원 (행,열)이하, 컬럼명 지정
df.values() -> ndarry 반환
df.values.tolist() -> 리스트 반환
df.to_dict() -> 딕셔너리 반환
OpenCV는 RGB 대신에 BGR 컬러 포맷 사용
3차원 데이터는 텐서?
이미지는 텐서로 이해하면 되나?
딥러닝은 연산이 많기 때문에 경량화를 해야한다.
예) dtype : unit8
2. Feature Enginerring : 데이터 전처리
3. Machine Learning 개요
Machine learning allows computers to learn and infer from data.
머신러닝과 딥러닝의 차이 정확히 찾아보기
Types of Machine Learning
Supervised : Datapoints have known outcome
unSupervised : Data points have unknown outcome
지도학습과 비지도학습의 차이 정확히 찾아보기
Machine Learning 핵심 Factor
1. Loss function( Cost function)
2. Paramteter, Hyperparameter
3. Regression Performace measure
- MSE, MAE, RMSE, R-square
4. Classification Performace
- Confusion matrix, f1-score, AUC/ROCN
5. Bias - Variance trade-off
- Overfitting, underfitting
6. Bootstrap aggregating(Bagging)
parameter : 데이터를 통해, 데이터에 의존하여 나온 파라미터
Hyperparameter : 사람이 직접 값들을 부여하는 파라미터
1. Hyperparameter Search
2. Feature Enginerring
3. Model Evaluation
비지도학습? semi supervised?, anomaly detection 보안감지??
4. Regression : 회귀
Regression시 스캐터를 사용하는 것이 좋다.
사이킷런 Regression에서 하급시 독립변수를 하나 넣으면 안된다.
데이터가 하나인 경우 새로운 값을 추가 해야 한다.
그렇지 않다면 해당 데이터를 Series 에서 Dataframe을 바꿔준다.
예 ['feature'] -> [['feature']], 대괄호 추가
RFE(Recursive Feature Elimination)
통계에서 T value를 보고 필요없는 피처들은 지워버리고 학습하는 방식
R-Square와 T value의 관계?
2일차
Classification
KNNs
Naive Bayes
Logistic Regression
Optimization 최적화 방법