티스토리

criling

검색하기

블로그 홈

criling

criling.tistory.com/m

criling 님의 블로그입니다.

구독자: 0

방명록 방문하기

주요 글 목록

[빅리더_딥러닝_0729] 원 핫 인코딩은 레이블 인코딩 후 진행한다. Softmax 큰 숫자는 비중을 더 키워주고 작은 숫자는 비중을 더 작게 만들어 준다. CNN(Convolutional Neural Networks) 컴퓨터 비전, 자연어처리도 할 수 있다. 피처를 뽑아내는 것이 중요하다. 피처 추출, 하나의 피처가 컬럼이 되어 딥러닝을 진행한다. 피처 추출이 컴퓨터 비전과는 다른다. - Most widely userd for image classification - Generally, it consists of convolution layer, pooling layer and fully-connected layer - wieght(parameter, filter, kernel) sharing - convolution, poo.. 공감수 0 댓글수 0 2021. 7. 29.
[빅리더_딥러닝_0728] XOR는 직선 하나로 +와 -를 구분할 수 없다. 그래서 선을 그어 새로운 축을 만들어 설명해보겠다. Back Propagation 딥러닝이 잘 안된 이유 1. 레이블 된 데이터 셋이 수 천배 작았다. 2. 컴퓨터가 너무 느렸다. 3. 초기 가중치 값을 멍청하게 잡았다. 4. 데이터 타입이 안맞았다? 1. Our labeld datasets were thousands of tiems to small 2. Our computers were millions of tiems too slow 3. We initialized the weights in a stupid way 4. We used the wrong type of non linearity 가중치 스케일링?, 초기화 DBM 좀더 정확하게 찾기 위해 Xa.. 공감수 0 댓글수 0 2021. 7. 28.
[빅리더_딥러닝_0727] data : 10000, batch_szie: 1000, epochs: 100 위의 경우 데이터 10000개 중 1000개를 뽑으나 랜덤으로 뽑고 1000개 학습 시 한 epoch으로 친다. 1000개의 데이터에 대해 iteration은 10을 가지고 10000개를 모두 학습하는 것이 1 epoch이다. SGD(Stochastic Gradient Descent) 확률적 경사하강법 샘플을 랜덤하게 분리해 그것만 가지고 학습을 시킨다. data : 10000, batch_szie: 1000, epochs: 100 위의 경우 데이터 10000개 중 1000개를 뽑으나 랜덤으로 뽑고 1000개 학습 시 한 epoch으로 친다. 데이배치사이즈는 100으로 둔다면 학습이란 경사하강법에 의해서 lr에 이전에 미분했던.. 공감수 0 댓글수 0 2021. 7. 27.
[딥러닝(Deep_Learning)] 신경망(Neural Network) 3. 신경망 가중치 매개변수의 적절한 값을 데이터로부터 자동으로 학습하는 능력이 신경망의 중요한 성질입니다. 신경망이 입력 데이터가 무엇인지 식별하는 처리 과정을 알아봅니다. 3.1 퍼셉트론에서 신경망으로 신경망의 예 입력층 ... 은닉층 ... 출력층 가중치를 갖는 층은 2개(입력층, 은닉층)뿐이기 때문에 ‘2층 신경망’이라고 합니다. 문헌에 따라 신경망을 구성하는 층수를 기준으로 ‘3층 신경망’이라고 하는 경우도 있습니다. 활성화 함수 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수(Activation Function)이라 합니다. 즉, 입력 신호의 총합이 활성화를 일으키는지를 결정하는 역할을 합니다. 3.2 활성화 함수의 종류 퍼셉트론과 앞으로 볼 신경망의 주된 차이는 이 활.. 공감수 0 댓글수 0 2021. 7. 26.
[딥러닝(Deep_Learning)] 퍼셉트론(Perceptron) 인공지능이란? 인공지능(AI, Artificial Intelligence)은 사람의 지능을 모방하여 사람이 하는 것과 같이 복잡한 일을 할 수 있는 기계를 만드는 것을 말합니다. 인공지능이 가장 넓은 개념이고, 인공지능을 구현하는 방법 중 중요한 방법이 기계학습 또는 머신러닝입니다. 딥러닝은 머신러닝의 여러 방법 중 중요한 방법론이며 인공신경망의 한 종류입니다. 즉, 인공지능 > 머신러닝 > 인공신경망 > 딥러닝 관계가 성립합니다. 2. 퍼셉트론 2.1 퍼셉트론(인공 뉴런) 이란? 신경망(딥러닝)의 기원이 되는 알고리즘, 다수의 신호를 입력받아 하나의 신호를 출력, 입력 신호가 뉴런에 보내질 때는 각각 고유한 가중치가 곱해진다. 뉴런에서 보내온 신호의 총합이 정해진 한계(임계값)를 넘어설 때만 1을 출력.. 공감수 0 댓글수 0 2021. 7. 26.
[빅리더_딥러닝_0726] 딥러닝의 기본적인 부분 암 오진 피해 사례 암 오진율 40%, 오진 의심 시 진료기록을 확보해야한다. 머신러닝 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 차원 별 데이터 2차원 데이터: 벡터, 데이터 (samples, features) 3차원: 시계열 데이터, sequence data (samples, timesteps, features) 4차원 : 영상 (samples, height, width, channels) or (samples, channels, height, width) ㄴ Channel last (Tensorflow) ㄴ Channel First(pytorch, Theano) 5차원 : 동영상 (samples, frames, height, width, channels) 회귀.. 공감수 0 댓글수 0 2021. 7. 26.
[군집화(Clustering)] DBSCAN(Density based Spatial Clustering of Applications with Noise) DBSCAN은 간단하고 직관적인 알고리즘으로 되어 있지만 데이터의 분포가 기하학적을 복잡한 데이터 세트에도 효과적인 군집화가 가능하다. 내부의 원모양과 외부의 원 모양 형태의 분포를 가진 데이터 세트는 K 평균, 평균 이동, GMM으로 효과적인 군집화는 수행이 어렵다. DBSCAN은 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적인 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행한다. DBSCAN을 구성하는 가장 중요한 두 가지 파라미터는 입실론(epsilon)으로 표기하는 주변 영역과 이 입실론 주변 영역에 포함되는 데이터의 개수 min points이다. - 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 - 최소 데.. 공감수 0 댓글수 0 2021. 7. 21.
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] GMM(Gaussian Mixture Model) GMM(Gaussian Mixture Model) 군집화를 적용할 데이터가 여러개의 가우시간 분포를 가진 데이터 집합들이 섞여 생성된 것이라는 가정 하에 군집화를 수행하는 방식. 정규 분포는 평균 u(뮤)를 중심으로 높은 데이터 분포도를 가지고 있으며, 좌우 표준편차 1에 전체 데이터의 68.27%, 좌우 편차 2에 전체 데이터의 95.45%를 가지고 있습니다. 평균이 0이고, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다. GMM은 데이터 여러개의 가우시안 분포가 섞인 것으로 간주한다. 즉, 각 각의 가우시안 분포가 개별 군집이 되는 것이다. 전체 데이터 세트는 서로 다른 정규 분포 형태를 가진 여러가지 확률 분포 곡선으로 구성될 수 있으며 이러한 서로 다른 정규 분포에 기반해 군집화를 수행하는.. 공감수 0 댓글수 0 2021. 7. 21.
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] 평균 이동(Mean Shift) 평균 이동(Mean Shift) K-평균과 비슷하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행 K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 반면, 평균 이동 중심은 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동 평균 이동 군집화를 데이터 분포도를 이용해 군집 중심점을 찾는다. 이를 위해 확률 밀도 함수(probability density function)를 이용한다. 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE(Kernel Density Estimation)를 이용한다. (표현은 확률 밀도 함수를 찾는다고 했지만 확률 밀도 함수를 정하여 밀도가 특정 데이터를 반경 내의 데이터 분포 확률 밀도가 가장 높은 곳으로 이동하기 위해 주변 데이터와의 거리 값을 KDE 함.. 공감수 0 댓글수 0 2021. 7. 21.
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] 군집 평가(Cluster Evaluation) 군집화는 분류(Clasification)와 비슷해 보일 수 있으나 성격이 많이 다르다. 데이터 내에 숨어 있는 별도의 그룹을 찾아서 의미를 부여하거나 동일한 분류 값에 속하더라도 그 안에서 더 세분화된 군집화를 추구하거나 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가지고 있다. 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하긴 어렵다 그럼에도 군집화의 성능을 평가하는 대표적인 방법으로 실루엣 분석을 이용한다. 실루엣 분석(silhouette analysis) 각 군집 간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타낸다. 효율적으로 잘 분리됐다는 것은 다른 군집과의 거리는 떨어져 있고 동일 군집끼리의 데이터는 서로 가깝게 잘 뭉쳐 있다는 의미이다. 실루엣 분석은 실루엣.. 공감수 0 댓글수 0 2021. 7. 21.
[파이썬 머신러닝 완벽가이드 - 군집화(Clustering)] K-means Clustering K-평균은 군집 중심점(centroid)라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법. 군집 중심점 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행. 모든 데이터 포인트에서 더 이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법. 1. k개의 군집 중심점 설정 2. 각 데이터는 k개의 중심점들 중 가장 가까운 중심점에 소속 3. 중심점에 할당된 데이터들의 평균 중심으로 중심점 이동 4. 중심점을 이동하였지만 데이터들의 중심점 소속 변경이 없으면 군집화 완료 K-평균의 장점 - 일반적인 군집화에서 가장 많이 활.. 공감수 0 댓글수 0 2021. 7. 21.
[파이썬 머신러닝 완벽가이드 - 회귀(Regression)] 경사 하강법(Gradient Descent) '데이터를 기반으로 알고리즘이 스스로 학습한다'는 머신러닝의 개념을 가능하게 만들어준 핵심 기법 중 하나. 회귀에서 비용 함수가 최소가 되는 W 파라미터 값을 구하기 위해 비용 함수의 반환 값, 즉 예측값과 실제 값의 차이가 작아지는 방향으로 W 값을 계속 업데이트 해 나간다. 이때 작아지는 방향을 미분을 통해 구한다. 비용 함수 = R(w), 미분된 비용함수 = R'(w), 기존 변수 = w1, 갱신된 변수 = w2, 학습율 = n 라고 가정한다. w2 = w1 -n*R'(w1) 위 식을 통해 w2가 점점 비용 함수의 최소값을 구할 수 있는 변수로 줄어들 것이다. 학습률(Learning Rate) n(에타)는 변수가 갱신되는 정도를 나타내며 학습률에 따라 최소값을 찾지 못하는 경우가 있다. R(w) =.. 공감수 0 댓글수 0 2021. 7. 16.
[머신러닝(Machine Learning)] - 0715 실무에서 어떻게 사용할지에 대한 내용을 위주로 수업 진행 데이터 분석 절차 데이터 수집 -> 데이터 전처리 -> 탐색적 데이터 분석- > 모델 선택 -> 평가 및 적용 Data Collection -> Data Preprocessing -> EDA : Exploratory Data Analysis -> Model Selection -> Evaluation & Depolyment 데이터 전처리 + 탐새적 데이터 분석 - 데이터 정제 - 결측치 / 이상치 처리 - 극단치 분석 - 데이터 스케일 맞추기(Feature Scaling) - 더미 변수화(Dummification) - 차원 축소(Dimensionality Reduction) 모델 선택 + 평가 및 적용 - 학습/검증셋 분리 - Normalizatio.. 공감수 0 댓글수 0 2021. 7. 15.
[파이썬 머신러닝 완벽가이드 - 회귀(Regression)] 회귀 : 한 바퀴 돌아 제자리로 돌아오거나 돌아감(네이버 어학사전) 하나의 종속 변수와 두 개 이상의 독립 변수 사이에 나타나는 관계를 치소 제곱법을 추정하는 방법(네이버 어학사전) 회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석(위키백과) 사전적 정의에 맞게 이해하기가 힘들다. 데이터 값이 평균으로 회귀하려는 경향을 가진다. 데이터가 추세선으로 회귀한다는 것은 어색하다. 추세선이 데이터를 따라 간다는 것이 더 맞는 것 같다. 회귀 '잔차(residual: 데이터의 실측치와 모델의 예측치 사이의 차이, 즉 회귀시겡서 오차항에 대한 관측치)가 평균으로 회귀한다'는 것을 의미 잔차가 평균으로 회귀하도록 만든 모델 회귀 모델링은 오차의 합이 최소가 되도록 만.. 공감수 0 댓글수 0 2021. 7. 13.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 샘플링(Sampling) 레이블이 불균형한 분포를 가진 데이터 세트는 학습 시 예측 성능에 문제가 발생할 수 있다. 이는 이상 레이블을 가지는 데이터 건수가 정상 레이블을 가진 데이터 건수에 비해 너무 적기 때문이다. 이를 해결하기 위해 오버 샘플링과 언더 샘플링을 주로 사용한다. 언더 샘플링 많은 데이터셋을 적은 데이터셋으로 감소시키는 방법 많은 레이블을 가진 데이터 세트를 적은 레이블을 가진 데이터 세트 수준으로 감소 너무 많은 정상 레이블 데이터를 감소 시킬 경우 제대로 된 학습이 안 될 수 있다. 오버 샘플링 이상 데이터와 같이 적은 데이터를 충분한 학습이 되도록 증식하는 방법 적은 레이블을 가진 데이터 세트를 많은 레이블을 가진 데이터 세트 수준으로 증식 단순히 데이터를 증식하는 것은 과적합을 유발하므려 원본 데이터의 .. 공감수 0 댓글수 0 2021. 7. 13.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] LightGBM Light GBM XGBoost와 함께 부스팅 계열 알고리즘에서 가장 각광 받고 있다. LightGBM의 가장 큰 장점은 XGBoost보다 학습에 걸리는 시간이 훨씬 적다. 또한 메모리 사용량도 상대적으로 적다. LightGBM과 XGBoost의 예측 성능은 별 차이가 없다. 한 가지 단점으로 알려진 것은 적은 데이터세트에서(약 10,000건이하)는 과적합이 발생하기 쉽다.(공식문서에 기술) GBM계열의 트리 분할 방법과 다르게 리프 중심 트리 분할(Leaf Wise)을 사용. 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할(Level Wise)방식을 사용 Level Wise : 균형 잡힌 트리 생성 -> 오버피팅에 강함, 균형 맞추는 시간이 필요 Leaf Wis.. 공감수 0 댓글수 0 2021. 7. 12.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] XGBoost(eXtra Gradient Boost) 트리 기반의 앙상블 학습에서 가장 각광 받고 있는 알고리즘 중 하나 GBM에 기반하고 있지만 GBM이 가진 '느린 수행 시간' 및 '과적합 규제(Regularization) 부재' 등의 문제를 해결 병렬 CPU환경에서 병렬 학습이 가능해 GBM대비 빠른 학습 시간을 가진다. Early Stopping 기능 기본 GBM의 경우 지정된 횟수(n_estimator)를 다 채워야 학습이 종료 되지만 XGBoost의 경우 부스팅 반복 횟수에 도달하지 않아도 예측 오류가 더 이상 개선되지 않는다면 반복을 끝까지 수행하지 않고 중지하여 수행시간을 개선할 수 있다. 독자적인 XGBoost 프레임 워크 기반의 XGBoost와 사이킷런과 연동되는 모듈로 나뉜다. 과적합 문제가 심각하다면 다음과 같이 적용할 것을 고려할 수.. 공감수 0 댓글수 0 2021. 7. 11.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 랜덤 포레스트(Random Forest), GBM(Gradient Boost Machine) 랜덤 포레스트(Random Forest) 랜덤 포레스트는 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가지고 있고, 다양한 영역에서 높은 예측 성능을 가지고 있다. 여러 결정 트리(트리들이 모여 숲(forest)이 된다)가 배깅 방식으로 전체 데이터를 샘플링하여 개별적으로 학습해 보팅을 통해 예측 결정을 하게 된다. 부트스트래핑(bootstrapping) 분할 방식 : 여러 개의 데이터 세트를 중첩되게 분리하는 것 Bagging = Bootstrap aggregating GBM(Gradient Boost Machine) Ada boost과 동작 과정이 유사하나 가중치 갱신에 경사 하강법을 사용한다는 것이 큰 차이이다. 일반적으로 GBM이 랜덤 포레스트보다 예측 성능이 조금 뛰어난 경우가 많다. 그러나 수.. 공감수 0 댓글수 0 2021. 7. 11.
[분류(Classifier)] 보팅 분류기(Voting Classifier) 공감수 0 댓글수 0 2021. 7. 11.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 앙상블 학습(Ensemble Learning) 앙상블 학습 앙상블 분류는 여러 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 예측을 도달하는 기법 이미지, 영상, 음성 등의 비정형 데이터의 분류는 딥러닝이 뛰어난 성능을 보이고 있지만, 대부분의 정형 데이터 분류 시에는 앙상블이 뛰어난 성능을 나타내고 있다. * 정형 데이터와 비정형 데이터 정형 데이터 : 데이터베이스와 같이 데이터 들의 특징을 분류할 수 있도록 규칙에 맞게 정리된 정보 비정형 데이터 : (이미지, 음성, 영상등) 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보(위키 백과) 앙상블 학습의 유형 : 보팅(Voting), 배깅(Baggin), 부스팅(Boosting) 이외에도 스태킹을 포함한 다양한 앙상블 방법이 있다. 보팅 : 다른 분류 알고리즘을 사용하여 투표를 .. 공감수 0 댓글수 0 2021. 7. 11.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 결정 트리(Decision Tree) 결정 트리 학습을 통해 데이터에 있는 규칙을 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것. 규칙노드 : 규칙 조건이 되는 것 리프노트 : 결정된 클래스(레이블) 값 새로운 규칙 조건마다 생성되는 '서브트리' 데이터세트에 피처가 있고 이러한 피처가 결합해 규칙 조건을 만들떄 마다 규칙 노드가 만들어진다. 많은 규칙이 있다는 것은 분류를 결정하는 방식이 더욱 복잡해지고, 트리의 깊이가 깊어져 과적합으로 이어지기 쉽다. 결정 노드는 정보 균일도가 높은 데이터 세트를 먼저 선택할 수 있도록 규칙 조건을 만든다 정보 이득 지수 = 1- 엔트로피 결정 트리는 정보 이득 지수로 분할 기준을 정한다. 엔트로피가 높은 수록 데이터가 혼잡하다. 지니 계수 = 0 가장 평등, 1 가장 불평등 지니계수가 낮을 수록 데.. 공감수 0 댓글수 0 2021. 7. 11.
[파이썬 머신러닝 완벽가이드 - 분류(Classifier)] 분류(Classification) 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 1. 학습 데이터로 데이터의 피처와 레이블 값(결정 값, 클래스 값)을 머신 러닝 알고리즘으로 학습 2. 새로운 데이터 값이 주어졌을 때 메지의 레이블 값 예측 분류 알고리즘 1. 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 2. 독립 변수와 종속 변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression) 3. 데이터 균일도에 따른 규칙 기반의 결정 트리(Decision Tree) 4. 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine) 5. 근접 거리를 기준으로 하는 최소 근접.. 공감수 0 댓글수 0 2021. 7. 11.

문의안내

티스토리
로그인
고객센터

티스토리는 카카오에서 사랑을 담아 만듭니다.