분류 전체보기 47

실루엣 계수

### 군집평가 - 실루엣 분석 각 군집 간의 거리가 얼마나 효율적으로 분리돼 있는지를 나타낸다. 개별 데이터가 가지는 군집화 지표인 실루엣 계수를 기반으로 한다. 개별 데티어가 자니는 실루엣 계수는 해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집에 있는 데이터와는 얼마나 멀리 분리돼 있는지를 나타낸다 실루엣 계수는 -1에서 1사이의 갑을 가지며, 1로 가까워질수록 근처의 군집과 더 멀리 떨어져 있다는 것이고 0에 가까울수록 근처의 군집과 가까워진다는 것이다. 실루엣 계수가 -값이라는 것은 해당 데이터의 군집화가 잘못 되었다는 뜻이다.

머신러닝 2022.04.28

SVD 특이값 분해

SVD는 정방행렬(즉, 행과 열의 크기가 같은 행렬) 뿐만 아니라 행과 열의 크기가 다른 m x n 행렬도 분해가 가능하다. SVD는 차원 축소를 위한 행렬 분해를 통해 Latent Factor(잠재 요인)를 찾을 수 있는데 이렇게 찾아진 Latent Factor는 많은 분야에 활용된다. 사이킷런에서는 Truncated SVD로 차원을 축소할 때 원본 데이터에 적용하여 차원축소 SVD 활용: 이미지 압축/변환, 추천 엔진, 문서 잠재 의미 분석, 의사 역행렬을 통한 모델 예측 # numpy의 svd 모듈 import import numpy as np from numpy.linalg import svd # 4X4 Random 행렬 a 생성 np.random.seed(121) a = np.random.ran..

데이터 전처리 2022.04.26

LDA(Linear Discriminant Analysis)

LDA 는 선형 판별 분석법으로 불리며 PCA와 매우 유사하다. LDA는 PCA와 유사하게 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법이지만, 중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소한다. PCA는 입력 데이터의 변동성의 가장 큰 축을 찾았지만, LDA는 입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾는다. LDA는 같은 클래스의 데이터는 최한 근접해서, 다른 클래스의 데이터는 최대한 떨어뜨리는 축 매핑을 한다.

데이터 전처리 2022.04.26

PCA- UCI 크레딧 카드 실습

캐글에서 데이터 셋 다운로드 후 데이터 로드 https://www.kaggle.com/datasets/uciml/default-of-credit-card-clients-dataset Default of Credit Card Clients Dataset Default Payments of Credit Card Clients in Taiwan from 2005 www.kaggle.com df_credit = pd.read_csv("../datasets/UCI_Credit_Card.csv") 속성과 클래스로 데이터 분류 df_credit.rename(columns = {'PAY_':'PAY_1', 'default.payment.next.month':'default'}, inplace = True) # 속성과 ..

데이터 전처리 2022.04.26

차원 축소 (PCA- 주성분 분석)

### 차원 축소 학습 데이터 크기를 줄여서 학습 시간 절약 불필요한 피처들을 줄여서 모델 성능 향상에 기여 다차원의 데이터를 3차원 이하의 차원 축소를 통해서 시각적으로 보다 쉽게 데이터 패턴 인지 피처 선택: 특정 피처에 종속성이 강한 불피요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것 피처 추출은 기존 피처를 단순 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 라느 공간으로 매핑해 추출하는 것 PCA: 고차원의 원본 데이터를 저 차원의 부분 공간으로 투영하여 데이터를 축소하는 기법 PCA는 원본 데이터가 가지는 데이터 변동성을 가장 중요한 정보로 간주하며 이 변동성에 기반한 원본 데이터 투영으..

데이터 전처리 2022.04.25

마크 다운

Markdown은 텍스트 기반의 마크업언어로 2004년 존그루버에 의해 만들어졌으며 쉽게 쓰고 읽을 수 있으며 HTML로 변환이 가능하다. 특수기호와 문자를 이용한 매우 간단한 구조의 문법을 사용하여 웹에서도 보다 빠르게 컨텐츠를 작성하고 보다 직관적으로 인식할 수 있다. 장점 간결하다. 별도의 도구없이 작성 가능하다. 다양한 형태로 변환이 가능하다. 텍스트(Text)로 저장되기 때문에 용량이 적어 보관이 용이하다. 텍스트파일이기 때문에 버전관리시스템을 이용하여 변경이력을 관리할 수 있다. 지원하는 프로그램과 플랫폼이 다양하다. 단점 표준이 없다. 표준이 없기 때문에 도구에 따라서 변환방식이나 생성물이 다르다. 모든 HTML 마크업을 대신하지 못한다. 큰 제목 작성시 제목 1 ===== 작은 제목 표시시..

git 2022.04.20

깃허브(github)

깃허브(GitHub)는 분산 버전 관리 툴인 깃 저장소 호스팅을 지원하는 웹 서비스이다. 루비 온 레일스로 작성되었다. GitHub는 영리적인 서비스와 오픈소스를 위한 무상 서비스를 모두 제공한다. 2009년의 Git 사용자 조사에 따르면 GitHub는 가장 인기있는 Git 저장소 호스팅 서비스이다. 또한 2011년의 조사에서는 가장 인기있는 오픈 소스 코드 저장소 호스팅 서비스로 꼽혔다. 깃이 텍스트 명령어 입력 방식인데 반해, 깃허브는 그래픽 유저 인터페이스(GUI)를 제공한다. 깃허브는 페이스트빈(pastebin)과 유사한 서비스인 Gist와 위키를 각 저장소마다 운영하고 있으며, 깃 저장소를 통해 고칠 수 있다 깃허브 용어 로컬 저장소 -파일이나 디렉토리를 저장하고 있는 장소. 내 컴퓨터에 있는 ..

git 2022.04.20

Linear Regression

#### sklearn.linear_model.LinearRegression class sklearn.linear_model.LinearRegression(*, fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None, positive=False) linear Regression 은 예측값과 실제 값의 RSS를 최소호해 OLS 추정 방식으로 구현한 클래스이다. 선형 회귀 의 다중 공선성 문제 일반적으로 선형 회귀는 입력 피처의 독립성에 많은 영향을 받는다. 이러한 현상을 다중공선성 문제라고 하며 일반적으로 상관관계가 높은 피처가 많은 경우 독립적인 중요한 피처만 남기고 제거하거나 규제를 적용한다. 회귀 평가 지표 sklearn.linear..

머신러닝 2022.04.15

회귀- 경사 하강법

Implement of easy instance In [1]: import numpy as np import matplotlib.pyplot as plt %matplotlib inline np.random.seed(0) # y= 4x+6 식을 근사(W1=4 w0=6). random 값은 Noise를 위해 만듬 X = 2*np.random.rand(100,1) y = 6+4*X+np.random.randn(100,1) # X, y 데이터 셋 scatter plot으로 시각화 plt.scatter(X,y) Out[1]: Vanilla Gradient Descent(일반 경사 하강법) In [3]: # w1 과 w0 를 업데이트 할 w1_update, w0_update를 반환. def get_weight_up..

머신러닝 2022.04.15
728x90