분류 전체보기 47

Parquet

데이터를 쉽게 접근할 수 있도록 csv로 저장해서 사용한다. 하지만 csv는 메타데이터를 저장할 수 없어 칼럼 별로 dtype을 다시 지정해줘야 하는 일이 생기며, 읽고 쓸 때 시간이 많이 걸린다는 단점이 있다. 이를 보완하기 위해 pickel, parquet, hdf5 와 같은 다양한 데이터 포맷을 사용하는데 그중 parquet에 대해서 알아보고자 한다. 1. pandas 에서 간단한 parquet 사용하기 # !pip install fastparquet # save import pandas as pd df = pd.DataFrame() df.to_parquet('sample.parquet', compression='gzip') # read df = pd.read_parquet('sample.parqu..

Python 2022.09.04

6개월 간의 유비온 빅데이터 분석가 과정 후기

학부 졸업후 데이터 분석가가 되기 위해 들었던 1월 부터 7월 까지 약 6개월동안의 수업이 마무리 되었습니다. 1월부터 4월 중순까지는 기본 파이썬과, sql, 머신러닝, 딥러닝 등을 배우고 이 후 조별로 총 3번의 프로젝트를 진행하였습니다. 3번의 프로젝트 동안 ADSP와 빅데이터 분석기사도 같이 준비하다보니 중간에 지치기도 하였지만 끝까지 포기하지 않고 2개의 자격증을 모두 취득하였고 또 한 프로젝트에서는 수상까지 하여 보람찬 6개월을 보냈다고 생각합니다. 특히 마지막 프로젝트의 경우 리더로써 팀을 어떻게 해야 잘 이끌어가고 팀원과의 협력을 최대화 할 수 있을지 많이 고민하며 끝까지 최선을 다해 프로젝트를 마무리 한 것 같습니다. 6개월전의 저와 지금의 저를 비교한다면 지금은 6개월간의 수업과 빅데이..

추천 시스템

사용자와 상품 사이의 관계를 분석하고 연관관계를 찾아 고객에게 추천해주는 시스템이다. 추천점수: 1) 분석된 사용자와 아이템 정보를 바탕으로 추천점수를 계산한다. 2) 사용자 또는 상품 프로필에서 어떤 정보를 사용할지에 따라 추천 알고리즘을 결정한다. 3) 사용자 또는 아이템을 추천하기 위해 각각의 아이템 또는 사용자에 대한 정량화된 기준이 필요하다. 4) 추천 알고리즘의 목적은 점수화(Scoring) 하는 것이다. 추천시스템 방식 1. 콘텐츠 기반 추천시스템(Contents-based Recommender System) 사용자가 과거에 좋아했던 아이템을 파악하고 그 아이템과 비슷한 아이템을 추천한다. 2. 협업 필터링 비슷한 성향 또는 취향을 갖는 다른 유저가 좋아한 아이템을 현재 유저에게 추천하는 것..

딥러닝 2022.05.16

RNN (순환신경망)

RNN 순환신경망 순환 신경망은 여러 개의 데이터가 순서대로 입력되었을 때 앞서 입력받은 데이터를 잠시 기억해 놓는 방법이다. 기억된 데이터가 얼마나 중요한지를 판단하여 별도의 가중치를 줘서 다음 데이터로 넘어간다. 모든 입력 값에 이 작업을 순서대로 실행하므로 다음 층으로 넘어가기 전에 같은 층을 맴도는 것처럼 보인다. → 이렇게 같은 층 안에서 맴도는 성질 때문에 순환 신경망이라고 부른다. RNN의 특성상 일반 신경망 보다 기울기 소실 문제가 더 많이 발생하고 이를 해결하기 어렵다는 단점을 보완한 LSTM(Long Short Term Memory) 방법을 함께 사용하고 있음 RNN 방식의 장점은 입력 값과 출력 값을 어떻게 설정하느냐에 따라 아래와 같이 3가지로 나눌수 있다. 다수 입력 단일 출력 단..

딥러닝 2022.05.11

CNN - mnist 데이터 셋

MNIST 데이터셋 CNN 활용하기 MNIST 데이터셋은 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원 등이 쓴 손글씨를 이용해 만든 데이터로 구성되어 있음 70,000개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋 머신러닝을 배우는 사람이라면 자신의 알고리즘과 다른 알고리즘의 성과 이미지는 가로 28 x 세로 28 = 총 784개의 픽셀로 이루어져 있음 각 픽셀은 발기 정도에 따라 0부터 255까지의 등급을 매김 흰색 배경이 0이라면 글씨가 들어간 곳은 1~255까지 숫자 중 하나로 채워져 긴 행렬로 이루어진 하나의 집합으로 변환됨 데이터 전처리 주어진 가로 28, 세로 28의 2차원 배열을 784개의 1차원 배열로 바꿔 주어야 함 이를 위해 reshape() 함수를 사용 r..

딥러닝 2022.05.11

퍼셉트론

퍼셉트론: 입력 값과 활성화 함수를 사용해 출력 값을 다음으로 넘기는 가장 작은 신경망 기본 단위이다. 퍼셉트론의 한계: AND, OR 게이트에 대해서는 구분이 가능하나 XOR문제 해결 하지 못하였다. from sklearn.linear_model import Perceptron # 샘플과 레이블이다. X = [[0,0],[0,1],[1,0], [1,1]] y=[0,0,0,1] # 퍼셉트론을 생성한다. tol는 종료 조건이다. # rnadom_state는 난수의 시드이다. clf= Perceptron(tol=1e-3, random_state = 0) # 학습을 수행한다. clf.fit(X,y) # 테스트를 수행한다. print(clf.predict(X)) 다층 퍼셉트론: 퍼셉트론의 입력층과 출력층 사이에..

딥러닝 2022.04.29

딥러닝 기초

머신러닝은 데이터를 이용해 앞 일을 예측하는 기법이고 딥러닝은 머신러닝 중 가장 좋은 효과를 내는 것이다. 딥러닝 작동시키는 법 자신의 컴퓨터에 필요한 프로그램을 설치해 사용 (쥬피터 노트북, 파이참) 구글 코랩을 이용 텐서플로우(TensorFlow)는 딥러닝 프레임워크의 일종이다. 텐서플 로우는 내부적으로 C/C++로 구현되어 있고 파이썬을 비룻하여 여 러 가지 언어에서 접근할 수 있도록 인터페이스를 제공한다. # 딥러닝을 구동하는 데 필요한 케라스 함수를 불어온다. from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense import numpy as np import tensorflow as tf #..

딥러닝 2022.04.29
728x90