'분류 전체보기' 카테고리의 글 목록

[SQL] 테이블 생성하기(DROP DATABASES, CREATE DATABASE)

2022.10.06

DROP DATABASE IF EXISTS pokemon; CREATE DATABASE pokemon; USE pokemon; CREATE TABLE mypokemon( number INT, name VARCHAR(20) type VARCHAR(10) height FLOAT weight FLOAT ); INSERT INTO mypokemon(number, name, type, height, weight) VALUES(10,'caterpie', 'bug', 0.3, 2.9) (25, 'pikachu', electric, 0.4, 6) ; 번개표시 누르기 SELECT * FROM mypokemon;

SQL

[SQL] NULL처리 (IFNULL, NVL, ISNULL, COALESCE, NULLIF )

2022.09.29

오늘은 SQL에서의 다양한 Null처리 함수를 살펴보겠습니다 ~~ ✨ DBMS별로 지원하는 함수가 다르니, 필요한 함수를 잘 외워놓는게 중요할것같아요~~ 먼저, IFNULL, NVL, ISNULL은 다 같은 함수입니다! Null값을 다른 대체값으로 반환하는 함수에요~ 단, DBMS별로 사용하는 함수가 다릅니다! -> MySQL , Oracle, MS SQL 별로 각각 어떤 함수인지 볼까요? IFNULL (MySQL) 해당 Column의 값이 NULL을 반환할 때, 다른 값으로 출력할 수 있도록 하는 함수이다. 기본 구조 SELECT IFNULL(Column명, "Null일 경우 대체 값") FROM 테이블명; NVL (Oracle) * NVL 또는 ISNULL(표현식1, 표현식2) : 표현식1 의 결과값..

카테고리 없음

[Python] 데이터분석/모델링의 순서

2022.09.16

오늘은 파이썬으로 데이터 분석을 진행할때 어떠한 순서로 분석을 하면 좋은지 살펴보겠습니다 .🤹‍♂️💖 이 순서로 반드시 해야한다는 것은 아니에용! 필요하신 분들은 참고 부탁드려요🤩 1.EDA 데이터의 구성 확인, 상관분석 데이터 시각화 필요 라이브러리 설치 데이터 구성 확인 , 상관분석 데이터 시각화 2. 다양한 데이터분석 및 처리 text ( 한글, 영문) image (영상 제외) 3. 데이터 전처리 데이터 결측치 처리 라벨 인코딩/원핫 인코딩 x,y 데이터 분리 데이터 정규 분포화, 표준화 4. 머신러닝/딥러닝 모델링 scikit-learn, TensorFlow등을 활용하여 문제에 제시된 예측/분류를 위해 머신러닝 딥러닝 모델링 5. 모델 성능평가 모델 성능 평가 및 그래프 출력 6. 머신러닝/딥러닝..

SQL

[SQL튜닝] 효율이 좋은 쿼리 (대용량 데이터 처리)

2022.08.30

오늘은 대용량 데이터를 추출시 가장 중요한 성능이 좋은 쿼리 메모리를 덜쓰고, 빠르게 데이터를 추출하는 SQL 쿼리에 대해서 알아보겠습니다. SQL 쿼리를 효율적으로 짜는 것은 무엇일까요? 쿼리를 잘짠다? = 빨리 돈다, 메모리를 덜 쓴다 빨리돌고 메모리를 덜 쓰려면? = 필터링을 많이 한다 = join/group by하는 데이터는 최소한으로 한다 그렇습니다. 대용량의 데이터일 수록 데이터를 "작게"만들어야 하는 것이 중요해집니다. 대용량 데이터 SQL 튜닝의 핵심 데이터를 작게 만든다 1. 데이터를 작게 만들기 최대한 데이터를 한번에 잘라낼 수있게 작은 데이터가 join 이되고 group by 가 될 수있도록 2. 두개 이상 테이블 join시, "join 전"에 where/group by 등의 조건을 ..

SQL

[SQL] update, set - 테이블 내 데이터 값 변경하기

2022.08.30

update 문법 UPDATE [table name] SET [컬럼] = 변경할 값 WHERE [컬럼] 조건 update enrollments set year = 2015 where id >=20 and id

Data Analysis

휴리스틱(Heuristic) vs 알고리즘(Algorithm)

2022.08.23

휴리스틱이란? 발견법 간편법 어림법 추단법 알고리즘 과 휴리스틱 비교 알고리즘(Algorithm) : 컴퓨터는 알고리즘 기반 연산법, 모든 가능한 경우의 수 계산, AI의 특징 연산과정을 거쳐>최선의 판단을 내리는 방법 > AI가 우리의 선호의연관딘 > 엄청난 경우의수 계산>정보처리 휴리스틱(Heuristic) : 인간은 휴리스틱 기반 간편법, 제한된 경우의 수 계산, 인간의 특징 : 알고리즘과 달리 모든 경우의 수를 계산하는 것이 아니라 특정 기준에 따라 제한적인 경우의 수를 효율적으로 판단 최선의 답을 고르진 못할 수있겠지만, 적어도 빠르고 평균이상의 판단을 내릴때 유용 휴리스틱이 중요한 이유 1. 불충분한 시간과 정보 때문 2. 효율적인 판단 가능 참고 : https://www.youtube.com..

Python

장바구니 분석(apriori 알고리즘)

2022.08.22

import pandas as pd data = pd.read_csv('C:\jupyter\data.csv', encoding= 'unicode_escape') data = data.sort_values(['CustomerID', 'InvoiceNo'], ascending = True) data #StockCode 맨 뒤에 알파벳 붙어있는 애들(상품세부속성) 제외 위해서 # -> 숫자만 뽑아서 저장해서 'NewStockCode'컬럼으로 추가 data['NewStockCode'] = data.StockCode.str.extract('(\d+)') data #data.info() #dataset = data.query('-Description.isnull()').groupby('InvoiceNo')['Des..

Python

pandas, numpy 라이브러리(평균, 표준편차, 공분산, 상관계수)

2022.08.21

import pandas as pd df = pd.read_csv(" 파일위치 ") df # epd df['컬럼이름'] 컬럼이름 데이터만 보기 df.head(3) 앞에 3개 df.tail(3) 뒤에 3개 df.describe() 모든 통계수치 나옴 평균과 표준편차 * 평균 = 대표값 * 분산/표준편차 = 얼마나 퍼져있는지 (평균) m = a+b+c+d / n (분산) v = (a-m)^2 + (b-m)^2 + (c-m)^2 / n (표준편차) sigma = v^(1/2) 편차 = a-m, b-m , c-m import numpy as np A=np.array([1,2,3]) A mean = A[0] + A[1] + A[2] /3 var = ((A[0]-m)**2 + (A[1]-m)**2 + (A[2]-m..

Data Analysis

베이지안 정리/ 회귀분석 (릿지, 라쏘) / 모델링 기법 / 상관분석

2022.08.19

머신러닝 분류 알고리즘 학습 데이터(train data)로 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘 학습해 모델을 생성 > 생성된 모델에 새로운 데이터(test data) 값이 주어졌을 때 미지의 레이블 값(결정 값, 클래스 값)을 예측 시 사용하는 알고리즘 분류는 지도학습의 대표적인 유형 로지스틱회귀(Logistic regression) : 회귀라는 단어가 들어가지만 , 분류를 위한 모델입니다. 종속변수 y와 한개이상의 독립변수 x와의 선형상관관계를 모델링하는 기법. 1번 2번 3번으로 바로 분류 X -> 1번과 1번이 아닌것 > 2번과 2번이 아닌것 로지스틱 연속형을 인풋 데이터를 통해 이산형 아웃풋을 얻는, 바이너리 클래시피케이션 테스크에 사용되며 바이너리 클래시피케이션은 두가지 ..

Python

Pandas 데이터 정렬하기, 날짜형 변환(to_datetime), pandasql, csv파일 불러오기/저장하기

2022.08.15

Jupyter Notebook 시작하기 #명령프롬프트 들어가기 (win- cmd , mac - terminal) python -m notebook import pandas as pd # csv파일 불러오기 data = pd.read_csv('C:\jupyter\data.csv', encoding= 'unicode_escape') #데이터 정렬하기 data = data.sort_values(['CustomerID', 'InvoiceNo'], ascending = True) data # Dataframe의 형을 datatime으로 바꿔주기 data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate']) data Dataframe을 sql로 다루기 # Package를 설..

티스토리툴바