import pandas as pd
df = pd.read_csv(" 파일위치 ")
df
# epd
df['컬럼이름'] 컬럼이름 데이터만 보기
df.head(3) 앞에 3개
df.tail(3) 뒤에 3개
df.describe() 모든 통계수치 나옴
평균과 표준편차
* 평균 = 대표값
* 분산/표준편차 = 얼마나 퍼져있는지
- (평균) m = a+b+c+d / n
- (분산) v = (a-m)^2 + (b-m)^2 + (c-m)^2 / n
- (표준편차) sigma = v^(1/2)
- 편차 = a-m, b-m , c-m
import numpy as np
A=np.array([1,2,3])
A
mean = A[0] + A[1] + A[2] /3
var = ((A[0]-m)**2 + (A[1]-m)**2 + (A[2]-m)**2)/3
std = np.sqrt(var)
std
mean = np.mean(A)
std = np.std(A)
공분산과 상관계수
공분산 = 2개의 상관계수
스케일링 후 상관계수
절대값이 높을수록 높은상관 (1 가까울수록 양의상관관계, -1 음의 상관관계, 0
A, B는 높은 상관관계가 있고 상관계쑤는 몇 정도 됩니다!
공분산과 상관계수
= 여러개 데이터의 서로 어떤 관계
가 가 증가하면 나가 증가한다
높은 상관관계를 갖고있을때 비용도 절감할수있다
뇌질환 -> 혈액 -> 움직임
-> 피만 뽑아도 뇌 안열고도 알수이음
=>> 큰리스크를 높은 상관관계가있는 성분을 찾아내고 -> 비용절감 시간 절감
빅데이터 분석 -> 이 현상이 왜 이리어났냐? => 간접적 즈거(높은상관관계)
공분산(covariance) => 여러개의 분산이다
스케일 문제가 있다 => 키는 175~190 인데, 시력은 0.8~1.0 등등
스케일링을 맞춘게 ==>>> 상관계수(-1~1)
-1 = 두개가 정반대되는 관계
1 = 두개가 상관관계(0.8이상만 발견되고)
0 = 두개는 상관관계가 없다(세상의 대다수 관계는 관계가 없을 가능성이 높다_)
공분산 = 편차끼리의 곱의 평균
=> 두가지 이상의
Cov = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / 3
스케일링 해준다~~~~!!
스케일 = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / std_x * std_y * 3
<상관계수>
correlation -1~1
----------------------------
import numpy as np
H = np.array([180, 170, 160])
W = np.array([70, 65, 50])
H_mean = np.mean(H)
W_mean = np.mean(W)
cov = (H[0]-H_mean)*(W[0]-W_mean) + (H[1]-H_mean)*(W[1]-W_mean) + (H[2]-H_mean)*(W[2]-W_mean) /3
H_std = np.std(H)
W_std = np.std(W)
rel = cov/(H_std*W_std)
rel
'Python' 카테고리의 다른 글
장바구니 분석(apriori 알고리즘) (0) | 2022.08.22 |
---|---|
Pandas 데이터 정렬하기, 날짜형 변환(to_datetime), pandasql, csv파일 불러오기/저장하기 (0) | 2022.08.15 |
Programmers (0) | 2022.07.20 |
python 기초 _ for문 _ 중첩문 (0) | 2022.07.16 |
python_if문, for문, def문, naming규칙, range (0) | 2022.07.14 |