pandas, numpy 라이브러리(평균, 표준편차, 공분산, 상관계수)

import pandas as pd
df = pd.read_csv(" 파일위치 ")
df
# epd
df['컬럼이름'] 컬럼이름 데이터만 보기

df.head(3) 앞에 3개
df.tail(3) 뒤에 3개

df.describe()   모든 통계수치 나옴

평균과 표준편차

* 평균 = 대표값
* 분산/표준편차 = 얼마나 퍼져있는지

(평균) m = a+b+c+d / n
(분산) v = (a-m)^2 + (b-m)^2 + (c-m)^2 / n
(표준편차) sigma = v^(1/2)
편차 = a-m, b-m , c-m

import numpy as np
A=np.array([1,2,3])
A

mean = A[0] + A[1] + A[2] /3

var =  ((A[0]-m)**2 + (A[1]-m)**2 + (A[2]-m)**2)/3

std = np.sqrt(var)
std

mean = np.mean(A)
std = np.std(A)

공분산과 상관계수

공분산 = 2개의 상관계수

스케일링 후 상관계수

절대값이 높을수록 높은상관 (1 가까울수록 양의상관관계, -1 음의 상관관계, 0

A, B는 높은 상관관계가 있고 상관계쑤는 몇 정도 됩니다!

공분산과 상관계수
= 여러개 데이터의 서로 어떤 관계

가 가 증가하면 나가 증가한다
높은 상관관계를 갖고있을때 비용도 절감할수있다

뇌질환 -> 혈액 -> 움직임
-> 피만 뽑아도 뇌 안열고도 알수이음
=>> 큰리스크를 높은 상관관계가있는 성분을 찾아내고 -> 비용절감 시간 절감

빅데이터 분석 -> 이 현상이 왜 이리어났냐? => 간접적 즈거(높은상관관계)

공분산(covariance) => 여러개의 분산이다
스케일 문제가 있다 => 키는 175~190 인데, 시력은 0.8~1.0 등등
스케일링을 맞춘게 ==>>> 상관계수(-1~1)
-1 = 두개가 정반대되는 관계
1 = 두개가 상관관계(0.8이상만 발견되고)
0 = 두개는 상관관계가 없다(세상의 대다수 관계는 관계가 없을 가능성이 높다_)

공분산 = 편차끼리의 곱의 평균
=> 두가지 이상의
Cov = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / 3

스케일링 해준다~~~~!!
스케일 = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / std_x * std_y * 3

<상관계수>
correlation -1~1

----------------------------

import numpy as np

H = np.array([180, 170, 160])
W = np.array([70, 65, 50])

H_mean = np.mean(H)
W_mean = np.mean(W)

cov = (H[0]-H_mean)*(W[0]-W_mean) + (H[1]-H_mean)*(W[1]-W_mean) + (H[2]-H_mean)*(W[2]-W_mean) /3

H_std = np.std(H)
W_std = np.std(W)

rel = cov/(H_std*W_std)
rel

'Python' 카테고리의 다른 글

장바구니 분석(apriori 알고리즘) (0)	2022.08.22
Pandas 데이터 정렬하기, 날짜형 변환(to_datetime), pandasql, csv파일 불러오기/저장하기 (0)	2022.08.15
Programmers (0)	2022.07.20
python 기초 _ for문 _ 중첩문 (0)	2022.07.16
python_if문, for문, def문, naming규칙, range (0)	2022.07.14

공분산과 상관계수

'Python' 카테고리의 다른 글

티스토리툴바