춘식이2
업글이✧
춘식이2
전체 방문자
오늘
어제
  • 분류 전체보기
    • Data Analysis
    • Python
    • SQL
    • Statistics

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • python3
  • Jupyter
  • hackerrank
  • NVL
  • ifnull
  • Python
  • pv
  • Codility
  • excel
  • SQL
  • 장바구니분석
  • 데이터디스커버리
  • uv
  • rank함수
  • window함수
  • 데이터분석
  • Apriori
  • coalesce
  • NULL
  • sql튜닝

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
춘식이2

업글이✧

Python

pandas, numpy 라이브러리(평균, 표준편차, 공분산, 상관계수)

2022. 8. 21. 13:42
import pandas as pd
df = pd.read_csv(" 파일위치 ")
df
# epd
df['컬럼이름'] 컬럼이름 데이터만 보기

df.head(3) 앞에 3개
df.tail(3) 뒤에 3개

df.describe()   모든 통계수치 나옴

 

평균과 표준편차

* 평균 = 대표값
* 분산/표준편차 = 얼마나 퍼져있는지 
  • (평균) m = a+b+c+d / n
  • (분산) v = (a-m)^2 + (b-m)^2 + (c-m)^2 / n
  • (표준편차) sigma = v^(1/2)
  • 편차 = a-m, b-m , c-m 
import numpy as np
A=np.array([1,2,3])
A

mean = A[0] + A[1] + A[2] /3

var =  ((A[0]-m)**2 + (A[1]-m)**2 + (A[2]-m)**2)/3

std = np.sqrt(var)
std

mean = np.mean(A)
std = np.std(A)

 

공분산과 상관계수

공분산 = 2개의 상관계수

스케일링  후 상관계수

절대값이 높을수록 높은상관 (1 가까울수록 양의상관관계, -1 음의 상관관계, 0 

A, B는 높은 상관관계가 있고 상관계쑤는 몇 정도 됩니다!

 

공분산과 상관계수
= 여러개 데이터의 서로 어떤 관계

가 가 증가하면 나가 증가한다
높은 상관관계를 갖고있을때 비용도 절감할수있다

뇌질환 -> 혈액 -> 움직임
-> 피만 뽑아도 뇌 안열고도 알수이음
=>> 큰리스크를 높은 상관관계가있는 성분을 찾아내고 -> 비용절감 시간 절감

빅데이터 분석 -> 이 현상이 왜 이리어났냐? => 간접적 즈거(높은상관관계)

공분산(covariance) => 여러개의 분산이다
스케일 문제가 있다 => 키는 175~190 인데, 시력은 0.8~1.0 등등
스케일링을 맞춘게 ==>>> 상관계수(-1~1)
-1 = 두개가 정반대되는 관계
1 = 두개가 상관관계(0.8이상만 발견되고)
0 = 두개는 상관관계가 없다(세상의 대다수 관계는 관계가 없을 가능성이 높다_)

공분산 = 편차끼리의 곱의 평균
=> 두가지 이상의
Cov = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / 3

스케일링 해준다~~~~!!
스케일 = (x1-x_bar)(y1-y_bar) + (x2-x_bar)(y2-y_bar) + (x3-x_bar)(y3-y_bar) / std_x * std_y * 3

<상관계수>
correlation -1~1


----------------------------

import numpy as np

H = np.array([180, 170, 160])
W = np.array([70, 65, 50])

H_mean = np.mean(H)
W_mean = np.mean(W)

cov = (H[0]-H_mean)*(W[0]-W_mean) + (H[1]-H_mean)*(W[1]-W_mean) + (H[2]-H_mean)*(W[2]-W_mean) /3

H_std = np.std(H)
W_std = np.std(W)

rel = cov/(H_std*W_std)
rel

'Python' 카테고리의 다른 글

장바구니 분석(apriori 알고리즘)  (0) 2022.08.22
Pandas 데이터 정렬하기, 날짜형 변환(to_datetime), pandasql, csv파일 불러오기/저장하기  (0) 2022.08.15
Programmers  (0) 2022.07.20
python 기초 _ for문 _ 중첩문  (0) 2022.07.16
python_if문, for문, def문, naming규칙, range  (0) 2022.07.14
    'Python' 카테고리의 다른 글
    • 장바구니 분석(apriori 알고리즘)
    • Pandas 데이터 정렬하기, 날짜형 변환(to_datetime), pandasql, csv파일 불러오기/저장하기
    • Programmers
    • python 기초 _ for문 _ 중첩문
    춘식이2
    춘식이2

    티스토리툴바