Data Analysis
휴리스틱(Heuristic) vs 알고리즘(Algorithm)
휴리스틱이란? 발견법 간편법 어림법 추단법 알고리즘 과 휴리스틱 비교 알고리즘(Algorithm) : 컴퓨터는 알고리즘 기반 연산법, 모든 가능한 경우의 수 계산, AI의 특징 연산과정을 거쳐>최선의 판단을 내리는 방법 > AI가 우리의 선호의연관딘 > 엄청난 경우의수 계산>정보처리 휴리스틱(Heuristic) : 인간은 휴리스틱 기반 간편법, 제한된 경우의 수 계산, 인간의 특징 : 알고리즘과 달리 모든 경우의 수를 계산하는 것이 아니라 특정 기준에 따라 제한적인 경우의 수를 효율적으로 판단 최선의 답을 고르진 못할 수있겠지만, 적어도 빠르고 평균이상의 판단을 내릴때 유용 휴리스틱이 중요한 이유 1. 불충분한 시간과 정보 때문 2. 효율적인 판단 가능 참고 : https://www.youtube.com..

베이지안 정리/ 회귀분석 (릿지, 라쏘) / 모델링 기법 / 상관분석
머신러닝 분류 알고리즘 학습 데이터(train data)로 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘 학습해 모델을 생성 > 생성된 모델에 새로운 데이터(test data) 값이 주어졌을 때 미지의 레이블 값(결정 값, 클래스 값)을 예측 시 사용하는 알고리즘 분류는 지도학습의 대표적인 유형 로지스틱회귀(Logistic regression) : 회귀라는 단어가 들어가지만 , 분류를 위한 모델입니다. 종속변수 y와 한개이상의 독립변수 x와의 선형상관관계를 모델링하는 기법. 1번 2번 3번으로 바로 분류 X -> 1번과 1번이 아닌것 > 2번과 2번이 아닌것 로지스틱 연속형을 인풋 데이터를 통해 이산형 아웃풋을 얻는, 바이너리 클래시피케이션 테스크에 사용되며 바이너리 클래시피케이션은 두가지 ..
[데이터분석 용어 정리] PV, UV, MAU, DAU
페이지뷰 PV(Page View) 사용자에 의해 페이지가 요청되는 횟수 COUNT 순 방문자수 UV(Unique Visitor) 한명의 방문자가 여러번 페이지를 방문해도 중복값을 제거하고 1번으로 카운트 하는 것 COUNT DISTINCT PV : 페이지의 장점을 측정하기 위한 지표 ■ PV와 UV의 차이가 클수록 좋다 → 한 방문자가 여러번 본 것이기때문에, 좋은 콘텐츠라고 볼수있음 ■ PV 지표를 통해 사용자 행동 분석 가능 , PV가 높은 상품의 상세 페이지를 '인기' 로 메인에서 노출하여 고객의 선택지를 좁혀줄수있음 ■ 검색키워드 : PV가 높은 페이지의 검색 키워드 살피기 → 고객의 니즈 파악 가능 ■ 접속 기기 :PV가 높거나 낮은 페이지의 접속 기기 확인 → 디바이스별 개선점 또는 우선순위 ..
[IT용어] 오버엔지니어링과 하드코딩
오버엔지니어링이란? - 필요 이상으로 과하게 디자인하는 것 - 서비스 요구 사항에 비해 복잡하게 시스템을 설계한 것 오버엔지니어링 시 발생 가능한 문제 이해가 어려워질 수 있음 시스템 자체의 유지보수에 어려움을 겪을 수있음 하드 코딩이란? - 데이터를 코드 내부에 직접 입력하는 것 - 프로그램의 소스코드에 데이터를 직접 입력해서 저장한 경우 모든 '상수'는 하드 코딩 - 변수의 '초기값'과 '기본값'도 하드 코딩 장점 문제점 1. 코드가 매우 직관적. 가독성이 좋음 2. 컴퓨터 입장에서 처리가 빠르므로 , 앞으로 절대 변경되지 않을 작은 부분에서 한정적으로 사용하면 좋음 프로그램의 유연성있는 운용 또는 향후 유지보수가 어려움
데이터 디스커버리 플랫폼 (Data Discovery Platform)
데이터 디스커버리 플랫폼 (DDP, Data Discovery Platform) 분석 환경에 있는 모든 데이터를 편하고 쉽게 검색하고, 빠르게 이해할 수 있는 플랫폼 회사의 DB에 어떤 테이블이 있는지, 어디에 있는지, 메타데이터와 테이블 생성 책임자/관련문서/어떤 지표에 활용하고 있는지 통합 관리 가능한 데이터 중앙 플랫폼 많은 양의 데이터중 원하는 데이터를 쉽고 빠르게 찾을수있도록 '어떤 데이터'가 '어디에', '어떻게' 존재하는지에 대한 정보를 편리하게 제공하는 '백과사전' 활용 데이터 메타데이터 : 테이블 정보, 컬럼 정보, 코멘트, 테이블 만든 사람(Owner), 테이블 사이의 관계 *메타데이터란? 메타데이터(metadata)는 데이터(data)에 대한 데이터이다. (참조 : 위키백과) 필요성 ..
[데이터 직군 비교] 비즈니스 애널리스트, 데이터분석가, 데이터사이언티스트, 데이터엔지니어 비교, 차이
비즈니스 애널리스트(BA) Business Analyst - 비즈니스 데이터를 분석해서 의미를 찾는 직무 - 업무 예시 : 비즈니스 KPI정의, AB테스트 - 주로사용하는 기술 : SQL, 데이터시각화(BI), 커뮤니케이션 데이터분석가 - 데이터를 가공하고 분석해 의미를 찾는 직무 - 업무 예시 : 통계분석 - 주로 사용하는 기술 : SQL, Python/R, 통계 데이터사이언티스트 - 데이터를 활용해 모델 알고리즘을 개발하는 직무 - 업무 예시 : 머신러닝 모델링, 예측, 최적화 - 기술 : SQL, Python/R, 머신러닝 데이터엔지니어 - 데이터를 수집하고 정제하는 직무 - 업무예시 : 데이터처리시스템 구축, 최적화 - 사용 기술 : SQL, 프로그래밍 언어(Python, JAVA), 빅데이터 처..