데이터 디스커버리 플랫폼 (DDP, Data Discovery Platform)
- 분석 환경에 있는 모든 데이터를 편하고 쉽게 검색하고, 빠르게 이해할 수 있는 플랫폼
- 회사의 DB에 어떤 테이블이 있는지, 어디에 있는지, 메타데이터와 테이블 생성 책임자/관련문서/어떤 지표에 활용하고 있는지 통합 관리 가능한 데이터 중앙 플랫폼
- 많은 양의 데이터중 원하는 데이터를 쉽고 빠르게 찾을수있도록 '어떤 데이터'가 '어디에', '어떻게' 존재하는지에 대한 정보를 편리하게 제공하는 '백과사전'
활용 데이터
메타데이터
: 테이블 정보, 컬럼 정보, 코멘트, 테이블 만든 사람(Owner), 테이블 사이의 관계
*메타데이터란?
메타데이터(metadata)는 데이터(data)에 대한 데이터이다. (참조 : 위키백과)
필요성
1. 흩어져 있는 여러 DB를 한곳에 정리해놓고 중앙 관리가 되는 것이 필요
2. 사내의 개발, 비개발 직군 모두 데이터를 분석하는 환경이 갖추어져 있다면, 원하는 데이터가 어디에 있고 , 해당 데이터가 무슨 의미인지 찾아 확인하는 것이 필요
3. 특히, 비개발 직군(사업, 기획, 마케팅) 실무자가 원하는 데이터가 어디에 어떤 컬럼명으로 있는지 설명되어있는 것이 필요 -> 비개발 직군은 기존 DB구조를 이해하는 데에 학습시간이 필요하고, 진입장벽이 높은 영역이기 때문
데이터 디스커버리 플랫폼 종류
Datahub, Amundsen, Databook
도입 효과
1. 흩어져서 관리되던 DB, Table, 스키마, 코멘트가 중앙 관리 될수있음
2. 회사의 어떤 데이터가 있는지 개발/비개발 직군 모두에게 데이터 검색/확인 용이
3. 각 실무진 구성원의 데이터 이해 증가를 통한 데이터 분석 역량 증진
'Data Analysis' 카테고리의 다른 글
휴리스틱(Heuristic) vs 알고리즘(Algorithm) (0) | 2022.08.23 |
---|---|
베이지안 정리/ 회귀분석 (릿지, 라쏘) / 모델링 기법 / 상관분석 (0) | 2022.08.19 |
[데이터분석 용어 정리] PV, UV, MAU, DAU (0) | 2022.06.29 |
[IT용어] 오버엔지니어링과 하드코딩 (0) | 2022.06.29 |
[데이터 직군 비교] 비즈니스 애널리스트, 데이터분석가, 데이터사이언티스트, 데이터엔지니어 비교, 차이 (0) | 2022.06.27 |