IT는 Information Technology의 약자로 '정보 기술' 즉 정보의 수집, 가공, 유통, 소비에 대한 모든 분야를 말한다.
정보를 가공/유통하는데 통신이 차지하는 중요성이 높아지면서 ICT(Information & Communication Technology) '정보 통신 기술'에 대한 개념도 존재한다.
일반적인 개념으로 인터넷 서비스 분야인 IT는 명칭에서도 보이는 것처럼 데이터의 처리가 중요하다.
데이터의 형태가 다양해지고 요구하는 분야가 커지면서 수집 단계부터 정형화하여 처리하는 형태에 한계가 생긴다. 이러한 요구에서 발생한 개념, 저장소가 데이터 레이크라는 개념이다.
데이터 레이크에 대한 개념을 이해해 보려고 한다.
데이터 레이크(Data Lake)
정의
"가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합이다."
오랜 시간 데이터들은 데이터가 생성된 영역별로 수집 및 관리가 이루어졌으며 주로 정형화된 데이터로만 분석되어왔다.
하지만 빅데이터와 인공지능 기술의 중요성이 커지면서 다양한 영역의 다양한 데이터가 만나 새로운 가치를 만들어내기 시작하였다.
이와 같이 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터(가공되지 않은 데이터)를 한 곳에 모아서 관리하고자 하는 것을 Data Lake라 한다.
출처: [블로그]
데이터레이크의 필요성
- 가치를 창출할 수 있는 데이터의 종류는 무한하다: IoT 데이터부터 소셜 미디어 게시물에 이르기까지 모든 유형의 정형 데이터와 다양한 비정형 데이터를 저장할 수 있다.
- 모든 답을 미리 가질 필요가 없다: 원시 데이터를 저장하기만 하면 된다. 원시 데이터에 대한 이해와 인사이트가 향상될 때 데이터를 정제하면 된다.
- 데이터 조회 방법에 제한이 없다: 다양한 도구를 사용하여 데이터에 대한 인사이트를 얻을 수 있다.
- 비지니스를 위한 머신 러닝과 인공 지능에 데이터 활용이 가능하다. 머신 러닝과 인공 지능에는 방대한 양의 데이터가 준비되어 있어야 한다.
- 정보에 대한 추적성과 일관성을 얻을 수 있다.
- 정보 기반 의사결정에 도움을 줄 수 있다.
- 기업의 미래 성장에 도움이 된다.
데이터 레이크의 흐름
- 데이터 획득: 데이터는 다양한 곳으로부터, 다양한 형태로 존재한다. 그러므로 이것을 획득하기 위한 다양한 메커니즘이 필요하다. Raw Data는 그대로 유지한다.
- 데이터 처리: 획득한 데이터는 머신 러닝을 이용한 추천 및 비지니스 통찰력 같은 의미 있는 정보를 도출하기 위해 처리된다. Raw Data 상태를 유지하면서 다른 모델로 처리된다.
- 데이터 분석: 쉽게 접근할 수 있게 데이터를 데이터 분석 요구사항에 맞게 필요한 형태로 분석한다.
- 데이터 저장: 분석된 데이터 적합한 데이터 저장소 시스템에 저장한다. 데이터 저장소의 선택은 데이터 레이크의 데이터 제공 방식에 따라 결정된다.
AWS 서비스를 통한 데이터 레이크 구성
기본 아키텍처
환경
- 데이터 수집 환경: API Gateway - Kinesis - S3
- 데이터 활용 환경: S3 - Glue - S3 - Athena
참고
aws.amazon.com/ko/blogs/korea/build-a-data-lake-foundation-with-aws-glue-and-amazon/
www.redhat.com/ko/topics/data-storage/what-is-a-data-lake
www.samsungsds.com/kr/insights/1232760_4627.html
'IT' 카테고리의 다른 글
github 접근인증 방법 정리(인증토큰, keychain) (0) | 2021.09.29 |
---|---|
정보보호 관리체계 인증(ISMS) 그리고 정보보호 국제인증(ISO/IEC 200071) (0) | 2021.07.28 |
간단하게 vue.js 빌드하고 웹서버(nginx) 구성해보기(feat. docker) (0) | 2021.01.17 |
devops engineer 로드맵 (0) | 2020.10.11 |
git-flow를 이해하고 브랜치를 관리하자 (0) | 2020.07.16 |
댓글