본문 바로가기
IT

데이터 레이크(Data Lake)는 무엇인가?

by 엔지니어 문 2021. 1. 28.

IT는 Information Technology의 약자로 '정보 기술' 즉 정보의 수집, 가공, 유통, 소비에 대한 모든 분야를 말한다.
정보를 가공/유통하는데 통신이 차지하는 중요성이 높아지면서 ICT(Information & Communication Technology) '정보 통신 기술'에 대한 개념도 존재한다.
일반적인 개념으로 인터넷 서비스 분야인 IT는 명칭에서도 보이는 것처럼 데이터의 처리가 중요하다.
데이터의 형태가 다양해지고 요구하는 분야가 커지면서 수집 단계부터 정형화하여 처리하는 형태에 한계가 생긴다. 이러한 요구에서 발생한 개념, 저장소가 데이터 레이크라는 개념이다.
데이터 레이크에 대한 개념을 이해해 보려고 한다.


데이터 레이크(Data Lake)


정의

"가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합이다."  
오랜 시간 데이터들은 데이터가 생성된 영역별로 수집 및 관리가 이루어졌으며 주로 정형화된 데이터로만 분석되어왔다. 
하지만 빅데이터와 인공지능 기술의 중요성이 커지면서 다양한 영역의 다양한 데이터가 만나 새로운 가치를 만들어내기 시작하였다. 
이와 같이 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터(가공되지 않은 데이터)를 한 곳에 모아서 관리하고자 하는 것을 Data Lake라 한다.


출처: [블로그]

 

Data Lake란 무엇인가?

[Data Lake란 무엇인가?] "가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 저장소의 집합이다."  오랜 시간 데이터들은 데이터가 생성된 영역별로 수집 및 관리가 이루어졌으

digitalbourgeois.tistory.com

 


데이터레이크의 필요성

  • 가치를 창출할 수 있는 데이터의 종류는 무한하다: IoT 데이터부터 소셜 미디어 게시물에 이르기까지 모든 유형의 정형 데이터와 다양한 비정형 데이터를 저장할 수 있다.
  • 모든 답을 미리 가질 필요가 없다: 원시 데이터를 저장하기만 하면 된다. 원시 데이터에 대한 이해와 인사이트가 향상될 때 데이터를 정제하면 된다.
  • 데이터 조회 방법에 제한이 없다: 다양한 도구를 사용하여 데이터에 대한 인사이트를 얻을 수 있다.
  • 비지니스를 위한 머신 러닝과 인공 지능에 데이터 활용이 가능하다. 머신 러닝과 인공 지능에는 방대한 양의 데이터가 준비되어 있어야 한다.
  • 정보에 대한 추적성과 일관성을 얻을 수 있다.
  • 정보 기반 의사결정에 도움을 줄 수 있다.
  • 기업의 미래 성장에 도움이 된다.

데이터 레이크의 흐름

  1. 데이터 획득: 데이터는 다양한 곳으로부터, 다양한 형태로 존재한다. 그러므로 이것을 획득하기 위한 다양한 메커니즘이 필요하다. Raw Data는 그대로 유지한다.
  2. 데이터 처리: 획득한 데이터는 머신 러닝을 이용한 추천 및 비지니스 통찰력 같은 의미 있는 정보를 도출하기 위해 처리된다. Raw Data 상태를 유지하면서 다른 모델로 처리된다.
  3. 데이터 분석: 쉽게 접근할 수 있게 데이터를 데이터 분석 요구사항에 맞게 필요한 형태로 분석한다.
  4. 데이터 저장: 분석된 데이터 적합한 데이터 저장소 시스템에 저장한다. 데이터 저장소의 선택은 데이터 레이크의 데이터 제공 방식에 따라 결정된다.

AWS 서비스를 통한 데이터 레이크 구성


기본 아키텍처


환경

  • 데이터 수집 환경: API Gateway - Kinesis - S3
  • 데이터 활용 환경:  S3 - Glue - S3 - Athena

 

참고

docs.aws.amazon.com/ko_kr/apigateway/latest/developerguide/integrating-api-with-aws-services-kinesis.html

 

자습서: API Gateway에서 REST API를 Amazon Kinesis 프록시로 생성 - Amazon API Gateway

클라이언트에 의해 호출된 메서드에 대한 HTTP 동사는 백엔드에서 요구하는 통합에 대한 HTTP 동사와 다를 수 있습니다. 여기에서는 [GET]을 선택했는데, 목록 스트림이 본질적으로 읽기(READ) 작업

docs.aws.amazon.com

aws.amazon.com/ko/blogs/korea/build-a-data-lake-foundation-with-aws-glue-and-amazon/

 

Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기 | Amazon Web Services

데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정

aws.amazon.com

www.redhat.com/ko/topics/data-storage/what-is-a-data-lake

 

데이터 레이크(Data Lake)란? 정의, 분석 및 솔루션

데이터 레이크(Data lake)는 대규모의 원시 데이터 세트를 기본 형식으로 저장하는 리포지토리를 뜻하며, 플랫 아키텍처로 확장성을 제공하여 비용 절감이 가능합니다.

www.redhat.com

www.samsungsds.com/kr/insights/1232760_4627.html

 

Data Lake를 통한 데이터 관리 패러다임의 전환 – 2부 DW와 데이터 '늪' 사이

Data Lake를 통한 데이터 관리 패러다임의 전환 – 2부 DW와 데이터 '늪' 사이

www.samsungsds.com

brunch.co.kr/@neo3xdh/15

 

IT가 인터넷 기술의 약자인가요?

IT와 ICT의 차이점? | IT가 일반화되어 쓰이다 보니 오히려 IT가 무엇의 약자인지 잘 모르는 사람들을 종종 만나게 된다. 예를 들면 IT를 Internet Technology의 약자로 알고 있는 식이다.IT는 Information Techn

brunch.co.kr

 

댓글