[Reinvent2017] 주요 서비스 업데이트 – 데이터 분석 분야

작성자 GS Neotek 작성일 11월 30, 2017 조회수 2764

Reinvent2017 주요 업데이트 – 데이터 분석 분야 Summery

· Amazon S3
· Amazon Glacier

Amazon S3는 AWS 빅데이터 분석 서비스의 기본 저장소로서 대부분의 데이터 분석은 객체 단위로 이루어지며 Data Lake 역할을 수행하는데 적합한 서비스입니다.

이번 ReInvent 2017에서 손쉽게 S3 및 Glacier 저장소의 데이터를 쿼리 할 수 있도록 select를 제공하여 Data Lake의 성능을 강화해 줄 것 같습니다.

1) 주요 특징

단순한 SQL 표현식을 사용하여 해당 객체에서 필요한 바이트만 추출 가능.
응용 프로그램이 간단한 SQL 표현식을 사용하여 객체에서 데이터의 하위 집합만 검색할 수있음 -> 데이터의 양을 줄임으로써 응용 프로그램의 성능 향상.

AWS Lambda 로 구축 된 Serverless 응용 프로그램에 유용.
Amazon EMR 에 대한 Presto 커넥터를 만들었음. (Presto 커넥터는 S3에서 검색된 데이터의 거의 99 %를 필터링 한 복잡한 쿼리를 실행)
Amazon Athena , Amazon Redshift 및 Amazon EMR 은 물론 Cloudera, DataBricks 및 Hortonworks와 같은 파트너 모두 S3 Select 지원 예정.
(Preview ) GZIP 압축을 사용하거나 사용하지 않고 CSV 또는 JSON 파일 지원.
(Preview) S3 Select에 대한 요금은 부과되지 않음.

1) 주요 특징

2) 요금

– GB of Data Scanned
– GB of Data Returned
– Select Requests

– expedited (1 ~ 5 분)
– standard (3 ~ 5 시간)
– bulk (5 ~ 12 시간)

자세한 내용은 여기 참고 바랍니다.

5/5 - (평가 개수 : 1)

태그 : AWS, Glacier, S3