AWS

[Reinvent2017] 주요 서비스 업데이트 – 데이터 분석 분야

Reinvent2017 주요 업데이트 – 데이터 분석 분야 Summery

· Amazon S3 
· Amazon Glacier

Amazon S3는 AWS 빅데이터 분석 서비스의 기본 저장소로서 대부분의 데이터 분석은 객체 단위로 이루어지며 Data Lake 역할을 수행하는데 적합한 서비스입니다.

이번 ReInvent 2017에서 손쉽게 S3 및 Glacier 저장소의 데이터를 쿼리 할 수 있도록 select를 제공하여 Data Lake의 성능을 강화해 줄 것 같습니다.

 

Amazon S3


S3 Select (Preview)


1) 주요 특징

  •  단순한 SQL 표현식을 사용하여 해당 객체에서 필요한 바이트만 추출 가능.
  • 응용 프로그램이 간단한 SQL 표현식을 사용하여 객체에서 데이터의 하위 집합만 검색할 수있음 -> 데이터의 양을 줄임으로써 응용 프로그램의 성능 향상.

  • AWS Lambda 로 구축 된 Serverless 응용 프로그램에 유용.
  • Amazon EMR 에 대한 Presto 커넥터를 만들었음. (Presto 커넥터는 S3에서 검색된 데이터의 거의 99 %를 필터링 한 복잡한 쿼리를 실행)
  • Amazon Athena , Amazon Redshift 및 Amazon EMR 은 물론 Cloudera, DataBricks 및 Hortonworks와 같은 파트너 모두 S3 Select 지원 예정.
  • (Preview ) GZIP 압축을 사용하거나 사용하지 않고 CSV 또는 JSON 파일 지원.
  • (Preview) S3 Select에 대한 요금은 부과되지 않음.

 

Amazon Glacier


Glacier Select (Preview)


1) 주요 특징

  • 모든 상업적인 리전에서 수행가능.
  • 표준 SQL 문을 사용하여 Glacier 객체에 대해 직접 필터링 수행. (Cold data를 빠르게 검색)
  • 018 년에 Athena가 Glacier Select를 사용하여 Glacier와 통합될 예정임.

2) 요금

  • 아래 3가지 요인에 따라 비용 책정

– GB of Data Scanned
– GB of Data Returned
– Select Requests

  • 각 측정 기준의 비용은 아래 결과의 속도에 따라 결정됨

– expedited  (1 ~ 5 분)
– standard (3 ~ 5 시간)
– bulk (5 ~ 12 시간)

 

자세한 내용은 여기 참고 바랍니다.

Related Post

태그 : , ,

필자: 김명수

전체 게시물수 : 24

전체 조회수 : 1924

게시물 공유하기