인프라/AWS

AWS DEA-C01

G-egg 2025. 1. 27. 13:20
반응형

37 . 

데이터 엔지니어는 AWS로 실시간 스트리밍 데이터를 수집하는 것을 관리해야 합니다. 데이터 엔지니어는 최대 30분 동안 시간 기반 집계를 사용하여 들어오는 스트리밍 데이터에 대한 실시간 분석을 수행하려고 합니다. 데이터 엔지니어는 매우 내결함성이 뛰어난 솔루션이 필요합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 비즈니스 로직과 분석 로직을 모두 포함하는 AWS Lambda 함수를 사용하여 Amazon Kinesis Data Streams의 데이터에 대해 최대 30분 동안 시간 기반 집계를 수행합니다.
  • B. Amazon Managed Service for Apache Flink(이전 명칭: Amazon Kinesis Data Analytics)를 사용하여 여러 유형의 집계를 사용하여 가끔 중복이 포함될 수 있는 데이터를 분석합니다.
  • C. 이벤트 타임스탬프를 기준으로 최대 30분의 텀블링 윈도우에 대한 집계를 수행하기 위해 비즈니스 및 분석 로직을 모두 포함하는 AWS Lambda 함수를 사용합니다.
  • D. Amazon Managed Service for Apache Flink(이전 명칭: Amazon Kinesis Data Analytics)를 사용하여 여러 유형의 집계를 사용하여 최대 30분에 걸친 시간 기반 분석을 수행하여 데이터를 분석합니다.

정답 : D


38 .

한 회사가 Amazon Elastic Block Store(Amazon EBS) General Purpose SSD 스토리지를 gp2에서 gp3로 업그레이드할 계획입니다. 이 회사는 업그레이드된 스토리지로 마이그레이션하는 동안 데이터 손실을 일으킬 Amazon EC2 인스턴스의 중단을 방지하고자 합니다.
어떤 솔루션이 가장 적은 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. gp2 볼륨의 스냅샷을 만듭니다. 스냅샷에서 새 gp3 볼륨을 만듭니다. 새 gp3 볼륨을 EC2 인스턴스에 연결합니다.
  • B. 새로운 gp3 볼륨을 만듭니다. 데이터를 새로운 gp3 볼륨으로 점진적으로 전송합니다. 전송이 완료되면 새로운 gp3 볼륨을 EC2 인스턴스에 마운트하여 gp2 볼륨을 대체합니다.
  • C. 기존 gp2 볼륨의 볼륨 유형을 gp3로 변경합니다. 볼륨 크기, IOPS 및 처리량에 대한 새 값을 입력합니다.
  • D. AWS DataSync를 사용하여 새 gp3 볼륨을 만듭니다. 원래 gp2 볼륨에서 새 gp3 볼륨으로 데이터를 전송합니다.

정답 : C


39 .

한 회사가 Microsoft SQL Server를 실행하는 Amazon EC2 인스턴스에서 Microsoft SQL Server DB 인스턴스용 Amazon RDS로 데이터베이스 서버를 마이그레이션하고 있습니다. 회사의 분석 팀은 마이그레이션이 완료될 때까지 매일 대용량 데이터 요소를 내보내야 합니다. 데이터 요소는 여러 테이블에 걸친 SQL 조인의 결과입니다. 데이터는 Apache Parquet 형식이어야 합니다. 분석 팀은 Amazon S3에 데이터를 저장해야 합니다.
어떤 솔루션이 가장 운영 효율적인 방식으로 이러한 요구 사항을 충족할까요?

  • A. 필요한 데이터 요소가 포함된 EC2 인스턴스 기반 SQL Server 데이터베이스에 뷰를 만듭니다. 뷰에서 직접 데이터를 선택하고 Parquet 형식으로 S3 버킷으로 데이터를 전송하는 AWS Glue 작업을 만듭니다. AWS Glue 작업을 매일 실행하도록 예약합니다.
  • B. SQL Server Agent를 예약하여 EC2 인스턴스 기반 SQL Server 데이터베이스에서 원하는 데이터 요소를 선택하는 일일 SQL 쿼리를 실행합니다. 출력 .csv 객체를 S3 버킷으로 보내도록 쿼리를 구성합니다. 출력 형식을 .csv에서 Parquet으로 변환하는 AWS Lambda 함수를 호출하는 S3 이벤트를 만듭니다.
  • C. SQL 쿼리를 사용하여 필요한 데이터 요소가 포함된 EC2 인스턴스 기반 SQL Server 데이터베이스에 뷰를 만듭니다. AWS Glue 크롤러를 만들고 실행하여 뷰를 읽습니다. 데이터를 검색하여 Parquet 형식으로 S3 버킷으로 전송하는 AWS Glue 작업을 만듭니다. AWS Glue 작업을 매일 실행하도록 예약합니다.
  • D. Java Database Connectivity(JDBC)를 사용하여 EC2 인스턴스 기반 데이터베이스를 쿼리하는 AWS Lambda 함수를 만듭니다. Lambda 함수를 구성하여 필요한 데이터를 검색하고, 데이터를 Parquet 형식으로 변환하고, 데이터를 S3 버킷으로 전송합니다. Amazon EventBridge를 사용하여 Lambda 함수가 매일 실행되도록 예약합니다.

정답 : C


40 .

데이터 엔지니어링 팀은 운영 보고를 위해 Amazon Redshift 데이터 웨어하우스를 사용하고 있습니다. 이 팀은 장기 실행 쿼리로 인해 발생할 수 있는 성능 문제를 방지하고자 합니다. 데이터 엔지니어는 쿼리 최적화 프로그램이 성능 문제를 나타낼 수 있는 조건을 식별할 때 Amazon Redshift에서 시스템 테이블을 선택하여 이상을 기록해야 합니다.
이 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 테이블 뷰를 사용해야 합니까?

  • A. STL_USAGE_CONTROL
  • B. STL_ALERT_EVENT_LOG
  • C. STL_QUERY_METRICS
  • D. STL_PLAN_INFO

정답 : B


41 .

데이터 엔지니어는 .csv 형식의 구조화된 데이터 소스를 Amazon S3 데이터 레이크로 수집해야 합니다. .csv 파일에는 15개의 열이 있습니다. 데이터 분석가는 데이터 세트의 1~2개 열에 Amazon Athena 쿼리를 실행해야 합니다. 데이터 분석가는 전체 파일을 쿼리하는 경우가 드뭅니다. 어떤 솔루션이 이러한 요구 사항을 가장 비용 효율적으로 충족할까요?

  • A. AWS Glue PySpark 작업을 사용하여 소스 데이터를 .csv 형식으로 데이터 레이크로 수집합니다.
  • B. .csv 구조화된 데이터 소스에서 읽기 위한 AWS Glue 추출, 변환 및 로드(ETL) 작업을 만듭니다. JSON 형식으로 데이터를 데이터 레이크로 수집하도록 작업을 구성합니다.
  • C. AWS Glue PySpark 작업을 사용하여 소스 데이터를 Apache Avro 형식으로 데이터 레이크로 수집합니다.
  • D. .csv 구조화된 데이터 소스에서 읽기 위한 AWS Glue 추출, 변환 및 로드(ETL) 작업을 만듭니다. Apache Parquet 형식으로 데이터 레이크에 데이터를 쓰도록 작업을 구성합니다.

정답 : D


42 .

한 회사에는 서로 다른 AWS 지역에 5개의 사무실이 있습니다. 각 사무실에는 고유한 IAM 역할을 사용하는 자체 인사(HR) 부서가 있습니다. 이 회사는 Amazon S3 스토리지를 기반으로 하는 데이터 레이크에 직원 기록을 저장합니다.
데이터 엔지니어링 팀은 기록에 대한 액세스를 제한해야 합니다. 각 HR 부서는 HR 부서의 지역 내에 있는 직원의 기록에만 액세스할 수 있어야 합니다.
데이터 엔지니어링 팀은 최소한의 운영 오버헤드로 이 요구 사항을 충족하기 위해 어떤 단계 조합을 취해야 합니까? (두 가지를 선택하세요.)

  • A. 각 지역에 대한 데이터 필터를 사용하여 S3 경로를 데이터 위치로 등록합니다.
  • B. S3 경로를 AWS Lake Formation 위치로 등록합니다.
  • C. HR 부서의 IAM 역할을 수정하여 각 부서의 지역에 대한 데이터 필터를 추가합니다.
  • D. AWS Lake Formation에서 세분화된 액세스 제어를 활성화합니다. 각 Region에 대한 데이터 필터를 추가합니다.
  • E. 각 지역에 대해 별도의 S3 버킷을 만듭니다. S3 액세스를 허용하도록 IAM 정책을 구성합니다. 지역에 따라 액세스를 제한합니다.

43 . 한 회사에는 서로 다른 AWS 지역에 5개의 사무실이 있습니다. 각 사무실에는 고유한 IAM 역할을 사용하는 자체 인사(HR) 부서가 있습니다. 이 회사는 Amazon S3 스토리지를 기반으로 하는 데이터 레이크에 직원 기록을 저장합니다.
데이터 엔지니어링 팀은 기록에 대한 액세스를 제한해야 합니다. 각 HR 부서는 HR 부서의 지역 내에 있는 직원의 기록에만 액세스할 수 있어야 합니다.
데이터 엔지니어링 팀은 최소한의 운영 오버헤드로 이 요구 사항을 충족하기 위해 어떤 단계 조합을 취해야 합니까? (두 가지를 선택하세요.)

  • A. 각 지역에 대한 데이터 필터를 사용하여 S3 경로를 데이터 위치로 등록합니다.
  • B. S3 경로를 AWS Lake Formation 위치로 등록합니다.
  • C. HR 부서의 IAM 역할을 수정하여 각 부서의 지역에 대한 데이터 필터를 추가합니다.
  • D. AWS Lake Formation에서 세분화된 액세스 제어를 활성화합니다. 각 Region에 대한 데이터 필터를 추가합니다.
  • E. 각 지역에 대해 별도의 S3 버킷을 만듭니다. S3 액세스를 허용하도록 IAM 정책을 구성합니다. 지역에 따라 액세스를 제한합니다.

정답 : BD


44 .

한 회사가 Amazon EC2 인스턴스에서 실행되는 애플리케이션을 개발하고 있습니다. 현재 애플리케이션에서 생성하는 데이터는 일시적입니다. 그러나 회사는 EC2 인스턴스가 종료되더라도 데이터를 유지해야 합니다.
데이터 엔지니어는 Amazon Machine Image(AMI)에서 새 EC2 인스턴스를 시작하고 데이터를 보존하도록 인스턴스를 구성해야 합니다.
어떤 솔루션이 이 요구 사항을 충족할까요?

  • A. 애플리케이션 데이터를 포함하는 EC2 인스턴스 스토어 볼륨으로 백업된 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. EC2 인스턴스에 기본 설정을 적용합니다.
  • B. 애플리케이션 데이터가 포함된 루트 Amazon Elastic Block Store(Amazon EBS) 볼륨으로 백업된 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. EC2 인스턴스에 기본 설정을 적용합니다.
  • C. EC2 인스턴스 스토어 볼륨으로 백업된 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. 애플리케이션 데이터를 포함하기 위해 Amazon Elastic Block Store(Amazon EBS) 볼륨을 연결합니다. EC2 인스턴스에 기본 설정을 적용합니다.
  • D. Amazon Elastic Block Store(Amazon EBS) 볼륨으로 백업된 AMI를 사용하여 새 EC2 인스턴스를 시작합니다. 애플리케이션 데이터를 포함하기 위해 추가 EC2 인스턴스 스토어 볼륨을 연결합니다. EC2 인스턴스에 기본 설정을 적용합니다.

정답 : C


45 .

한 회사는 Amazon Athena를 사용하여 Create Table As Select(CTAS)를 사용하여 추출, 변환 및 로드(ETL) 작업에 대한 SQL 쿼리를 실행합니다. 이 회사는 분석을 생성하기 위해 SQL 대신 Apache Spark를 사용해야 합니다.
어떤 솔루션이 이 회사에 Spark를 사용하여 Athena에 액세스할 수 있는 기능을 제공할까요?

  • A. Athena 쿼리 설정
  • B. Athena 작업 그룹
  • C. Athena 데이터 소스
  • D. Athena 쿼리 편집기

정답 : B


46 . 

회사에서 데이터 레이크에 사용하는 Amazon S3 스토리지를 분할해야 합니다. 분할은 다음 형식의 S3 객체 키 경로를 사용합니다. s3://bucket/prefix/year=2023/month=01/day=01. 데이터 엔지니어는 회사에서 버킷에 새 파티션을 추가할 때 AWS Glue Data Catalog가 S3 스토리지와 동기화되도록 해야 합니다. 어떤 솔루션이 가장 낮은 지연 시간으로 이러한 요구 사항을 충족할까요?

  • A. AWS Glue 크롤러를 매일 아침 실행하도록 예약합니다.
  • B. AWS Glue CreatePartition API를 매일 두 번 수동으로 실행합니다.
  • C. Amazon S3에 데이터를 쓰는 코드를 사용하여 Boto3 AWS Glue create_partition API 호출을 실행합니다.
  • D. AWS Glue 콘솔에서 MSCK REPAIR TABLE 명령을 실행합니다.

정답 : C


47 .

미디어 회사는 타사 도구를 사용하여 데이터를 수집하기 위해 SaaS(Software as a Service) 애플리케이션을 사용합니다. 이 회사는 Amazon S3 버킷에 데이터를 저장해야 합니다. 이 회사는 Amazon Redshift를 사용하여 데이터를 기반으로 분석을 수행합니다.
어떤 AWS 서비스 또는 기능이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. Apache Kafka를 위한 Amazon Managed Streaming(Amazon MSK)
  • B. 아마존 앱플로우
  • C. AWS Glue 데이터 카탈로그
  • D. 아마존 키네시스

정답 : B


48 .

데이터 엔지니어가 Amazon Athena를 사용하여 Amazon S3에 있는 판매 데이터를 분석하고 있습니다. 데이터 엔지니어는 sales_data라는 테이블에서 여러 제품의 2023년 판매 금액을 검색하는 쿼리를 작성합니다. 그러나 이 쿼리는 sales_data 테이블에 있는 모든 제품에 대한 결과를 반환하지 않습니다. 데이터 엔지니어는 문제를 해결하기 위해 쿼리의 문제를 해결해야 합니다.
데이터 엔지니어의 원래 쿼리는 다음과 같습니다.

 

SELECT product_name, sum(sales_amount)
FROM sales_data
WHERE year = 2023
GROUP BY product_name


데이터 엔지니어는 이러한 요구 사항을 충족하기 위해 Athena 쿼리를 어떻게 수정해야 합니까?

  • A. 집계를 위해 sum(sales_amount)을 count(*)로 바꾸세요.
  • B. WHERE year = 2023을 WHERE extract(year FROM sales_data) = 2023으로 변경합니다.
  • C. GROUP BY 절 뒤에 HAVING sum(sales_amount) > 0을 추가합니다.
  • D. GROUP BY 절을 제거합니다.

정답 : B

C 는 sales_amount 가 0 인 항목들은 표시하지 않으므로 요구사항을 반영하지 못 함. 아마도 year 이 날짜로 저장되어 있을 가능성이 있어 extract 로 year 만 추출할 필요가 있음


49 .

데이터 엔지니어는 Amazon S3 버킷에 있는 Apache Parquet 형식의 객체에서 데이터를 읽는 일회성 작업을 합니다. 데이터 엔지니어는 데이터의 한 열만 쿼리하면 됩니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. AWS Lambda 함수를 구성하여 S3 버킷에서 pandas 데이터프레임으로 데이터를 로드합니다. 데이터프레임에 SQL SELECT 문을 작성하여 필요한 열을 쿼리합니다.
  • B. S3 Select를 사용하여 SQL SELECT 문을 작성하여 S3 객체에서 필요한 열을 검색합니다.
  • C. S3 객체를 사용하고 필요한 열을 쿼리하기 위해 AWS Glue DataBrew 프로젝트를 준비합니다.
  • D. S3 객체에서 AWS Glue 크롤러를 실행합니다. Amazon Athena에서 SQL SELECT 문을 사용하여 필요한 열을 쿼리합니다.

정답 : B

더 이상 S3 Select 를 사용할 수 없음


50 .

한 회사가 데이터 웨어하우스에 Amazon Redshift를 사용합니다. 이 회사는 Amazon Redshift 구체화된 뷰에 대한 새로 고침 일정을 자동화해야 합니다. 어떤 솔루션이 최소한의 노력으로 이 요구 사항을 충족할까요?

  • A. Apache Airflow를 사용하여 구체화된 뷰를 새로 고칩니다.
  • B. Amazon Redshift 내에서 AWS Lambda 사용자 정의 함수(UDF)를 사용하여 구체화된 뷰를 새로 고칩니다.
  • C. Amazon Redshift의 쿼리 편집기 v2를 사용하여 구체화된 뷰를 새로 고칩니다.
  • D. AWS Glue 워크플로를 사용하여 구체화된 뷰를 새로 고칩니다.

정답 : C


51 .

데이터 엔지니어는 하나의 AWS Lambda 함수와 하나의 AWS Glue 작업으로 구성된 데이터 파이프라인을 조율해야 합니다. 솔루션은 AWS 서비스와 통합되어야 합니다. 어떤 솔루션이 가장 적은 관리 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 상태 머신을 포함하는 AWS Step Functions 워크플로를 사용합니다. Lambda 함수를 실행한 다음 AWS Glue 작업을 실행하도록 상태 머신을 구성합니다.
  • B. Amazon EC2 인스턴스에 배포된 Apache Airflow 워크플로를 사용합니다. 첫 번째 작업이 Lambda 함수를 호출하고 두 번째 작업이 AWS Glue 작업을 호출하는 방향성 비순환 그래프(DAG)를 정의합니다.
  • C. AWS Glue 워크플로를 사용하여 Lambda 함수를 실행한 다음 AWS Glue 작업을 실행합니다.
  • D. Amazon Elastic Kubernetes Service(Amazon EKS)에 배포된 Apache Airflow 워크플로를 사용합니다. 첫 번째 작업이 Lambda 함수를 호출하고 두 번째 작업이 AWS Glue 작업을 호출하는 방향성 비순환 그래프(DAG)를 정의합니다.

정답 : C


52 .

회사는 AWS 클라우드에서 실행되는 데이터 소스에 대한 데이터 카탈로그와 메타데이터 관리를 설정해야 합니다. 회사는 데이터 카탈로그를 사용하여 데이터 저장소 세트에 있는 모든 객체의 메타데이터를 유지 관리합니다. 데이터 저장소에는 Amazon RDS 및 Amazon Redshift와 같은 구조화된 소스가 포함됩니다. 데이터 저장소에는 Amazon S3에 저장된 JSON 파일 및 .xml 파일과 같은 반구조화된 소스도 포함됩니다.
회사는 정기적으로 데이터 카탈로그를 업데이트하는 솔루션이 필요합니다. 솔루션은 또한 소스 메타데이터의 변경 사항을 감지해야 합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. Amazon Aurora를 데이터 카탈로그로 사용합니다. 데이터 카탈로그에 연결할 AWS Lambda 함수를 만듭니다. Lambda 함수를 구성하여 여러 소스에서 메타데이터 정보를 수집하고 Aurora 데이터 카탈로그를 업데이트합니다. Lambda 함수가 주기적으로 실행되도록 예약합니다.
  • B. AWS Glue Data Catalog를 중앙 메타데이터 리포지토리로 사용합니다. AWS Glue 크롤러를 사용하여 여러 데이터 스토어에 연결하고 메타데이터 변경 사항으로 Data Catalog를 업데이트합니다. 크롤러가 주기적으로 실행되도록 예약하여 메타데이터 카탈로그를 업데이트합니다.
  • C. Amazon DynamoDB를 데이터 카탈로그로 사용합니다. 데이터 카탈로그에 연결할 AWS Lambda 함수를 만듭니다. Lambda 함수를 구성하여 여러 소스에서 메타데이터 정보를 수집하고 DynamoDB 데이터 카탈로그를 업데이트합니다. Lambda 함수가 주기적으로 실행되도록 예약합니다.
  • D. AWS Glue Data Catalog를 중앙 메타데이터 리포지토리로 사용합니다. Amazon RDS 및 Amazon Redshift 소스에 대한 스키마를 추출하고 Data Catalog를 빌드합니다. Amazon S3에 있는 데이터에 대해 AWS Glue 크롤러를 사용하여 스키마를 유추하고 Data Catalog를 자동으로 업데이트합니다.

정답 : B


53 .

한 회사가 프로비저닝된 용량 모드로 작동하는 Amazon DynamoDB 테이블에 애플리케이션의 데이터를 저장합니다. 애플리케이션의 워크로드는 정기적으로 예측 가능한 처리량 부하를 갖습니다. 매주 월요일 아침 일찍 활동이 즉시 증가합니다. 주말에는 애플리케이션 사용량이 매우 낮습니다.
회사는 애플리케이션이 최대 사용 시간 동안 일관되게 수행되도록 해야 합니다.
어떤 솔루션이 이러한 요구 사항을 가장 비용 효율적인 방식으로 충족할까요?

  • A. 프로비저닝된 용량을 현재 최대 부하 시간 동안 존재하는 최대 용량으로 늘립니다.
  • B. 테이블을 두 개의 테이블로 나눕니다. 각 테이블에 원래 테이블의 프로비저닝된 용량의 절반을 프로비저닝합니다. 두 테이블에 쿼리를 균등하게 분산합니다.
  • C. AWS Application Auto Scaling을 사용하여 피크 사용 시간에 더 높은 프로비저닝 용량을 예약합니다. 비수요 시간에는 더 낮은 용량을 예약합니다.
  • D. 용량 모드를 프로비저닝에서 온디맨드로 변경합니다. 테이블의 부하에 따라 테이블을 확장 및 축소하도록 구성합니다.

정답 : C

https://docs.aws.amazon.com/wellarchitected/latest/serverless-applications-lens/capacity.html

비교적 예측 가능한 애플리케이션 트래픽이 있고, 트래픽이 일정하며 점진적으로 증가 또는 감소하는 애플리케이션을 실행하는 경우 프로비저닝 모드를 사용하면서 Auto Scailing 옵션을 사용하는 것을 권장한다. Auto Scailing 옵션은 실제 작업 부하가 몇 분 동안 지속적으로 상승하거나 하락할 때 유용하다.


54 . 

한 회사가 온프레미스 Apache Hadoop 클러스터를 Amazon EMR로 마이그레이션할 계획입니다. 이 회사는 또한 데이터 카탈로그를 영구 스토리지 솔루션으로 마이그레이션해야 합니다. 이 회사는 현재 Hadoop 클러스터의 온프레미스 Apache Hive 메타스토어에 데이터 카탈로그를 저장하고 있습니다. 이 회사는 데이터 카탈로그를 마이그레이션하기 위해 서버리스 솔루션이 필요합니다.
어떤 솔루션이 이러한 요구 사항을 가장 비용 효율적으로 충족할까요?

  • A. AWS Database Migration Service(AWS DMS)를 사용하여 Hive 메타스토어를 Amazon S3로 마이그레이션합니다. AWS Glue Data Catalog를 구성하여 Amazon S3를 스캔하여 데이터 카탈로그를 생성합니다.
  • B. Amazon EMR에서 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로 마이그레이션합니다. AWS Glue Data Catalog를 사용하여 회사의 데이터 카탈로그를 외부 데이터 카탈로그로 저장합니다.
  • C. Amazon EMR에서 외부 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로 마이그레이션합니다. Amazon Aurora MySQL을 사용하여 회사의 데이터 카탈로그를 저장합니다.
  • D. Amazon EMR에서 새로운 Hive 메타스토어를 구성합니다. 기존 온프레미스 Hive 메타스토어를 Amazon EMR로 마이그레이션합니다. 새로운 메타스토어를 회사의 데이터 카탈로그로 사용합니다.

정답 : B


55 .

한 회사에서 Amazon Redshift 프로비저닝 클러스터를 데이터베이스로 사용합니다. Redshift 클러스터에는 예약된 ra3.4xlarge 노드 5개가 있으며 키 분배를 사용합니다.
데이터 엔지니어는 노드 중 하나가 자주 90%를 넘는 CPU 부하를 갖는다는 것을 알아챘습니다. 노드에서 실행되는 SQL 쿼리는 대기열에 추가됩니다. 다른 4개 노드는 일반적으로 일상적인 작업 중에 CPU 부하가 15% 미만입니다.
데이터 엔지니어는 현재 컴퓨팅 노드 수를 유지하려고 합니다. 또한 데이터 엔지니어는 5개 컴퓨팅 노드 전체에 부하를 보다 균등하게 분산하려고 합니다.
어떤 솔루션이 이러한 요구 사항을 충족할까요?

  • A. SQL SELECT 문의 WHERE 절에서 가장 자주 사용되는 데이터 열로 정렬 키를 변경합니다.
  • B. 가장 큰 차원을 갖는 테이블 열로 배포 키를 변경합니다.
  • C. 예약된 노드를 ra3.4xlarge에서 ra3.16xlarge로 업그레이드합니다.
  • D. SQL SELECT 문의 WHERE 절에서 가장 자주 사용되는 데이터 열이 기본 키가 되도록 변경합니다.

정답 : B

정렬 키는 데이터 저장 순서를 결정하고 특정 쿼리에 대한 쿼리 성능을 개선할 수 있지만, 노드 간 데이터 분포에는 직접적인 영향을 미치지 않는다. 따라서 이는 불균일한 CPU 부하 문제를 해결하지 못한다.


56 .

보안 회사는 JSON 형식의 IoT 데이터를 Amazon S3 버킷에 저장합니다. 회사에서 IoT 기기를 업그레이드하면 데이터 구조가 변경될 수 있습니다. 회사는 IoT 데이터를 포함하는 데이터 카탈로그를 만들고자 합니다. 회사의 분석 부서는 데이터 카탈로그를 사용하여 데이터를 색인화합니다.
어떤 솔루션이 이러한 요구 사항을 가장 비용 효율적으로 충족할까요?

  • A. AWS Glue 데이터 카탈로그를 만듭니다. AWS Glue 스키마 레지스트리를 구성합니다. 분석 부서가 Amazon Redshift Serverless로 사용할 데이터의 수집을 조정하기 위해 새로운 AWS Glue 워크로드를 만듭니다.
  • B. Amazon Redshift 프로비저닝 클러스터를 만듭니다. 분석 부서가 Amazon S3에 있는 데이터를 탐색할 수 있도록 Amazon Redshift Spectrum 데이터베이스를 만듭니다. Redshift 저장 프로시저를 만들어 데이터를 Amazon Redshift에 로드합니다.
  • C. Amazon Athena 작업 그룹을 만듭니다. Athena를 통해 Apache Spark를 사용하여 Amazon S3에 있는 데이터를 탐색합니다. 분석 부서에 Athena 작업 그룹 스키마와 테이블을 제공합니다.
  • D. AWS Glue 데이터 카탈로그를 만듭니다. AWS Glue 스키마 레지스트리를 구성합니다. Amazon Redshift Data API를 사용하여 AWS Lambda 사용자 정의 함수(UDF)를 만듭니다. 분석 부서가 Amazon Redshift Serverless로 사용할 데이터의 수집을 조정하기 위한 AWS Step Functions 작업을 만듭니다.

정답 : A


57 .

한 회사가 Amazon S3 버킷에 거래에 대한 세부 정보를 저장합니다. 이 회사는 S3 버킷에 대한 모든 쓰기를 동일한 AWS 리전에 있는 다른 S3 버킷에 기록하려고 합니다.
어떤 솔루션이 최소한의 운영 노력으로 이 요구 사항을 충족할까요?

  • A. 트랜잭션 S3 버킷의 모든 활동에 대해 S3 이벤트 알림 규칙을 구성하여 AWS Lambda 함수를 호출합니다. Lambda 함수를 프로그래밍하여 이벤트를 Amazon Kinesis Data Firehose에 씁니다. Kinesis Data Firehose를 구성하여 이벤트를 로그 S3 버킷에 씁니다.
  • B. AWS CloudTraiL에서 관리 이벤트의 트레일을 만듭니다. 트랜잭션 S3 버킷에서 데이터를 수신하도록 트레일을 구성합니다. 빈 접두사와 쓰기 전용 이벤트를 지정합니다. 대상 버킷으로 로그 S3 버킷을 지정합니다.
  • C. 트랜잭션 S3 버킷의 모든 활동에 대한 S3 이벤트 알림 규칙을 구성하여 AWS Lambda 함수를 호출합니다. Lambda 함수를 프로그래밍하여 이벤트를 로그 S3 버킷에 씁니다.
  • D. AWS CloudTraiL에서 데이터 이벤트의 트레일을 만듭니다. 트랜잭션 S3 버킷에서 데이터를 수신하도록 트레일을 구성합니다. 빈 접두사와 쓰기 전용 이벤트를 지정합니다. 대상 버킷으로 로그 S3 버킷을 지정합니다.

정답 : D


58 .

데이터 엔지니어는 사용자가 Amazon EMR 및 Amazon Athena 쿼리를 통해 액세스하는 중앙 메타데이터 리포지토리를 유지 관리해야 합니다. 리포지토리는 많은 테이블의 스키마와 속성을 제공해야 합니다. 일부 메타데이터는 Apache Hive에 저장됩니다. 데이터 엔지니어는 Hive에서 중앙 메타데이터 리포지토리로 메타데이터를 가져와야 합니다.
어떤 솔루션이 최소한의 개발 노력으로 이러한 요구 사항을 충족할까요?

  • A. Amazon EMR과 Apache Ranger를 사용하세요.
  • B. EMR 클러스터에서 Hive 메타스토어를 사용합니다.
  • C. AWS Glue 데이터 카탈로그를 사용합니다.
  • D. Amazon RDS for MySQL DB 인스턴스에서 메타스토어를 사용합니다.

정답 : C


59 .

회사는 AWS에 데이터 레이크를 구축해야 합니다. 회사는 특정 팀에 행 수준 데이터 액세스와 열 수준 데이터 액세스를 제공해야 합니다. 팀은 Amazon Athena, Amazon Redshift Spectrum, Amazon EMR의 Apache Hive를 사용하여 데이터에 액세스합니다.
어떤 솔루션이 가장 적은 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 데이터 레이크 스토리지에 Amazon S3를 사용합니다. S3 액세스 정책을 사용하여 행과 열로 데이터 액세스를 제한합니다. Amazon S3를 통해 데이터 액세스를 제공합니다.
  • B. 데이터 레이크 스토리지에 Amazon S3를 사용합니다. Amazon EMR을 통해 Apache Ranger를 사용하여 행과 열로 데이터 액세스를 제한합니다. Apache Pig를 사용하여 데이터 액세스를 제공합니다.
  • C. 데이터 레이크 스토리지에 Amazon Redshift를 사용합니다. Redshift 보안 정책을 사용하여 행과 열로 데이터 액세스를 제한합니다. Apache Spark 및 Amazon Athena 페더레이션 쿼리를 사용하여 데이터 액세스를 제공합니다.
  • D. 데이터 레이크 스토리지에 Amazon S3를 사용합니다. AWS Lake Formation을 사용하여 행과 열로 데이터 액세스를 제한합니다. AWS Lake Formation을 통해 데이터 액세스를 제공합니다.

정답 : D


60 .

항공사에서 분석을 위해 비행 활동에 대한 지표를 수집하고 있습니다. 이 회사는 분석이 회사에서 정시 출발을 늘리는 데 사용할 수 있는 통찰력을 어떻게 제공할 수 있는지 보여주기 위해 개념 증명(POC) 테스트를 실시하고 있습니다.
POC 테스트는 .csv 형식의 지표가 포함된 Amazon S3의 객체를 사용합니다. POC 테스트는 Amazon Athena를 사용하여 데이터를 쿼리합니다. 데이터는 S3 버킷에서 날짜별로 분할됩니다.
데이터 양이 증가함에 따라 이 회사는 쿼리 성능을 개선하기 위해 스토리지 솔루션을 최적화하려고 합니다.
이러한 요구 사항을 충족하는 솔루션 조합은 무엇입니까? (두 가지를 선택하십시오.)

  • A. Amazon S3의 키 시작 부분에 무작위 문자열을 추가하여 파티션 전체에서 처리량을 늘립니다.
  • B. Athena를 사용하여 데이터를 쿼리하는 것과 동일한 계정에 있는 S3 버킷을 사용합니다.
  • C. 회사에서 Athena 쿼리를 실행하는 것과 동일한 AWS 지역에 있는 S3 버킷을 사용합니다.
  • D. 쿼리에 필요한 문서 키만 가져와 .csv 데이터를 JSON 형식으로 사전 처리합니다.
  • E. 술어에 필요한 데이터 블록만 가져와서 .csv 데이터를 Apache Parquet 형식으로 사전 처리합니다.

정답 : A, E

https://aws.amazon.com/ko/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/


61 . 

한 회사가 중요한 애플리케이션의 데이터베이스로 Amazon RDS for MySQL을 사용합니다. 데이터베이스 워크로드는 대부분 쓰기이고, 읽기는 적습니다.
데이터 엔지니어는 DB 인스턴스의 CPU 사용률이 매우 높다는 것을 알아챘습니다. 높은 CPU 사용률로 인해 애플리케이션 속도가 느려집니다. 데이터 엔지니어는 DB 인스턴스의 CPU 사용률을 줄여야 합니다.
이 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 조치를 취해야 합니까? (두 가지를 선택하세요.)

  • A. Amazon RDS의 Performance Insights 기능을 사용하여 CPU 사용률이 높은 쿼리를 식별합니다. 문제가 있는 쿼리를 최적화합니다.
  • B. 추가 테이블과 인덱스를 포함하도록 데이터베이스 스키마를 수정합니다.
  • C. 매주 한 번씩 RDS DB 인스턴스를 재부팅합니다.
  • D. 더 큰 인스턴스 크기로 업그레이드합니다.
  • E. 데이터베이스 쿼리 부하를 줄이기 위해 캐싱을 구현합니다.

답 : A, D


62 .

한 회사에서 6개월 동안 Orders라는 Amazon Redshift 테이블을 사용했습니다. 이 회사는 테이블에서 매주 업데이트와 삭제를 수행합니다. 이 테이블에는 AWS Regions가 포함된 열에 인터리브 정렬 키가 있습니다.
이 회사는 스토리지 공간이 부족해지지 않도록 디스크 공간을 회수하려고 합니다. 또한 정렬 키 열을 분석하려고 합니다.
이러한 요구 사항을 충족하는 Amazon Redshift 명령은 무엇입니까?

  • A. VACUUM FULL
  • B. VACUUM DELETE ONLY
  • C. VACUUM REINDEX
  • D. VACUUM SORT ONLY

정답 : C


63 .

제조 회사가 센서에서 데이터를 수집하려고 합니다. 데이터 엔지니어는 거의 실시간으로 센서 데이터를 수집하는 솔루션을 구현해야 합니다.
솔루션은 데이터를 영구 데이터 저장소에 저장해야 합니다. 솔루션은 데이터를 중첩된 JSON 형식으로 저장해야 합니다. 회사는 10밀리초 미만의 지연 시간으로 데이터 저장소에서 쿼리할 수 있어야 합니다.
어떤 솔루션이 가장 적은 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 자체 호스팅 Apache Kafka 클러스터를 사용하여 센서 데이터를 캡처합니다. 쿼리를 위해 Amazon S3에 데이터를 저장합니다.
  • B. AWS Lambda를 사용하여 센서 데이터를 처리합니다. 쿼리를 위해 Amazon S3에 데이터를 저장합니다.
  • C. Amazon Kinesis Data Streams를 사용하여 센서 데이터를 캡처합니다. 쿼리를 위해 Amazon DynamoDB에 데이터를 저장합니다.
  • D. Amazon Simple Queue Service(Amazon SQS)를 사용하여 들어오는 센서 데이터를 버퍼링합니다. AWS Glue를 사용하여 쿼리를 위해 Amazon RDS에 데이터를 저장합니다.

정답 : C


64 .

한 회사가 Amazon S3에 있는 데이터 레이크에 데이터를 저장합니다. 회사가 데이터 레이크에 저장하는 일부 데이터에는 개인 식별 정보(PII)가 포함되어 있습니다. 여러 사용자 그룹이 원시 데이터에 액세스해야 합니다. 회사는 사용자 그룹이 필요한 PII에만 액세스할 수 있도록 해야 합니다. 어떤 솔루션이 최소한의 노력으로 이러한 요구 사항을 충족할까요?

  • A. Amazon Athena를 사용하여 데이터를 쿼리합니다. AWS Lake Formation을 설정하고 데이터 필터를 만들어 회사의 IAM 역할에 대한 액세스 수준을 설정합니다. 각 사용자에게 사용자의 PII 액세스 요구 사항과 일치하는 IAM 역할을 할당합니다.
  • B. Amazon QuickSight를 사용하여 데이터에 액세스합니다. QuickSight의 열 수준 보안 기능을 사용하여 Amazon Athena를 사용하여 사용자가 Amazon S3에서 검색할 수 있는 PII를 제한합니다. 사용자의 PII 액세스 요구 사항에 따라 QuickSight 액세스 수준을 정의합니다.
  • C. 데이터에 액세스하기 위해 백그라운드에서 Athena 쿼리를 실행하는 사용자 지정 쿼리 빌더 UI를 빌드합니다. Amazon Cognito에서 사용자 그룹을 만듭니다. 사용자의 PII 액세스 요구 사항에 따라 사용자 그룹에 액세스 수준을 할당합니다.
  • D. 세분화된 액세스 수준이 다른 IAM 역할을 만듭니다. IAM 역할을 IAM 사용자 그룹에 할당합니다. ID 기반 정책을 사용하여 열 수준에서 사용자 그룹에 액세스 수준을 할당합니다.

정답 : A


65 .

데이터 엔지니어는 10개의 소스 시스템에서 데이터를 처리하고 Amazon Redshift 데이터베이스에 있는 10개의 테이블로 로드하기 위한 추출, 변환 및 로드(ETL) 파이프라인을 구축해야 합니다. 모든 소스 시스템은 15분마다 .csv, JSON 또는 Apache Parquet 파일을 생성합니다. 모든 소스 시스템은 하나의 Amazon S3 버킷으로 파일을 전달합니다. 파일 크기는 10MB에서 20GB까지입니다. ETL 파이프라인은 데이터 스키마가 변경되어도 올바르게 작동해야 합니다.
어떤 데이터 파이프라인 솔루션이 이러한 요구 사항을 충족할까요? (두 가지를 선택하세요.)

  • A. Amazon EventBridge 규칙을 사용하여 15분마다 AWS Glue 작업을 실행합니다. AWS Glue 작업을 구성하여 데이터를 처리하고 Amazon Redshift 테이블에 로드합니다.
  • B. Amazon EventBridge 규칙을 사용하여 15분마다 AWS Glue 워크플로 작업을 호출합니다. AWS Glue 워크플로를 구성하여 AWS Glue 크롤러를 실행한 다음 크롤러가 성공적으로 실행을 마치면 AWS Glue 작업을 실행하는 주문형 트리거를 갖도록 합니다. AWS Glue 작업을 구성하여 데이터를 처리하고 Amazon Redshift 테이블에 로드합니다.
  • C. 파일이 S3 버킷에 로드될 때 AWS Glue 크롤러를 호출하도록 AWS Lambda 함수를 구성합니다. 데이터를 처리하고 Amazon Redshift 테이블에 로드하도록 AWS Glue 작업을 구성합니다. AWS Glue 작업을 실행하는 두 번째 Lambda 함수를 만듭니다. AWS Glue 크롤러가 성공적으로 실행을 완료하면 두 번째 Lambda 함수를 호출하는 Amazon EventBridge 규칙을 만듭니다.
  • D. 파일이 S3 버킷에 로드될 때 AWS Glue 워크플로를 호출하도록 AWS Lambda 함수를 구성합니다. AWS Glue 워크플로를 구성하여 AWS Glue 크롤러를 실행한 다음 크롤러가 성공적으로 실행을 마치면 AWS Glue 작업을 실행하는 주문형 트리거를 갖도록 합니다. AWS Glue 작업을 구성하여 데이터를 처리하고 Amazon Redshift 테이블에 로드합니다.
  • E. S3 버킷에 파일이 로드될 때 AWS Glue 작업을 호출하도록 AWS Lambda 함수를 구성합니다. AWS Glue 작업을 구성하여 S3 버킷에서 Apache Spark DataFrame으로 파일을 읽습니다. AWS Glue 작업을 구성하여 DataFrame의 더 작은 파티션도 Amazon Kinesis Data Firehose 전송 스트림에 넣습니다. 전송 스트림을 구성하여 Amazon Redshift 테이블에 데이터를 로드합니다.

정답 : A, B


66 .

금융 회사가 Amazon Athena를 사용하여 페타바이트 규모의 데이터 세트에서 온디맨드 SQL 쿼리를 실행하여 비즈니스 인텔리전스(BI) 애플리케이션을 지원하려고 합니다. 비업무 시간에 실행되는 AWS Glue 작업은 매일 한 번씩 데이터 세트를 업데이트합니다. BI 애플리케이션은 회사 정책을 준수하기 위해 표준 데이터 새로 고침 빈도가 1시간입니다.
데이터 엔지니어는 추가 인프라 비용을 추가하지 않고도 회사의 Amazon Athena 사용을 비용 최적화하려고 합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 1일 후에 S3 Glacier Deep Archive 스토리지 클래스로 데이터를 이동하도록 Amazon S3 수명 주기 정책을 구성합니다.
  • B. SQL 쿼리에 Amazon Athena의 쿼리 결과 재사용 기능을 사용합니다.
  • C. BI 애플리케이션과 Athena 사이에 Amazon ElastiCache 클러스터를 추가합니다.
  • D. 데이터 세트에 있는 파일의 형식을 Apache Parquet으로 변경합니다.

정답 : B


67 .

회사의 데이터 엔지니어는 테이블 SQL 쿼리의 성능을 최적화해야 합니다. 회사는 Amazon Redshift 클러스터에 데이터를 저장합니다. 데이터 엔지니어는 예산 제약으로 인해 클러스터 크기를 늘릴 수 없습니다.
회사는 여러 테이블에 데이터를 저장하고 EVEN 분산 스타일을 사용하여 데이터를 로드합니다. 일부 테이블은 크기가 수백 기가바이트입니다. 다른 테이블은 크기가 10MB 미만입니다. 어떤 솔루션이 이러한 요구 사항을 충족할까요?

  • A. 모든 테이블에 EVEN 분포 스타일을 계속 사용합니다. 모든 테이블에 기본 키와 외래 키를 지정합니다.
  • B. 큰 테이블에는 ALL 분포 스타일을 사용합니다. 모든 테이블에 기본 키와 외래 키를 지정합니다.
  • C. 드물게 업데이트되는 작은 테이블에는 ALL 분포 스타일을 사용합니다. 모든 테이블에 대한 기본 키와 외래 키를 지정합니다.
  • D. 모든 테이블에 대한 분포, 정렬 및 파티션 키의 조합을 지정합니다.

정답 : C


68 .

한 회사가 물리적 주소 데이터가 포함된 .csv 파일을 받습니다. 이 데이터는 Door_No, Street_Name, City, Zip_Code라는 이름의 열에 있습니다. 이 회사는 다음 형식으로 이러한 값을 저장하는 단일 열을 만들고자 합니다.
어떤 솔루션이 가장 적은 코딩 노력으로 이 요구 사항을 충족할까요?

  • A. AWS Glue DataBrew를 사용하여 파일을 읽습니다. NEST_TO_ARRAY 변환을 사용하여 새 열을 만듭니다.
  • B. AWS Glue DataBrew를 사용하여 파일을 읽습니다. NEST_TO_MAP 변환을 사용하여 새 열을 만듭니다.
  • C. AWS Glue DataBrew를 사용하여 파일을 읽습니다. PIVOT 변환을 사용하여 새 열을 만듭니다.
  • D. Python에서 파일을 읽는 Lambda 함수를 작성합니다. Python 데이터 사전 유형을 사용하여 새 열을 만듭니다.

정답 : B


69 .

한 회사가 민감한 고객 정보가 포함된 Amazon S3 객체로 통화 기록을 수신합니다. 회사는 암호화를 사용하여 S3 객체를 보호해야 합니다. 또한 회사는 특정 직원만 액세스할 수 있는 암호화 키를 사용해야 합니다.
어떤 솔루션이 최소한의 노력으로 이러한 요구 사항을 충족할까요?

  • A. AWS CloudHSM 클러스터를 사용하여 암호화 키를 저장합니다. Amazon S3에 쓰는 프로세스를 구성하여 CloudHSM에 대한 호출을 만들어 객체를 암호화하고 복호화합니다. CloudHSM 클러스터에 대한 액세스를 제한하는 IAM 정책을 배포합니다.
  • B. 고객 제공 키(SSE-C)를 사용하여 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는 키에 대한 액세스를 제한합니다.
  • C. AWS KMS 키(SSE-KMS)를 사용하여 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는 KMS 키에 대한 액세스를 제한하는 IAM 정책을 구성합니다.
  • D. Amazon S3 관리 키(SSE-S3)를 사용하여 서버 측 암호화를 사용하여 고객 정보가 포함된 객체를 암호화합니다. 객체를 암호화하는 Amazon S3 관리 키에 대한 액세스를 제한하는 IAM 정책을 구성합니다.

정답 : C


70 .

한 회사가 S3 Standard 스토리지 클래스의 수천 개의 Amazon S3 버킷에 페타바이트 규모의 데이터를 저장합니다. 이 데이터는 예측 불가능하고 가변적인 데이터 액세스 패턴을 가진 분석 워크로드를 지원합니다.
이 회사는 몇 달 동안 일부 데이터에 액세스하지 않습니다. 그러나 이 회사는 밀리초 이내에 모든 데이터를 검색할 수 있어야 합니다. 이 회사는 S3 스토리지 비용을 최적화해야 합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. S3 Storage Lens 표준 메트릭을 사용하여 객체를 더 비용 최적화된 스토리지 클래스로 옮길 시기를 결정합니다. S3 버킷에 대한 S3 수명 주기 정책을 만들어 객체를 비용 최적화된 스토리지 클래스로 옮깁니다. 향후에도 S3 수명 주기 정책을 계속 개선하여 스토리지 비용을 최적화합니다.
  • B. S3 Storage Lens 활동 메트릭을 사용하여 회사에서 드물게 액세스하는 S3 버킷을 식별합니다. 데이터의 나이에 따라 S3 Standard에서 S3 Standard-Infrequent Access(S3 Standard-IA) 및 S3 Glacier 스토리지 클래스로 객체를 이동하도록 S3 Lifecycle 규칙을 구성합니다.
  • C. S3 Intelligent-Tiering을 사용합니다. Deep Archive Access 계층을 활성화합니다.
  • D. S3 Intelligent-Tiering을 사용합니다. 기본 액세스 계층을 사용합니다.

정답 : D


71 .

보안 검토 중에 한 회사가 AWS Glue 작업에서 취약점을 발견했습니다. 이 회사는 Amazon Redshift 클러스터에 액세스하는 자격 증명이 작업 스크립트에 하드 코딩되어 있음을 발견했습니다.
데이터 엔지니어는 AWS Glue 작업의 보안 취약점을 수정해야 합니다. 솔루션은 자격 증명을 안전하게 저장해야 합니다.
데이터 엔지니어는 이러한 요구 사항을 충족하기 위해 어떤 단계 조합을 취해야 합니까? (두 가지를 선택하세요.)

  • A. AWS Glue 작업 매개변수에 자격 증명을 저장합니다.
  • B. Amazon S3 버킷에 있는 구성 파일에 자격 증명을 저장합니다.
  • C. AWS Glue 작업을 사용하여 Amazon S3 버킷에 있는 구성 파일에서 자격 증명에 액세스합니다.
  • D. AWS Secrets Manager에 자격 증명을 저장합니다.
  • E. AWS Glue 작업 IAM 역할에 저장된 자격 증명에 대한 액세스 권한을 부여합니다.

정답 : D, E


72 .

데이터 엔지니어는 Amazon Redshift를 사용하여 매달 한 번 리소스 집약적 분석 프로세스를 실행합니다. 매달 데이터 엔지니어는 새로운 Redshift 프로비저닝 클러스터를 만듭니다. 데이터 엔지니어는 매달 분석 프로세스가 완료된 후 Redshift 프로비저닝 클러스터를 삭제합니다. 데이터 엔지니어는 매달 클러스터를 삭제하기 전에 클러스터에서 Amazon S3 버킷으로 백업 데이터를 언로드합니다. 데이터 엔지니어는
인프라를 수동으로 관리할 필요가 없는 월별 분석 프로세스를 실행하는 솔루션이 필요합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. 분석 프로세스가 완료되면 Amazon Step Functions를 사용하여 Redshift 클러스터를 일시 중지하고 매달 새 프로세스를 실행하기 위해 클러스터를 재개합니다.
  • B. Amazon Redshift Serverless를 사용하여 분석 워크로드를 자동으로 처리합니다.
  • C. AWS CLI를 사용하여 분석 워크로드를 자동으로 처리합니다.
  • D. AWS CloudFormation 템플릿을 사용하여 분석 워크로드를 자동으로 처리합니다.

정답 : B


73 .

한 회사가 .xls 형식의 고객 데이터가 포함된 일별 파일을 받습니다. 이 회사는 이 파일을 Amazon S3에 저장합니다. 일별 파일의 크기는 약 2GB입니다.
데이터 엔지니어가 고객 이름이 포함된 파일의 열과 고객 성이 포함된 열을 연결합니다. 데이터 엔지니어는 파일에 있는 고유한 고객 수를 파악해야 합니다.
어떤 솔루션이 최소한의 운영 노력으로 이 요구 사항을 충족할까요?

  • A. AWS Glue 노트북에서 Apache Spark 작업을 만들고 실행합니다. S3 파일을 읽고 고유한 고객 수를 계산하도록 작업을 구성합니다.
  • B. AWS Glue 크롤러를 만들어 S3 파일의 AWS Glue 데이터 카탈로그를 만듭니다. Amazon Athena에서 SQL 쿼리를 실행하여 고유한 고객 수를 계산합니다.
  • C. Amazon EMR Serverless에서 Apache Spark 작업을 생성하고 실행하여 고유 고객 수를 계산합니다.
  • D. AWS Glue DataBrew를 사용하여 COUNT_DISTINCT 집계 함수를 사용하여 고유 고객 수를 계산하는 레시피를 만듭니다.

정답 : D


74 .

의료 회사가 Amazon Kinesis Data Streams를 사용하여 웨어러블 기기, 병원 장비 및 환자 기록에서 실시간 건강 데이터를 스트리밍합니다.
데이터 엔지니어는 스트리밍 데이터를 처리할 솔루션을 찾아야 합니다. 데이터 엔지니어는 Amazon Redshift Serverless 웨어하우스에 데이터를 저장해야 합니다. 솔루션은 스트리밍 데이터와 전날 데이터의 거의 실시간 분석을 지원해야 합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. Amazon Kinesis Data Firehose에 데이터를 로드합니다. Amazon Redshift에 데이터를 로드합니다.
  • B. Amazon Redshift의 스트리밍 수집 기능을 사용합니다.
  • C. Amazon S3에 데이터를 로드합니다. COPY 명령을 사용하여 Amazon Redshift에 데이터를 로드합니다.
  • D. Amazon Aurora 제로 ETL을 Amazon Redshift와 통합하여 사용합니다.

정답 : B

https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion.html


75 .

데이터 엔지니어는 Amazon S3 버킷에 저장된 데이터에 대한 Amazon Athena 쿼리를 기반으로 하는 Amazon QuickSight 대시보드를 사용해야 합니다. 데이터 엔지니어가 QuickSight 대시보드에 연결하면 권한이 충분하지 않음을 나타내는 오류 메시지를 받습니다.
어떤 요인이 권한 관련 오류를 일으킬 수 있습니까? (두 가지를 선택하세요.)

  • A. QuickSight와 Athena 사이에는 아무런 연관성이 없습니다.
  • B. Athena 표는 카탈로그화되지 않았습니다.
  • C. QuickSight는 S3 버킷에 액세스할 수 없습니다.
  • D. QuickSight는 S3 데이터를 해독할 수 있는 권한이 없습니다.
  • E. QuickSight에 할당된 IAM 역할이 없습니다.

정답 : C, D

E 는 권한 부족 오류가 아니라 인증/권한 부여 오류가 발생할 것이다.

(https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-athena-insufficient-permissions.html)


76 . 

한 회사가 JSON 형식과 .csv 형식으로 데이터 세트를 Amazon S3 버킷에 저장합니다. 이 회사에는 Microsoft SQL Server 데이터베이스용 Amazon RDS, 프로비저닝 용량 모드의 Amazon DynamoDB 테이블, Amazon Redshift 클러스터가 있습니다. 데이터 엔지니어링 팀은 SQL과 유사한 구문을 사용하여 데이터 과학자가 모든 데이터 소스를 쿼리할 수 있는 솔루션을 개발해야 합니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue Data Catalog에 메타데이터를 저장합니다. Amazon Athena를 사용하여 데이터를 쿼리합니다. 구조화된 데이터 소스에는 SQL을 사용합니다. JSON 형식으로 저장된 데이터에는 PartiQL을 사용합니다.
  • B. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue Data Catalog에 메타데이터를 저장합니다. Redshift Spectrum을 사용하여 데이터를 쿼리합니다. 구조화된 데이터 소스에는 SQL을 사용합니다. JSON 형식으로 저장된 데이터에는 PartiQL을 사용합니다.
  • C. AWS Glue를 사용하여 데이터 소스를 크롤링합니다. AWS Glue Data Catalog에 메타데이터를 저장합니다. AWS Glue 작업을 사용하여 JSON 형식의 데이터를 Apache Parquet 또는 .csv 형식으로 변환합니다. 변환된 데이터를 S3 버킷에 저장합니다. Amazon Athena를 사용하여 S3 버킷에서 원본 데이터와 변환된 데이터를 쿼리합니다.
  • D. AWS Lake Formation을 사용하여 데이터 레이크를 만듭니다. Lake Formation 작업을 사용하여 모든 데이터 소스의 데이터를 Apache Parquet 형식으로 변환합니다. 변환된 데이터를 S3 버킷에 저장합니다. Amazon Athena 또는 Redshift Spectrum을 사용하여 데이터를 쿼리합니다.

정답 : A


77 .

데이터 엔지니어가 AWS Glue 대화형 세션을 사용하여 머신 러닝(ML) 모델을 위한 데이터를 준비하도록 Amazon SageMaker Studio를 구성하고 있습니다.
데이터 엔지니어가 SageMaker Studio를 사용하여 데이터를 준비하려고 하면 액세스 거부 오류가 발생합니다.
엔지니어가 SageMaker Studio에 액세스하려면 어떤 변경을 해야 합니까?

  • A. AWSGlueServiceRole 관리 정책을 데이터 엔지니어의 IAM 사용자에게 추가합니다.
  • B. 신뢰 정책의 AWS Glue 및 SageMaker 서비스 주체에 대한 sts:AssumeRole 작업을 포함하는 정책을 데이터 엔지니어의 IAM 사용자에게 추가합니다.
  • C. 데이터 엔지니어의 IAM 사용자에게 AmazonSageMakerFullAccess 관리 정책을 추가합니다.
  • D. 신뢰 정책에서 AWS Glue 및 SageMaker 서비스 주체에 대해 sts:AddAssociation 작업을 허용하는 정책을 데이터 엔지니어의 IAM 사용자에게 추가합니다.

정답 : B


78 .

한 회사는 SAP HANA, Microsoft SQL Server, MongoDB, Apache Kafka, Amazon DynamoDB와 같은 데이터 소스에서 매일 약 1TB의 데이터를 추출합니다. 일부 데이터 소스에는 정의되지 않은 데이터 스키마나 변경되는 데이터 스키마가 있습니다.
데이터 엔지니어는 이러한 데이터 소스의 스키마를 감지할 수 있는 솔루션을 구현해야 합니다. 솔루션은 데이터를 추출, 변환하고 Amazon S3 버킷에 로드해야 합니다. 이 회사는 데이터 생성 후 15분 이내에 S3 버킷에 데이터를 로드하기 위한 서비스 수준 계약(SLA)을 맺었습니다.
어떤 솔루션이 최소한의 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. Amazon EMR을 사용하여 스키마를 감지하고 데이터를 추출, 변환하고 S3 버킷에 로드합니다. Apache Spark에서 파이프라인을 만듭니다.
  • B. AWS Glue를 사용하여 스키마를 감지하고 데이터를 추출, 변환하고 S3 버킷에 로드합니다. Apache Spark에서 파이프라인을 만듭니다.
  • C. AWS Lambda에서 PySpark 프로그램을 만들어 데이터를 추출하고 변환하고 S3 버킷에 로드합니다.
  • D. Amazon Redshift에 저장된 프로시저를 만들어 스키마를 감지하고 데이터를 추출, 변환하고 Redshift Spectrum 테이블에 로드합니다. Amazon S3에서 테이블에 액세스합니다.

정답 : B


79 .

한 회사에 Amazon S3 버킷에 저장된 데이터 세트를 사용하는 여러 애플리케이션이 있습니다. 이 회사에는 개인 식별 정보(PII)가 포함된 데이터 세트를 생성하는 전자상거래 애플리케이션이 있습니다. 이 회사에는 PII에 액세스할 필요가 없는 내부 분석 애플리케이션이 있습니다.
규정을 준수하기 위해 이 회사는 불필요하게 PII를 공유해서는 안 됩니다. 데이터 엔지니어는 데이터 세트에 액세스하는 각 애플리케이션의 요구 사항에 따라 PII를 동적으로 삭제하는 솔루션을 구현해야 합니다.
어떤 솔루션이 운영 오버헤드를 최소화하면서 요구 사항을 충족할까요?

  • A. 각 애플리케이션의 액세스를 제한하기 위해 S3 버킷 정책을 만듭니다. 데이터 세트의 여러 복사본을 만듭니다. 각 데이터 세트 복사본에 복사본에 액세스하는 애플리케이션의 필요에 맞는 적절한 수준의 수정을 제공합니다.
  • B. S3 Object Lambda 엔드포인트를 만듭니다. S3 Object Lambda 엔드포인트를 사용하여 S3 버킷에서 데이터를 읽습니다. S3 Object Lambda 함수 내에서 편집 로직을 구현하여 데이터에 액세스하는 각 애플리케이션의 필요에 따라 PII를 동적으로 편집합니다.
  • C. AWS Glue를 사용하여 각 애플리케이션의 데이터를 변환합니다. 데이터세트의 여러 사본을 만듭니다. 각 데이터세트 사본에 사본에 액세스하는 애플리케이션의 요구 사항에 맞는 적절한 수준의 수정을 제공합니다.
  • D. 사용자 지정 권한 부여자가 있는 API Gateway 엔드포인트를 만듭니다. API Gateway 엔드포인트를 사용하여 S3 버킷에서 데이터를 읽습니다. 데이터에 액세스하는 각 애플리케이션의 필요에 따라 PII를 동적으로 수정하기 위해 REST API 호출을 시작합니다.

정답 : B


80 .

데이터 엔지니어는 추출, 변환 및 로드(ETL) 작업을 빌드해야 합니다. ETL 작업은 사용자가 Amazon S3 버킷에 업로드하는 매일 들어오는 .csv 파일을 처리합니다. 각 S3 객체의 크기는 100MB 미만입니다.
어떤 솔루션이 이러한 요구 사항을 가장 비용 효율적으로 충족할까요?

  • A. 사용자 정의 Python 애플리케이션을 작성합니다. Amazon Elastic Kubernetes Service(Amazon EKS) 클러스터에서 애플리케이션을 호스팅합니다.
  • B. PySpark ETL 스크립트를 작성합니다. Amazon EMR 클러스터에 스크립트를 호스팅합니다.
  • C. AWS Glue PySpark 작업을 작성합니다. Apache Spark를 사용하여 데이터를 변환합니다.
  • D. AWS Glue Python 셸 작업을 작성합니다. pandas를 사용하여 데이터를 변환합니다.

정답 : D

https://aws.amazon.com/ko/glue/pricing/

https://docs.aws.amazon.com/whitepapers/latest/aws-glue-best-practices-build-performant-data-pipeline/additional-considerations.html


81 .

데이터 엔지니어는 Orders라는 AWS Glue 크롤러를 사용하여 AWS Glue Data Catalog 테이블을 만듭니다. 데이터 엔지니어는 다음과 같은 새 파티션을 추가하려고 합니다.

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

데이터 엔지니어는 테이블 위치에 있는 모든 폴더와 파일을 스캔하지 않고도 메타데이터를 편집하여 테이블에 새 파티션을 포함해야 합니다. 데이터 엔지니어는 Amazon Athena에서 어떤 데이터 정의 언어(DDL) 문을 사용해야 합니까?

 

  • A. ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/order_date=2023-01-01’; ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-02’) LOCATION ‘s3://transactions/orders/order_date=2023-01-02’;
  • B. MSCK REPAIR TABLE Orders;
  • C. REPAIR TABLE Orders;
  • D. ALTER TABLE Orders MODIFY PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/2023-01-01’; ALTER TABLE Orders MODIFY PARTITION(order_date=’2023-01-02’) LOCATION ‘s3://transactions/orders/2023-01-02’

정답 : A


82 .

한 회사가 Amazon S3에 10~15TB의 압축되지 않은 .csv 파일을 저장합니다. 이 회사는 Amazon Athena를 일회성 쿼리 엔진으로 평가하고 있습니다. 이 회사는 쿼리 런타임과 스토리지 비용을 최적화하기 위해 데이터를 변환하고자 합니다.

어떤 파일 형식과 압축 솔루션이 Athena 쿼리에 대한 이러한 요구 사항을 충족할까요?

  • A. zip으로 압축된 .csv 형식
  • B. bzip2로 압축된 JSON 포맷
  • C. Snappy로 압축된 Apache Parquet 형식
  • D. LZO로 압축된 Apache Avro 형식

정답 : C


83 .

한 회사가 Apache Airflow를 사용하여 회사의 현재 온프레미스 데이터 파이프라인을 조율합니다. 이 회사는 파이프라인의 일부로 SQL 데이터 품질 검사 작업을 실행합니다. 이 회사는 파이프라인을 AWS로 마이그레이션하고 AWS 관리 서비스를 사용하려고 합니다.

어떤 솔루션이 리팩토링을 가장 적게 하면서 이러한 요구 사항을 충족할까요?

  • A. 회사에서 Airflow를 사용하는 위치에 가장 가까운 AWS 리전에 AWS Outposts를 설정합니다. 서버를 Outposts 호스팅 Amazon EC2 인스턴스로 마이그레이션합니다. 파이프라인을 업데이트하여 온프레미스 파이프라인 대신 Outposts 호스팅 EC2 인스턴스와 상호 작용합니다.
  • B. Airflow 애플리케이션과 회사에서 마이그레이션해야 하는 코드가 포함된 사용자 지정 Amazon Machine Image(AMI)를 만듭니다. 사용자 지정 AMI를 사용하여 Amazon EC2 인스턴스를 배포합니다. 새로 배포된 EC2 인스턴스와 상호 작용하도록 네트워크 연결을 업데이트합니다.
  • C. 기존 Airflow 오케스트레이션 구성을 Amazon Managed Workflows for Apache Airflow(Amazon MWAA)로 마이그레이션합니다. 수집 중에 데이터 품질 검사를 만들어 Airflow에서 SQL 작업을 사용하여 데이터 품질을 검증합니다.
  • D. 파이프라인을 AWS Step Functions 워크플로로 변환합니다. Python 기반 AWS Lambda 함수로 SQL에서 데이터 품질 검사를 다시 만듭니다.

정답 : C


84 .

한 회사는 Amazon EMR을 추출, 변환 및 로드(ETL) 파이프라인으로 사용하여 여러 소스에서 온 데이터를 변환합니다. 데이터 엔지니어는 파이프라인을 조율하여 성능을 극대화해야 합니다.

어떤 AWS 서비스가 이 요구 사항을 가장 비용 효율적으로 충족할까요?

  • A. 아마존 이벤트브릿지
  • B. Apache Airflow를 위한 Amazon 관리 워크플로(Amazon MWAA)
  • C. AWS Step Functions
  • D. AWS Glue 워크플로

정답 : C

AWS Glue Workflows는 Glue 관련 ETL 작업을 조율하는 데 탁월하지만, AWS Step Functions는 더 큰 유연성, 더 광범위한 통합 기능, 효과적인 비용 관리로 인해 Amazon EMR 기반 ETL 파이프라인을 조율하는데 더 적합

  •  

85 .

온라인 리테일 회사가 Amazon S3 버킷에 Application Load Balancer(ALB) 액세스 로그를 저장합니다. 이 회사는 Amazon Athena를 사용하여 로그를 쿼리하여 트래픽 패턴을 분석하려고 합니다.

데이터 엔지니어가 Athena에서 분할되지 않은 테이블을 만듭니다. 데이터 양이 점차 증가함에 따라 쿼리에 대한 응답 시간도 증가합니다. 데이터 엔지니어는 Athena에서 쿼리 성능을 개선하려고 합니다.

어떤 솔루션이 최소한의 운영 노력으로 이러한 요구 사항을 충족할까요?

  • A. 모든 ALB 액세스 로그의 스키마를 확인하고 파티션 메타데이터를 AWS Glue 데이터 카탈로그에 쓰는 AWS Glue 작업을 생성합니다.
  • B. 모든 ALB 액세스 로그의 스키마를 결정하고 파티션 메타데이터를 AWS Glue 데이터 카탈로그에 쓰는 분류기를 포함하는 AWS Glue 크롤러를 생성합니다.
  • C. 모든 ALB 액세스 로그를 변환하는 AWS Lambda 함수를 만듭니다. 결과를 Apache Parquet 형식으로 Amazon S3에 저장합니다. 메타데이터를 분할합니다. Athena를 사용하여 변환된 데이터를 쿼리합니다.
  • D. Apache Hive를 사용하여 버킷 테이블을 만듭니다. AWS Lambda 함수를 사용하여 모든 ALB 액세스 로그를 변환합니다.

정답 : B


86 .

한 회사가 AWS에서 비즈니스 인텔리전스 플랫폼을 운영하고 있습니다. 이 회사는 AWS Storage Gateway Amazon S3 File Gateway를 사용하여 회사의 온프레미스 환경에서 Amazon S3 버킷으로 파일을 전송합니다.

데이터 엔지니어는 각 파일 전송이 성공적으로 완료되면 일련의 AWS Glue 작업을 실행하기 위해 AWS Glue 워크플로를 자동으로 시작하는 프로세스를 설정해야 합니다.

어떤 솔루션이 이러한 요구 사항을 가장 적은 운영 오버헤드로 충족할까요?

  • A. 이전에 성공한 파일 전송을 기준으로 파일 전송이 일반적으로 언제 끝나는지 확인합니다. 해당 시간에 AWS Glue 작업을 시작하도록 Amazon EventBridge 예약 이벤트를 설정합니다.
  • B. S3 파일 게이트웨이 파일 전송 이벤트가 성공적으로 완료될 때마다 AWS Glue 워크플로를 시작하는 Amazon EventBridge 이벤트를 설정합니다.
  • C. 데이터 엔지니어가 각 파일 전송이 완료되면 AWS Glue 워크플로를 시작할 수 있도록 주문형 AWS Glue 워크플로를 설정합니다.
  • D. AWS Glue Workflow를 호출하는 AWS Lambda 함수를 설정합니다. Lambda 함수의 트리거로 S3 객체 생성을 위한 이벤트를 설정합니다.

정답 : D

B 는 EventBridge 에서 S3 파일 게이트웨이 전송 이벤트를 받을 수 없으므로 제외한다.


87 .

소매업체는 Amazon Aurora PostgreSQL을 사용하여 실시간 거래 데이터를 처리하고 저장합니다. 이 회사는 데이터 웨어하우스에 Amazon Redshift 클러스터를 사용합니다.

매일 아침 추출, 변환 및 로드(ETL) 작업을 실행하여 PostgreSQL 데이터베이스의 새 데이터로 Redshift 클러스터를 업데이트합니다. 이 회사는 빠르게 성장했으며 Redshift 클러스터의 비용을 최적화해야 합니다.

데이터 엔지니어는 과거 데이터를 보관하기 위한 솔루션을 만들어야 합니다. 데이터 엔지니어는 PostgreSQL의 실시간 거래 데이터, Redshift의 현재 데이터 및 보관된 과거 데이터의 데이터를 효과적으로 결합하는 분석 쿼리를 실행할 수 있어야 합니다. 솔루션은 비용을 줄이기 위해 Amazon Redshift에 최근 15개월 분의 데이터만 보관해야 합니다.

이러한 요구 사항을 충족하는 단계 조합은 무엇입니까? (두 가지를 선택하십시오.)

  • A. PostgreSQL 데이터베이스에 있는 라이브 트랜잭션 데이터를 쿼리하기 위해 Amazon Redshift Federated Query 기능을 구성합니다.
  • B. PostgreSQL 데이터베이스에 있는 라이브 거래 데이터를 쿼리하도록 Amazon Redshift Spectrum을 구성합니다.
  • C. UNLOAD 명령을 사용하여 15개월 이상 된 데이터를 Amazon S3에 복사하는 월별 작업을 예약합니다. Redshift 클러스터에서 오래된 데이터를 삭제합니다. Amazon Redshift Spectrum을 구성하여 Amazon S3의 과거 데이터에 액세스합니다.
  • D. UNLOAD 명령을 사용하여 15개월 이상 된 데이터를 Amazon S3 Glacier Flexible Retrieval로 복사하는 월별 작업을 예약합니다. Redshift 클러스터에서 오래된 데이터를 삭제합니다. Redshift Spectrum을 구성하여 S3 Glacier Flexible Retrieval에서 과거 데이터에 액세스합니다.
  • E. 다양한 소스의 라이브, 현재, 과거 데이터를 결합하는 Amazon Redshift에서 구체화된 뷰를 만듭니다.

정답 : A, C

Federated Query 는 실시간 데이터베이스 데이터를 조회할 수 있고, Spectrum 은 S3 데이터들을 조회할 수 있다.

S3 클래스 중 Glacier Flexible Retrieval 과 Spectrum 은 연결이 불가능하다.


88 .

제조 회사는 전 세계 시설에 많은 IoT 기기를 보유하고 있습니다. 이 회사는 Amazon Kinesis Data Streams를 사용하여 기기에서 데이터를 수집합니다. 데이터에는 기기 ID, 캡처 날짜, 측정 유형, 측정 값, 시설 ID가 포함됩니다. 이 회사는 시설 ID를 파티션 키로 사용합니다.

이 회사의 운영 팀은 최근 많은 WriteThroughputExceeded 예외를 관찰했습니다. 운영 팀은 일부 샤드가 많이 사용되었지만 다른 샤드는 일반적으로 유휴 상태임을 발견했습니다.

이 회사는 운영 팀이 관찰한 문제를 어떻게 해결해야 할까요?

  • A. 시설 ID의 파티션 키를 무작위로 생성된 키로 변경합니다.
  • B. 샤드의 수를 늘립니다.
  • C. 생산자 측의 데이터를 보관합니다.
  • D. 시설 ID에서 캡처 날짜로 파티션 키를 변경합니다.

정답 : A

D 는 골고루 분산이 되지 않을 수 있다.


89 .

데이터 엔지니어는 판매 데이터 테이블에 대해 실행되는 Amazon Athena의 SQL 쿼리 성능을 개선하고자 합니다.
데이터 엔지니어는 특정 SQL 문의 실행 계획을 이해하고자 합니다. 또한 데이터 엔지니어는 SQL 쿼리에서 각 작업의 계산 비용을 보고자 합니다.
이러한 요구 사항을 충족하기 위해 데이터 엔지니어는 어떤 문을 실행해야 합니까?

  • A. EXPLAIN SELECT * FROM sales;
  • B. EXPLAIN ANALYZE FROM sales;
  • C. EXPLAIN ANALYZE SELECT * FROM sales;
  • D. EXPLAIN FROM sales;

정답 : C


90 .

한 회사가 VPC 내에서 로그 전달 스트림을 프로비저닝할 계획입니다. 이 회사는 VPC 흐름 로그를 Amazon CloudWatch Logs에 게시하도록 구성했습니다. 이 회사는 추가 분석을 위해 거의 실시간으로 Splunk에 흐름 로그를 보내야 합니다.

어떤 솔루션이 가장 적은 운영 오버헤드로 이러한 요구 사항을 충족할까요?

  • A. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Streams 데이터 스트림을 구성합니다. CloudWatch Logs 구독 필터를 만들어 로그 이벤트를 데이터 스트림으로 보냅니다.
  • B. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Firehose 전달 스트림을 만듭니다. CloudWatch Logs 구독 필터를 만들어 전달 스트림에 로그 이벤트를 보냅니다.
  • C. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Firehose 전송 스트림을 만듭니다. CloudWatch Logs에서 전송 스트림으로 흐름 로그를 보내는 AWS Lambda 함수를 만듭니다.
  • D. Splunk를 대상으로 사용하도록 Amazon Kinesis Data Streams 데이터 스트림을 구성합니다. CloudWatch Logs에서 데이터 스트림으로 흐름 로그를 보내는 AWS Lambda 함수를 만듭니다.

정답 : B


91 .

한 회사가 AWS에 데이터 레이크를 두고 있습니다. 데이터 레이크는 사업부에서 데이터 소스를 수집합니다. 이 회사는 쿼리에 Amazon Athena를 사용합니다. 스토리지 계층은 메타데이터 저장소로 AWS Glue Data Catalog가 있는 Amazon S3입니다.
이 회사는 데이터 과학자와 비즈니스 분석가에게 데이터를 제공하고자 합니다. 그러나 이 회사는 먼저 사용자 역할과 책임에 따라 Athena에 대한 세분화된 열 수준 데이터 액세스를 관리해야 합니다.

어떤 솔루션이 이러한 요구 사항을 충족할까요?

  • A. AWS Lake Formation을 설정합니다. Lake Formation에서 IAM 역할에 따라 사용자 및 애플리케이션에 대한 보안 정책 기반 규칙을 정의합니다.
  • B. AWS Glue 테이블에 대한 IAM 리소스 기반 정책을 정의합니다. 동일한 정책을 IAM 사용자 그룹에 연결합니다.
  • C. AWS Glue 테이블에 대한 IAM ID 기반 정책을 정의합니다. 동일한 정책을 IAM 역할에 연결합니다. IAM 역할을 사용자를 포함하는 IAM 그룹과 연결합니다.
  • D. AWS Resource Access Manager(AWS RAM)에서 리소스 공유를 생성하여 IAM 사용자에게 액세스 권한을 부여합니다.

정답 : A


92 .

한 회사에서 Amazon S3의 데이터를 검증하고 변환하기 위해 여러 AWS Glue 추출, 변환 및 로드(ETL) 작업을 개발했습니다. ETL 작업은 매일 한 번씩 Amazon RDS for MySQL에 데이터를 일괄적으로 로드합니다. ETL 작업은 DynamicFrame을 사용하여 S3 데이터를 읽습니다. ETL 작업은 현재 S3 버킷에 있는 모든 데이터를 처리합니다. 그러나 회사는 작업이 일일 증분 데이터만 처리하기를 원합니다.

어떤 솔루션이 최소한의 코딩 작업으로 이 요구 사항을 충족할까요?

  • A. S3 파일 상태를 읽고 Amazon DynamoDB에 상태를 기록하는 ETL 작업을 생성합니다.
  • B. ETL 작업에 대한 작업 북마크를 활성화하여 실행 후 상태를 업데이트하고 이전에 처리된 데이터를 추적합니다.
  • C. Amazon CloudWatch에서 처리된 객체를 추적하는 데 도움이 되는 ETL 작업에 대한 작업 메트릭을 활성화합니다.
  • D. 각 실행 후 Amazon S3에서 처리된 객체를 삭제하도록 ETL 작업을 구성합니다.

정답 : B


93 .

온라인 리테일 회사에 VPC에 있는 Amazon EC2 인스턴스에서 실행되는 애플리케이션이 있습니다. 이 회사는 VPC에 대한 흐름 로그를 수집하고 네트워크 트래픽을 분석하려고 합니다.


이러한 요구 사항을 가장 비용 효율적으로 충족할 솔루션은 무엇입니까?

  • A. Amazon CloudWatch Logs에 흐름 로그를 게시합니다. 분석에는 Amazon Athena를 사용합니다.
  • B. Amazon CloudWatch Logs에 흐름 로그를 게시합니다. 분석을 위해 Amazon OpenSearch Service 클러스터를 사용합니다.
  • C. 텍스트 형식으로 Amazon S3에 흐름 로그를 게시합니다. 분석에는 Amazon Athena를 사용합니다.
  • D. Apache Parquet 형식으로 Amazon S3에 흐름 로그를 게시합니다. 분석에는 Amazon Athena를 사용합니다.

정답 : D


94 .

소매업체는 거래, 매장 위치, 고객 정보 테이블을 예약된 ra3.4xlarge Amazon Redshift 클러스터 노드 4개에 저장합니다. 세 테이블 모두 균등한 테이블 분포를 사용합니다. 이 회사는 몇 년에 한두 번만 매장 위치 테이블을 업데이트합니다.

데이터 엔지니어는 대부분의 쿼리에서 전체 매장 위치 테이블이 4개의 모든 컴퓨트 노드에 지속적으로 브로드캐스트되기 때문에 Redshift 대기열이 느려지고 있다는 것을 알아챘습니다. 데이터 엔지니어는 매장 위치 테이블의 브로드캐스트를 최소화하여 쿼리 성능을 높이고자 합니다.

어떤 솔루션이 가장 비용 효율적인 방식으로 이러한 요구 사항을 충족할까요?

  • A. 매장 위치 테이블의 배포 스타일을 EVEN 배포에서 ALL 배포로 변경합니다.
  • B. 가장 높은 차원을 갖는 열을 기준으로 매장 위치 테이블의 분포 스타일을 KEY 분포로 변경합니다.
  • C. 모든 테이블의 정렬 키에 store_id라는 조인 열을 추가합니다.
  • D. 동일한 인스턴스 패밀리에서 Redshift 예약 노드를 더 큰 인스턴스 크기로 업그레이드합니다.

정답 : A


95 .

회사에는 Sales라는 테이블이 포함된 데이터 웨어하우스가 있습니다. 회사는 Amazon Redshift에 테이블을 저장합니다. 테이블에는 city_name이라는 열이 포함되어 있습니다. 회사는 "San" 또는 "El"로 시작하는 city_name이 있는 모든 행을 찾기 위해 테이블을 쿼리하려고 합니다. 이 요구 사항을 충족하는 SQL 쿼리는 무엇입니까?

 

  • A. Select * from Sales where city_name ~ ‘$(San|El)*’;
  • B. Select * from Sales where city_name ~ ‘^(San|El)*’;
  • C. Select * from Sales where city_name ~’$(San&El)*’;
  • D. Select * from Sales where city_name ~ ‘^(San&El)*’;

정답 : B


96 .

회사에서 온프레미스 PostgreSQL 데이터베이스에서 AWS로 고객 통화 데이터를 보내 거의 실시간으로 통찰력을 얻어야 합니다. 솔루션은 PostgreSQL 데이터베이스에서 실행되는 운영 데이터 저장소에서 업데이트를 캡처하여 로드해야 합니다. 데이터는 지속적으로 변경됩니다.

데이터 엔지니어가 AWS Database Migration Service(AWS DMS) 지속적 복제 작업을 구성합니다. 이 작업은 각 테이블의 PostgreSQL 소스 데이터베이스 트랜잭션 로그에서 거의 실시간으로 변경 사항을 읽습니다. 그런 다음 이 작업은 처리를 위해 데이터를 Amazon Redshift 클러스터로 보냅니다.

데이터 엔지니어는 작업의 변경 데이터 캡처(CDC) 중에 지연 문제를 발견합니다. 데이터 엔지니어는 PostgreSQL 소스 데이터베이스가 높은 지연 시간의 원인이라고 생각합니다.

어떤 솔루션이 PostgreSQL 데이터베이스가 높은 지연 시간의 원인임을 확인할 수 있을까요?

  • A. Amazon CloudWatch를 사용하여 DMS 작업을 모니터링합니다. CDCIncomingChanges 메트릭을 조사하여 소스 데이터베이스에서 CDC의 지연을 식별합니다.
  • B. 소스 데이터베이스의 논리적 복제가 postgresql.conf 구성 파일에 구성되어 있는지 확인합니다.
  • C. 소스 데이터베이스의 DMS 엔드포인트에 대해 Amazon CloudWatch Logs를 활성화합니다. 오류 메시지를 확인합니다.
  • D. Amazon CloudWatch를 사용하여 DMS 작업을 모니터링합니다. CDCLatencySource 메트릭을 검사하여 소스 데이터베이스에서 CDC의 지연을 식별합니다.

정답 : D


97 .

실험실은 IoT 센서를 사용하여 프로젝트의 습도, 온도 및 압력을 모니터링합니다. 센서는 10초마다 100KB의 데이터를 전송합니다. 다운스트림 프로세스는 30초마다 Amazon S3 버킷에서 데이터를 읽습니다.

어떤 솔루션이 가장 짧은 지연 시간으로 S3 버킷에 데이터를 전달할까요?

  • A. Amazon Kinesis Data Streams와 Amazon Kinesis Data Firehose를 사용하여 S3 버킷에 데이터를 전달합니다. Kinesis Data Firehose에 대한 기본 버퍼 간격을 사용합니다.
  • B. Amazon Kinesis Data Streams를 사용하여 S3 버킷에 데이터를 전달합니다. 스트림을 구성하여 5개의 프로비저닝된 샤드를 사용합니다.
  • C. Amazon Kinesis Data Streams를 사용하고 Kinesis Client Library를 호출하여 S3 버킷에 데이터를 전달합니다. 애플리케이션에서 5초 버퍼 간격을 사용합니다.
  • D. Amazon Managed Service for Apache Flink(이전 명칭 Amazon Kinesis Data Analytics)와 Amazon Kinesis Data Firehose를 사용하여 S3 버킷에 데이터를 전달합니다. Kinesis Data Firehose에 5초 버퍼 간격을 사용합니다.

정답 : D


98 .

한 회사에서는 머신 러닝(ML)을 사용하여 Amazon S3 데이터 레이크에 있는 데이터에 대한 분석을 수행하려고 합니다. 이 회사에는 회사 내 소비자에게 보고서를 만들 수 있는 기능을 제공하는 두 가지 데이터 변환 요구 사항이 있습니다.

이 회사는 예약된 시간에 Amazon S3에 도착해야 하는 다양한 형식의 300GB 데이터에 대해 매일 변환을 수행해야 합니다. 이 회사는 S3 데이터 레이크에 있는 테라바이트 규모의 보관된 데이터에 대해 일회성 변환을 수행해야 합니다. 이 회사는 Amazon Managed Workflows for Apache Airflow(Amazon MWAA) Directed Acyclic Graphs(DAG)를 사용하여 처리를 조율합니다.

이 회사는 이러한 요구 사항을 가장 비용 효율적으로 충족하기 위해 Amazon MWAA DAG에 어떤 작업 조합을 예약해야 합니까? (두 가지를 선택하세요.)

  • A. 매일 들어오는 데이터의 경우 AWS Glue 크롤러를 사용하여 스키마를 스캔하고 식별합니다.
  • B. 매일 들어오는 데이터의 경우 Amazon Athena를 사용하여 스키마를 스캔하고 식별합니다.
  • C. 매일 들어오는 데이터의 경우 Amazon Redshift를 사용하여 변환을 수행합니다.
  • D. 일일 데이터와 보관된 데이터의 경우 Amazon EMR을 사용하여 데이터 변환을 수행합니다.
  • E. 보관된 데이터의 경우 Amazon SageMaker를 사용하여 데이터 변환을 수행합니다.

 

반응형