AWS

AWS認定ビッグデータスペシャリティサンプル試験問題2

AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

2) An administrator has a 500-GB file in Amazon S3. The administrator runs a nightly COPY command into a 10-node Amazon Redshift cluster. The administrator wants to prepare the data to optimize performance of the COPY command.

How should the administrator prepare the data?

    A) Compress the file using gz compression.
    B) Split the file into 500 smaller files.
    C) Convert the file format to AVRO.
    D) Split the file into 10 files of equal size.

googleで日本語翻訳

2)管理者はAmazon S3に500 GBのファイルを持っています。 管理者は、夜間のCOPYコマンドを10ノードのAmazon Redshiftクラスタに実行します。 管理者は、COPYコマンドのパフォーマンスを最適化するためにデータを準備する必要があります。

管理者はどのようにデータを準備する必要がありますか?

     A)gz圧縮を使用してファイルを圧縮します。
     B)ファイルを500個の小さなファイルに分割します。
     C)ファイル形式をAVROに変換します。
     D)ファイルを同じサイズの10個のファイルに分割します。

bingで日本語翻訳

2) 管理者は、amazon s3 で 500 gb のファイルを持っています。管理者は、10ノードの amazon redshift クラスターに夜間のコピーコマンドを実行します。管理者は、copy コマンドのパフォーマンスを最適化するためにデータを準備したいと考えています。

管理者がデータを準備する方法

a) gz 圧縮を使用してファイルを圧縮します。
b) ファイルを500の小さいファイルに分割します。
c) ファイル形式をアブロに変換します。
d) 等しいサイズの10ファイルにファイルを分割します。

解答

原文

2) B - The critical aspect of this question is running the COPY command with the maximum amount of parallelism. 
The two options that will increase parallelism are B and D. 
Option D will load one file per node in parallel, which will increase performance, but option B will have a greater effect because it will allow Amazon Redshift to load multiple files per instance in parallel (COPY can process one file per slice on each node). 
Compressing the files (option A) is a recommended practice and will also increase performance, but not to the same extent as loading multiple files in parallel.

http://docs.aws.amazon.com/redshift/latest/dg/c_high_level_system_architecture.html

googleで日本語翻訳

2)B - この質問の重要な側面は、最大並列処理量でCOPYコマンドを実行することです。
並列性を高める2つのオプションは、BとDです。
オプションDはノードごとに1つのファイルを並列にロードしますが、パフォーマンスは向上しますが、インスタンスごとに複数のファイルを並列にロードできるため、オプションBがより効果的です(各ノードで1つのファイルを処理できます) 。
ファイルを圧縮する(オプションA)ことは推奨される方法であり、複数のファイルを並行してロードするのと同じ程度ではなく、パフォーマンスを向上させます。

bingで日本語翻訳

2)B - この質問の重要な側面は、最大並列処理量でCOPYコマンドを実行することです。
並列性を高める2つのオプションは、BとDです。
オプションDはノードごとに1つのファイルを並列にロードしますが、パフォーマンスは向上しますが、インスタンスごとに複数のファイルを並列にロードできるため、オプションBがより効果的です(各ノードで1つのファイルを処理できます) 。
ファイルを圧縮する(オプションA)ことは推奨される方法であり、複数のファイルを並行してロードするのと同じ程度ではなく、パフォーマンスを向上させます。