AWS
JAWS-UG さいたま支部 第7回勉強会を開催しました。
AWSJAWS-UG勉強会・セミナー

はじめに

JAWS-UG さいたま支部 第7回勉強会
を開催しました!

AWS超入門 (EC2×2+標準ELBのハンズオン)

入門の方には、いいセッションでした。
ちょっとトラブルがありましたが。。。

さくらインターネットのIoTプラットフォームsakura.ioを使ってAWS連携をやってみよう(仮)

ソラコムさんとの区分けがうまいなぁと関心しました。
「データを迎えに行く」という発想は、いい逆転の発想ですね。

高火力コンピューティング。シンゴジラやDCの写真。ドラマとかいろいろカッコイイ。

ブログ書いてる時期に知りましたがIntel Edisonが終わるようなので、
個人にRaspberryPiを待とうと思いました。

athenaのお話

Redshiftを起動しつづけるより
Athenaのほうが安いこともある。
併用も可能。そんなに高くはならない

パーティションとかやったことがないので
必要だなーと思いました。

CFnでWAFとALBを連携

サミットでパネルディスカッションをした直後なのに流石。

AWS WAF is now available on the Application Load Balancer (ALB)

このエントリがきっかけだったようですね。
まだ、WAFを導入していないので導入したいなぁ。

AWS SUMMIT TOKYO 2017 NEXT ACTION

合格した先のお話。
参加者のみなさんでスペシャリティの問題を解いてみる試みをしましたが
個人的には好感触でした。

まとめ

次回からは、少人数のハンズオンで回を進めて行く予定です。
大宮は遠いんですけど、やっていく気持ちだけはあります。
9月には、また開催する予定です。是非お越しください。

AWS
AWS認定ビッグデータスペシャリティサンプル試験問題10
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

10) A data engineer needs to architect a data warehouse for an online retail company to store historic purchases. The data engineer needs to use Amazon Redshift. To comply with PCI:DSS and meet corporate data protection standards, the data engineer must ensure that data is encrypted at rest and that the keys are managed by a corporate on-premises HSM.

Which approach meets these requirements in the most cost-effective manner?

    A) Create a VPC, and then establish a VPN connection between the VPC and the on-premises network. Launch the Amazon Redshift cluster in the VPC, and configure it to use your corporate HSM.
    B) Use the AWS CloudHSM service to establish a trust relationship between the CloudHSM and the corporate HSM over a Direct Connect connection. Configure Amazon Redshift to use the CloudHSM device.
    C) Configure the AWS Key Management Service to point to the corporate HSM device, and then launch the Amazon Redshift cluster with the KMS managing the encryption keys.
    D) Use AWS Import/Export to import the corporate HSM device into the AWS Region where the Amazon Redshift cluster will launch, and configure Redshift to use the imported HSM.

googleで日本語翻訳

10)データエンジニアは、オンライン小売会社が過去の購入品を保管するためのデータウェアハウスを設計する必要があります。データエンジニアはAmazon Redshiftを使用する必要があります。 PCI:DSSに準拠し、企業データ保護基準を満たすために、データエンジニアは、データが安心して暗号化され、企業の社内HSMによってキーが管理されるようにする必要があります。

どちらのアプローチが最も費用対効果の高い方法でこれらの要件を満たしていますか?

    A)VPCを作成し、次にVPCとオンプレミスネットワーク間にVPN接続を確立します。 VPCでAmazon Redshiftクラスタを起動し、会社のHSMを使用するように構成します。
    B)AWS CloudHSMサービスを使用して、CloudHSMと企業HSMとの間の直接接続接続による信頼関係を確立します。 CloudHSMデバイスを使用するようにAmazon Redshiftを設定します。
    C)企業のHSMデバイスを指すようにAWS鍵管理サービスを構成し、暗号鍵を管理するKMSでAmazon Redshiftクラスタを起動します。
    D)AWSインポート/エクスポートを使用して、企業のHSMデバイスをAmazon Redshiftクラスタが起動するAWSリージョンにインポートし、インポートしたHSMを使用するようにRedshiftを設定します。

bingで日本語翻訳

10) データエンジニアは、歴史的な購入を格納するためにオンライン小売会社のためのデータウェアハウスを設計する必要があります。データエンジニアは amazon redshift を使用する必要があります。pci: dss に準拠し、企業のデータ保護基準を満たしている場合、データエンジニアは、データが残りの部分で暗号化されていること、および企業の社内の hsm によってキーが管理されていることを確認する必要があります。

どのアプローチが最も費用対効果の高い方法でこれらの要件を満たしている?

a) vpc を作成し、vpc とオンプレミスネットワーク間の vpn 接続を確立します。vpc で amazon redshift クラスターを起動し、企業の hsm を使用するように構成します。
b) aws cloudhsm サービスを使用して、直接接続接続を介して cloudhsm と企業 hsm の間の信頼関係を確立します。cloudhsm デバイスを使用するように amazon redshift を構成します。
c) 企業の hsm デバイスをポイントするように aws キーマネージメントサービスを構成し、暗号化キーを管理する kms を使用して amazon redshift クラスターを起動します。
d) aws インポート/エクスポートを使用して、amazon redshift クラスターが起動する aws リージョンに企業 hsm デバイスをインポートし、インポートした hsm を使用するように redshift を構成します。

解答

原文

10) A - Amazon Redshift can use an on-premises HSM for key management over the VPN, which ensures that the encryption keys are locally managed. 
Option B is possible: CloudHSM can cluster to an on-premises HSM. But then key management could be performed on either the on-premises HSM or CloudHSM, and that doesn’t meet the design goal. 
Option C does not describe a valid feature of KMS and violates the requirement for the corporate HSM to manage the keys requirement, even if it were possible. 
Option D is not possible because you cannot put hardware into an AWS Region.

googleで日本語翻訳

10)A - Amazon RedshiftはVPN上のキー管理にオンプレミスHSMを使用して、暗号化キーがローカルで管理されるようにします。
オプションBが可能:CloudHSMはオンプレミスHSMにクラスタ化できます。 しかし、キー管理はオンプレミスのHSMまたはCloudHSMで実行でき、それは設計目標を満たしていません。
オプションCは、KMSの有効な機能を記述しておらず、可能であれば、企業のHSMがキー要件を管理するための要件に違反しています。
オプションDは、ハードウェアをAWSリージョンに入れることができないため不可能です。

bingで日本語翻訳

10) a-amazon redshift は、vpn 経由のキー管理にオンプレミスの hsm を使用して、暗号化キーがローカルで管理されるようにすることができます。
オプション b は可能です: cloudhsm はオンプレミス hsm にクラスタ化できます。しかし、キーマネージメントはオンプレミス hsm または cloudhsm のいずれかで実行でき、設計目標を満たしていません。
オプション c では、kms の有効な機能については説明せず、可能であったとしても、企業の hsm がキー要件を管理するための要件に違反しています。
ハードウェアを aws リージョンに配置できないため、オプション d は使用できません。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題9
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

9) A company logs data from its application in large files and runs regular analytics of these logs to support internal reporting for three months after the logs are generated. After three months, the logs are infrequently accessed for up to a year. The company also has a regulatory control requirement to store application logs for seven years.

Which course of action should the company take to achieve these requirements in the most cost-efficient way?

    A) Store the files in S3 Glacier with a Deny Delete vault lock policy for archives less than seven years old and a vault access policy that restricts read access to the analytics IAM group and write access to the log writer service role.
    B) Store the files in S3 Standard with a lifecycle policy to transition the storage class to Standard - IA after three months. After a year, transition the files to Glacier and add a Deny Delete vault lock policy for archives less than seven years old.
    C) Store the files in S3 Standard with lifecycle policies to transition the storage class to Standard – IA after three months and delete them after a year. Simultaneously store the files in Amazon Glacier with a Deny Delete vault lock policy for archives less than seven years old.
    D) Store the files in S3 Standard with a lifecycle policy to remove them after a year. Simultaneously store the files in Amazon S3 Glacier with a Deny Delete vault lock policy for archives less than seven years old.

googleで日本語翻訳

9)企業はアプリケーションからのデータを大量のファイルに記録し、これらのログの定期的な分析を実行して、ログが生成されてから3ヶ月間内部レポートをサポートします。 3ヶ月後、ログはまれに最大1年間アクセスされます。同社は、アプリケーションログを7年間保管するための規制上の要件も定めています。

最も費用対効果の高い方法でこれらの要件を達成するためには、どのような措置を取る必要がありますか?

    A)7年未満のアーカイブの拒否ボルトロック拒否ポリシーを持つS3 Glacierにファイルを保存し、分析IAMグループへの読み取りアクセスを制限し、ログライターサービスロールへの書き込みアクセスを制限するボールトアクセスポリシーを保存します。
    B)3か月後にストレージクラスをStandard-IAに移行するために、ライフサイクルポリシーでS3 Standardにファイルを保存します。 1年後にファイルをGlacierに移行し、7年未満のアーカイブには拒否ボルトロック拒否ポリシーを追加します。
    C)S3スタンダードのライフサイクルポリシーでファイルを保管し、ストレージクラスをスタンダードIAに移行してから3か月後に削除し、1年後に削除します。 7年未満のアーカイブの場合は、ボールトロックの拒否ポリシーを適用してAmazon Glacierにファイルを保存します。
    D)1年後にファイルを削除するには、ライフサイクルポリシーでS3 Standardにファイルを保存します。 7年未満のアーカイブの場合は、ボルトロック解除ポリシーを適用してAmazon S3 Glacierにファイルを同時に保存します。

bingで日本語翻訳

9) 会社は、大規模なファイル内のアプリケーションからデータをログに記録し、ログが生成された後3ヶ月間の内部報告をサポートするために、これらのログの定期的な分析を実行します。3ヶ月後には、ログが頻繁に1年までアクセスされます。同社はまた、7年間のアプリケーションログを格納するための規制管理の要件を持っています。

最もコスト効率の高い方法でこれらの要件を達成するために会社が取るべき行動のコースはどれですか?

a) 7 歳未満のアーカイブの削除ボールトロックポリシーを拒否し、アナリティクス iam グループへの読み取りアクセスとログライタサービスロールへの書き込みアクセスを制限する vault アクセスポリシーを使用して、s3 氷河にファイルを保存します。
b) 3 ヶ月後にストレージクラスを標準-ia に移行するために、ライフサイクルポリシーを使用して s3 標準にファイルを保存します。1年後、氷河にファイルを移行し、7歳未満のアーカイブの拒否削除ボールトロックポリシーを追加します。
c) 3 ヶ月後にストレージクラスを標準-ia に移行し、1年後にそれらを削除するには、ライフサイクルポリシーを使用して s3 標準にファイルを保存します。同時に、7歳未満のアーカイブの削除ボールトロックポリシーを拒否してアマゾン氷河にファイルを格納します。
d) 1 年後にそれらを削除するには、ライフサイクルポリシーと s3 標準のファイルを格納します。同時に、7歳未満のアーカイブの削除ボールトロックポリシーを拒否すると amazon s3 氷河にファイルを格納します。

解答

原文

9) C – There are two aspects to this question: setting up a lifecycle policy to ensure that objects are stored in the most cost-effective storage, and ensuring that the regulatory control is met. The lifecycle policy will store the objects on S3 Standard during the three months of active use, and then move the objects to S3 Standard – IA when access will be infrequent. 
That narrows the possible answer set to B and C. 
The Deny Delete vault lock policy will ensure that the regulatory policy is met, but that policy must be applied over the entire lifecycle of the object, not just after it is moved to Glacier after the first year. 
Option B has the Deny Delete vault lock applied over the entire lifecycle of the object and is the right answer.

googleで日本語翻訳

9)C - この問題には2つの側面があります。オブジェクトが最も費用対効果の高いストレージに格納されるようにライフサイクルポリシーを設定し、規制管理が確実に行われることです。 ライフサイクルポリシーは、3か月間のアクティブな使用中にオブジェクトをS3 Standardに保存し、アクセスが頻繁にならないようにオブジェクトをS3 Standard-IAに移動します。
これは、BとCに設定されている可能な答えを狭める。
ボールトロックを拒否するポリシーは、規制ポリシーが確実に満たされるようにしますが、最初の1年後に氷河に移動した後ではなく、オブジェクトのライフサイクル全体にポリシーを適用する必要があります。
オプションBには、オブジェクトのライフサイクル全体に適用されるボールトロックの拒否の拒否があり、正解です。

bingで日本語翻訳

9) c –この質問には2つの側面があります: ライフサイクルポリシーを設定して、オブジェクトが最もコスト効率の高いストレージに格納され、規制管理が確実に満たされるようにします。ライフサイクルポリシーは、アクティブな使用の3か月の間に s3 標準にオブジェクトを保存し、アクセス頻度が低い場合はオブジェクトを s3 標準-ia に移動します。
それは b と c に設定可能な答えを絞り込みます。
[vault ロックの削除を拒否] ポリシーは、規制ポリシーが満たされていることを確認しますが、最初の1年後に氷河に移動した直後ではなく、オブジェクトのライフサイクル全体にわたってポリシーを適用する必要があります。
option b には、オブジェクトのライフサイクル全体に適用される削除ボールトロックの拒否があり、正しい答えです。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題8
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

8) A data engineer needs to collect data from multiple Amazon Redshift clusters within a business and consolidate the data into a single central data warehouse. Data must be encrypted at all times while at rest or in flight.

What is the most scalable way to build this data collection process?

    A) Run an ETL process that connects to the source clusters using SSL to issue a SELECT query for new data, and then write to the target data warehouse using an INSERT command over another SSL secured connection.
    B) Use AWS KMS data key to run an UNLOAD ENCRYPTED command that stores the data in an unencrypted S3 bucket; run a COPY command to move the data into the target cluster.
    C) Run an UNLOAD command that stores the data in an S3 bucket encrypted with an AWS KMS data key; run a COPY command to move the data into the target cluster.
    D) Connect to the source cluster over an SSL client connection, and write data records to Amazon Kinesis Firehose to load into your target data warehouse.

googleで日本語翻訳

8)データエンジニアは、ビジネス内の複数のAmazon Redshiftクラスタからデータを収集し、そのデータを単一の中央データウェアハウスに統合する必要があります。データは、休憩中または飛行中に常に暗号化する必要があります。

このデータ収集プロセスを構築する最もスケーラブルな方法は何ですか?

    A)SSLを使用してソース・クラスタに接続するETLプロセスを実行して、新しいデータのSELECT問合せを発行し、別のSSL保護接続を介してINSERTコマンドを使用してターゲット・データ・ウェアハウスに書き込みます。
    B)AWS KMSデータキーを使用して、暗号化されていないS3バケットにデータを格納するUNLOAD ENCRYPTEDコマンドを実行します。 COPYコマンドを実行して、データをターゲット・クラスターに移動します。
    C)AWS KMSデータキーで暗号化されたS3バケットにデータを格納するUNLOADコマンドを実行します。 COPYコマンドを実行して、データをターゲット・クラスタに移動します。
    D)SSLクライアント接続を介してソースクラスタに接続し、Amazon Kinesis Firehoseにデータレコードを書き込み、ターゲットデータウェアハウスにロードします。

bingで日本語翻訳

8) データエンジニアは、ビジネス内の複数の amazon redshift クラスタからデータを収集し、データを単一の中央データウェアハウスに統合する必要があります。データは、安静時または飛行中に常に暗号化する必要があります。

このデータ収集プロセスを構築する最もスケーラブルな方法は何ですか。

a) 新しいデータに対して選択クエリを発行するために ssl を使用してソースクラスタに接続する etl プロセスを実行し、別の ssl セキュア接続に対する insert コマンドを使用してターゲットデータウェアハウスに書き込みます。
b) aws kms データキーを使用して、暗号化されていない s3 バケットにデータを格納する、アンロードされた暗号コマンドを実行します。コピーコマンドを実行して、データをターゲットクラスターに移動します。
c) aws kms データキーで暗号化された s3 バケットにデータを格納する unload コマンドを実行します。コピーコマンドを実行して、データをターゲットクラスターに移動します。
d) ssl クライアント接続を介してソースクラスタに接続し、amazon キネシスホースにデータレコードを書き込んで、ターゲットデータウェアハウスにロードします。

解答

原文

8) B - The most scalable solutions are the UNLOAD/COPY solutions because they will work in parallel, which eliminates A and D as answers. 
Option C is incorrect because the data would not be encrypted in flight, and you cannot encrypt an entire bucket with a KMS key. 
Option B meets the encryption requirements, the UNLOAD ENCRYPTED command automatically stores the data encrypted using-client side encryption and uses HTTPS to encrypt the data during the transfer to S3.

googleで日本語翻訳

8)B - 最も拡張性の高いソリューションはUNLOAD / COPYソリューションです。これはAとDを解答として排除して並列処理するためです。
オプションCは、飛行中にデータが暗号化されず、KMSキーを使用してバケット全体を暗号化できないため、間違っています。
オプションBが暗号化要件を満たしている場合、UNLOAD ENCRYPTEDコマンドはクライアント側の暗号化を使用して暗号化されたデータを自動的に保存し、S3への転送中にHTTPSを使用してデータを暗号化します。

bingで日本語翻訳

8) b-最もスケーラブルなソリューションは、それらが並列で動作するため、アンロード/コピーソリューションであり、答えとして a と d を排除します。
データが飛行中に暗号化されないため、オプション c が正しくないため、kms キーを使用してバケット全体を暗号化することはできません。
オプション b は暗号化の要件を満たしており、暗号化されたアンロード・コマンドは、クライアント側の暗号化を使用して暗号化されたデータを自動的に保存し、s3 への転送中にデータを暗号化するために https を使用します。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題7
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

7) A mobile application collects data that must be stored in multiple Availability Zones within five minutes of being captured in the app.

What architecture securely meets these requirements?

    A) The mobile app should write to an S3 bucket that allows anonymous PutObject calls.
    B) The mobile app should authenticate with an Amazon Cognito identity that is authorized to write to an Amazon Kinesis Firehose with an Amazon S3 destination.
    C) The mobile app should authenticate with an embedded IAM access key that is authorized to write to an Amazon Kinesis Firehose with an Amazon S3 destination.
    D) The mobile app should call a REST-based service that stores data on Amazon EBS. Deploy the service on multiple EC2 instances across two Availability Zones.

googleで日本語翻訳

7)モバイルアプリケーションは、アプリでキャプチャされてから5分以内に複数のアベイラビリティゾーンに保存されなければならないデータを収集します。

どのアーキテクチャがこれらの要件を確実に満たしていますか?

     A)モバイルアプリは、匿名のPutObject呼び出しを可能にするS3バケットに書き込む必要があります。
     B)モバイルアプリは、Amazon S3宛先でAmazon Kinesis Firehoseに書き込む権限を持つAmazon Cognito IDで認証する必要があります。
     C)モバイルアプリは、Amazon S3宛先を使用してAmazon Kinesis Firehoseに書き込む権限を持つ組み込みIAMアクセスキーで認証する必要があります。
     D)モバイルアプリは、Amazon EBSにデータを格納するRESTベースのサービスを呼び出す必要があります。 2つの可用性ゾーンにまたがる複数のEC2インスタンスにサービスを展開します。

bingで日本語翻訳

7) モバイルアプリケーションは、アプリでキャプチャされてから5分以内に複数のアベイラビリティーゾーンに保存する必要があるデータを収集します。

これらの要件を安全に満たすアーキテクチャ

a) モバイルアプリは、匿名の putobject 呼び出しを許可する s3 バケットに書き込む必要があります。
b) モバイルアプリは amazon s3 宛先で amazon キネシスホースに書き込むことが許可されている amazon cognito id で認証する必要があります。
c) モバイルアプリは、amazon s3 宛先で amazon キネシスホースへの書き込みを許可されている埋め込み iam アクセスキーで認証する必要があります。
d) モバイルアプリは、amazon ebs にデータを格納する rest ベースのサービスを呼び出す必要があります。2つのアベイラビリティーゾーン間で複数の ec2 インスタンスにサービスをデプロイします。

解答

原文

7) B – It is essential when writing mobile applications that you consider the security of both how the application authenticates and how it stores credentials. 
Option A uses an anonymous Put, which may allow other apps to write counterfeit data; 
Option B is the right answer, because using Amazon Cognito gives you the ability to securely authenticate pools of users on any type of device at scale. 
Option C would put credentials directly into the application, which is strongly discouraged because applications can be decompiled which can compromise the keys. 
Option D does not meet our availability requirements: although the EC2 instances are running in different Availability Zones, the EBS volumes attached to each instance only store data in a single Availability Zone.

googleで日本語翻訳

7)B - モバイルアプリケーションを書くときは、アプリケーションの認証方法と資格情報の保管方法の両方のセキュリティを考慮する必要があります。
オプションAは匿名のプットを使用します。これにより他のアプリが偽造データを書き込む可能性があります。
Amazon Cognitoを使用すると、どんなタイプのデバイスでもユーザーのプールを安全に認証することができるため、Option Bが正しい答えです。
オプションCでは、資格情報を直接アプリケーションに入れることになります。アプリケーションをデコンパイルしてキーを侵害する可能性があるため、強くお勧めします。
オプションDは可用性要件を満たしていません。EC2インスタンスは異なる可用性ゾーンで実行されていますが、各インスタンスに接続されたEBSボリュームは単一の可用性ゾーンにのみデータを格納します。

bingで日本語翻訳

7) b –アプリケーションの認証方法と資格情報の保存方法の両方のセキュリティを考慮したモバイルアプリケーションを作成するときには、必要不可欠です。
オプション a は匿名 put を使用し、他のアプリが偽造データを書き込むことを許可します。
amazon cognito を使用すると、スケールで任意の種類のデバイス上のユーザーのプールを安全に認証できるため、オプション b は正しい答えになります。
オプション c はアプリケーションに資格情報を直接置くことになるため、アプリケーションはキーをコンパイルすることができるため、推奨されません。
オプション d は可用性の要件を満たしていません: ec2 インスタンスは異なるアベイラビリティーゾーンで実行されていますが、各インスタンスに接続する ebs ボリュームは、単一のアベイラビリティーゾーンにデータを格納するだけです。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題6
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

6) An administrator decides to use the Amazon Machine Learning service to classify social media posts that mention your company into two categories: posts that require a response and posts that do not. The training dataset of 10,000 posts contains the details of each post, including the timestamp, author, and full text of the post. You are missing the target labels that are required for training.

Which two options will create valid target label data?

    A) Ask the social media handling team to review each post and provide the label.
    B) Use the sentiment analysis NLP library to determine whether a post requires a response.
    C) Use the Amazon Mechanical Turk web service to publish Human Intelligence Tasks that ask Turk workers to label the posts.
    D) Using the a priori probability distribution of the two classes, use Monte-Carlo simulation to generate the labels.

googleで日本語翻訳

6)管理者はAmazon Machine Learningサービスを使用して、あなたの会社に言及しているソーシャルメディアの投稿を、レスポンスが必要な投稿とそうでない投稿の2つのカテゴリに分類します。 1万の投稿のトレーニングデータセットには、タイムスタンプ、作成者、投稿の全文を含む各投稿の詳細が含まれています。 トレーニングに必要なターゲットラベルがありません。

有効なターゲットラベルデータを作成する2つのオプションはどれですか?

     A)ソーシャルメディア担当チームに各投稿を確認し、ラベルを提出するよう依頼します。
     B)感情分析NLPライブラリを使用して、投稿が応答を必要とするかどうかを判断する。
     C)Amazon Mechanical Mechanical Webサービスを使用して、人工知能タスクを公開して、トルコ人労働者に投稿にラベル付けを依頼する。
     D)2つのクラスの先験的確率分布を用いて、モンテカルロシミュレーションを用いてラベルを生成する。

bingで日本語翻訳

6) 管理者は、2つのカテゴリにあなたの会社に言及ソーシャルメディアの記事を分類するためにアマゾンマシン学習サービスを使用することを決定: 応答としない投稿を必要とする投稿。10000投稿のトレーニングデータセットには、ポストのタイムスタンプ、作成者、全文など、各投稿の詳細が含まれています。トレーニングに必要なターゲットラベルがありません。

どの2つのオプションが有効なターゲットラベルデータを作成しますか?

) は、各ポストを確認し、ラベルを提供するために、ソーシャルメディアの処理チームに依頼してください。
b) 投稿が応答を必要とするかどうかを判断するために、センチメント分析 nlp ライブラリを使用します。
c) トルコの労働者にポストにラベルを付けるように頼む人間の知性の仕事を出版するのにアマゾン機械トルコのウェブサービスを使用しなさい。
d) 2 つのクラスの事前確率分布を使用して、モンテカルロシミュレーションを使用してラベルを生成します。

解答

原文

6) A, C - You need accurate data to train the service and get accurate results from future data. 
The options described in B and D would end up training an ML model using the output from a different machine learning model and therefore would significantly increase the possible error rate. It is extremely important to have a very low error rate (if any!) in your training set, and therefore human-validated or assured labels are essential.

googleで日本語翻訳

6)A、C - サービスをトレーニングし、将来のデータから正確な結果を得るには、正確なデータが必要です。
BとDで説明されたオプションは、異なる機械学習モデルからの出力を使用してMLモデルを訓練することになり、したがって、起こりうるエラー率を大幅に増加させる。 トレーニングセットにエラー率(ある場合)が非常に低いことが非常に重要であるため、人間が検証した、または保証されたラベルが不可欠です。

bingで日本語翻訳

6) a、c-あなたは、サービスを訓練し、将来のデータから正確な結果を得るために正確にデータが必要です。
b と d で説明したオプションは、別のマシン学習モデルからの出力を使用して ml モデルをトレーニングすることになり、したがって、可能なエラーレートを大幅に増加します。トレーニングセットに非常に低いエラー率 (もしあれば!) を持つことは非常に重要であり、したがって、人間の検証または保証されたラベルが不可欠です。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題5
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

5) A web application emits multiple types of events to Amazon Kinesis Streams for operational reporting. Critical events must be captured immediately before processing can continue, but informational events do not need to delay processing.

What is the most appropriate solution to record these different types of events?

    A) Log all events using the Kinesis Producer Library.
    B) Log critical events using the Kinesis Producer Library, and log informational events using the PutRecords API method.
    C) Log critical events using the PutRecords API method, and log informational events using the Kinesis Producer Library.
    D) Log all events using the PutRecords API method.

googleで日本語翻訳

5)Webアプリケーションは、Amazon Kinesis Streamsへの複数のタイプのイベントを操作レポートとして出力します。 クリティカルなイベントは、処理を続行する直前にキャプチャする必要がありますが、情報イベントは処理を遅らせる必要はありません。

これらの異なる種類のイベントを記録する最も適切なソリューションは何ですか?

     A)Kinesis Producer Libraryを使用してすべてのイベントを記録します。
     B)Kinesis Producer Libraryを使用して重要なイベントを記録し、PutRecords APIメソッドを使用して情報イベントを記録します。
     C)PutRecords APIメソッドを使用してクリティカルイベントをログに記録し、Kinesis Producerライブラリを使用して情報イベントをログに記録します。
     D)PutRecords APIメソッドを使用してすべてのイベントを記録します。

bingで日本語翻訳

5) web アプリケーションは、オペレーションレポートのために amazon キネシスストリームに複数のタイプのイベントを出力します。クリティカルイベントは処理を続行する前にすぐにキャプチャする必要がありますが、情報イベントは処理を遅らせる必要はありません。

これらのさまざまな種類のイベントを記録するのに最も適したソリューションは何ですか。

a) キネシスプロデューサライブラリを使用してすべてのイベントをログに記録します。
b) キネシスプロデューサライブラリを使用して重要なイベントをログに記録し、PutRecords api メソッドを使用して情報イベントをログに記録します。
c) PutRecords api メソッドを使用して重要なイベントをログに記録し、キネシスプロデューサライブラリを使用して情報イベントをログに記録します。
d) PutRecords api メソッドを使用してすべてのイベントをログに記録します。

解答

原文

5) C – The core of this question is how to send event messages to Kinesis synchronously vs. asynchronously. The critical events must be sent synchronously, and the informational events can be sent asynchronously. The Kinesis Producer Library (KPL) implements an asynchronous send function, so it can be used for the informational messages. PutRecords is a synchronous send function, so it must be used for the critical events.

googleで日本語翻訳

5)C - この問題の核心は、キネシスにイベントメッセージを非同期に同期して送信する方法です。 クリティカルなイベントは同期して送信する必要があり、情報イベントは非同期で送信できます。 Kinesis Producer Library(KPL)は、非同期送信機能を実装しているため、情報メッセージに使用できます。 PutRecordsは同期送信関数なので、重大なイベントに使用する必要があります。

bingで日本語翻訳

5) c-この質問の核心は、キネシスに同期的に対非同期的にイベントメッセージを送信する方法です。重要なイベントは同期的に送信する必要があり、情報イベントは非同期的に送信できます。キネシスプロデューサライブラリ (kpl) は、非同期送信関数を実装するため、情報メッセージに使用できます。PutRecords は同期送信関数なので、重要なイベントに使用する必要があります。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題4
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

4) An organization needs a data store to handle the following data types and access patterns:
    ・ Key-value access pattern
    ・ Complex SQL queries and transactions
    ・ Consistent reads
    ・ Fixed schema

Which data store should the organization choose?

    A) Amazon S3
    B) Amazon Kinesis
    C) Amazon DynamoDB
    D) Amazon RDS

googleで日本語翻訳

4)組織では、次のデータ型とアクセスパターンを処理するデータストアが必要です。
     ・キー値アクセスパターン
     ・複雑なSQLクエリとトランザクション
     ・一貫した読み込み
     ・固定スキーマ

組織が選択すべきデータストアはどれですか?

     A)Amazon S3
     B)Amazon Kinesis
     C)Amazon DynamoDB
     D)Amazon RDS

bingで日本語翻訳

4) 組織は、次のデータ型とアクセスパターンを処理するデータストアを必要とします。
・キーバリューアクセスパターン
・複雑な sql クエリとトランザクション
・一貫した読み取り
・スキーマの固定

組織で選択するデータストア

a) アマゾン s3
b) アマゾンキネシス
c) アマゾン dynamodb
d) アマゾン rds

解答

原文

4) D - Amazon RDS handles all these requirements, and although Amazon RDS is not typically thought of as optimized for key-value based access, a schema with a good primary key selection can provide this functionality. Amazon S3 provides no fixed schema and does not have consistent read after PUT support. Amazon Kinesis supports streaming data that is consistent as of a given sequence number but doesn't provide key/value access. Finally, although Amazon DynamoDB provides key/value access and consistent reads, it does not support SQL-based queries.

googleで日本語翻訳

4)D - Amazon RDSはこれらのすべての要件を処理しますが、Amazon RDSは通常、キー値ベースのアクセスに最適化されているとは考えられませんが、優れた主キー選択を持つスキーマがこの機能を提供します。 Amazon S3は固定スキーマを提供しておらず、PUTサポート後も一貫した読み込みができません。 Amazon Kinesisは、指定されたシーケンス番号で一貫したストリーミングデータをサポートしますが、キー/値アクセスは提供しません。 最後に、Amazon DynamoDBはキーと値のアクセスと一貫性のある読み取りを提供しますが、SQLベースのクエリはサポートしていません。

bingで日本語翻訳

4) d-アマゾン rds は、すべてのこれらの要件を処理し、amazon rds は、通常、キー値ベースのアクセスに最適化されたと考えられていませんが、良い主キーの選択を持つスキーマは、この機能を提供することができます。amazon s3 は、固定スキーマを提供せず、put サポート後に一貫性のある読み取りを行いません。amazon キネシスは、特定のシーケンス番号のように一貫性のあるストリーミングデータをサポートしますが、キーと値のアクセスは提供しません。最後に、amazon dynamodb はキーと値のアクセスと一貫性のある読み取りを提供しますが、sql ベースのクエリはサポートしていません。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題3
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

3) A customer needs to load a 550-GB data file into an Amazon Redshift cluster from Amazon S3, using the COPY command. The input file has both known and unknown issues that will probably cause the load process to fail. The customer needs the most efficient way to detect load errors without performing any cleanup if the load process fails.

Which technique should the customer use?

    A) Split the input file into 50-GB blocks and load them separately.
    B) Use COPY with NOLOAD parameter.
    C) Write a script to delete the data from the tables in case of errors.
    D) Compress the input file before running COPY.

googleで日本語翻訳

3)COPYコマンドを使用してAmazon S3のAmazon Redshiftクラスタに550 GBのデータファイルをロードする必要があります。 入力ファイルには、既知の問題と未知の問題があり、おそらくロードプロセスが失敗する可能性があります。 ロード・プロセスが失敗した場合にクリーンアップを実行せずに、ロード・エラーを検出する最も効率的な方法が必要です。

顧客はどの技術を使用すべきですか?

     A)入力ファイルを50 GBブロックに分割し、別々にロードします。
     B)NOLOADパラメーターでCOPYを使用します。
     C)エラーが発生した場合、テーブルからデータを削除するスクリプトを作成します。
     D)COPYを実行する前に入力ファイルを圧縮します。

bingで日本語翻訳

3) お客様は、copy コマンドを使用して、amazon の s3 から amazon redshift クラスタに 550 gb のデータファイルをロードする必要があります。入力ファイルには既知の問題と不明なエラーの両方があり、おそらくロードプロセスが失敗する原因となります。お客様は、ロード・プロセスが失敗した場合にクリーンアップを実行せずに、ロード・エラーを検出する最も効率的な方法を必要とします。

お客様が使用するテクニック

a) 入力ファイルを 50 gb ブロックに分割し、別々にロードします。
b) noload パラメータでコピーを使用します。
c) エラーが発生した場合にテーブルからデータを削除するスクリプトを記述します。
d) コピーを実行する前に、入力ファイルを圧縮します。

解答

原文

3) B - From the AWS Documentation for NOLOAD: NOLOAD checks the integrity of all of the data without loading it into the database. The NOLOAD option displays any errors that would occur if you had attempted to load the data. All other options will require subsequent processing on the cluster which will consume resources.

googleで日本語翻訳

3)B - AWSのNOLOADドキュメント:NOLOADは、すべてのデータの整合性をデータベースにロードせずにチェックします。 NOLOADオプションは、データのロードを試みた場合に発生するエラーを表示します。 他のすべてのオプションは、リソースを消費するクラスタでの後続の処理を必要とします。

bingで日本語翻訳

3) b-noload の aws ドキュメントから: noload は、データベースに読み込まずにすべてのデータの整合性をチェックします。noload オプションは、データを読み込もうとした場合に発生するエラーを表示します。その他のオプションでは、リソースを消費するクラスタでの後続の処理が必要になります。
AWS
AWS認定ビッグデータスペシャリティサンプル試験問題2
AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

2) An administrator has a 500-GB file in Amazon S3. The administrator runs a nightly COPY command into a 10-node Amazon Redshift cluster. The administrator wants to prepare the data to optimize performance of the COPY command.

How should the administrator prepare the data?

    A) Compress the file using gz compression.
    B) Split the file into 500 smaller files.
    C) Convert the file format to AVRO.
    D) Split the file into 10 files of equal size.

googleで日本語翻訳

2)管理者はAmazon S3に500 GBのファイルを持っています。 管理者は、夜間のCOPYコマンドを10ノードのAmazon Redshiftクラスタに実行します。 管理者は、COPYコマンドのパフォーマンスを最適化するためにデータを準備する必要があります。

管理者はどのようにデータを準備する必要がありますか?

     A)gz圧縮を使用してファイルを圧縮します。
     B)ファイルを500個の小さなファイルに分割します。
     C)ファイル形式をAVROに変換します。
     D)ファイルを同じサイズの10個のファイルに分割します。

bingで日本語翻訳

2) 管理者は、amazon s3 で 500 gb のファイルを持っています。管理者は、10ノードの amazon redshift クラスターに夜間のコピーコマンドを実行します。管理者は、copy コマンドのパフォーマンスを最適化するためにデータを準備したいと考えています。

管理者がデータを準備する方法

a) gz 圧縮を使用してファイルを圧縮します。
b) ファイルを500の小さいファイルに分割します。
c) ファイル形式をアブロに変換します。
d) 等しいサイズの10ファイルにファイルを分割します。

解答

原文

2) B - The critical aspect of this question is running the COPY command with the maximum amount of parallelism. 
The two options that will increase parallelism are B and D. 
Option D will load one file per node in parallel, which will increase performance, but option B will have a greater effect because it will allow Amazon Redshift to load multiple files per instance in parallel (COPY can process one file per slice on each node). 
Compressing the files (option A) is a recommended practice and will also increase performance, but not to the same extent as loading multiple files in parallel.

http://docs.aws.amazon.com/redshift/latest/dg/c_high_level_system_architecture.html

googleで日本語翻訳

2)B - この質問の重要な側面は、最大並列処理量でCOPYコマンドを実行することです。
並列性を高める2つのオプションは、BとDです。
オプションDはノードごとに1つのファイルを並列にロードしますが、パフォーマンスは向上しますが、インスタンスごとに複数のファイルを並列にロードできるため、オプションBがより効果的です(各ノードで1つのファイルを処理できます) 。
ファイルを圧縮する(オプションA)ことは推奨される方法であり、複数のファイルを並行してロードするのと同じ程度ではなく、パフォーマンスを向上させます。

bingで日本語翻訳

2)B - この質問の重要な側面は、最大並列処理量でCOPYコマンドを実行することです。
並列性を高める2つのオプションは、BとDです。
オプションDはノードごとに1つのファイルを並列にロードしますが、パフォーマンスは向上しますが、インスタンスごとに複数のファイルを並列にロードできるため、オプションBがより効果的です(各ノードで1つのファイルを処理できます) 。
ファイルを圧縮する(オプションA)ことは推奨される方法であり、複数のファイルを並行してロードするのと同じ程度ではなく、パフォーマンスを向上させます。