AWS

AWS認定ビッグデータスペシャリティサンプル試験問題6

AWSAWS認定ビッグデータスペシャリティAWS認定資格

質問

原文

6) An administrator decides to use the Amazon Machine Learning service to classify social media posts that mention your company into two categories: posts that require a response and posts that do not. The training dataset of 10,000 posts contains the details of each post, including the timestamp, author, and full text of the post. You are missing the target labels that are required for training.

Which two options will create valid target label data?

    A) Ask the social media handling team to review each post and provide the label.
    B) Use the sentiment analysis NLP library to determine whether a post requires a response.
    C) Use the Amazon Mechanical Turk web service to publish Human Intelligence Tasks that ask Turk workers to label the posts.
    D) Using the a priori probability distribution of the two classes, use Monte-Carlo simulation to generate the labels.

googleで日本語翻訳

6)管理者はAmazon Machine Learningサービスを使用して、あなたの会社に言及しているソーシャルメディアの投稿を、レスポンスが必要な投稿とそうでない投稿の2つのカテゴリに分類します。 1万の投稿のトレーニングデータセットには、タイムスタンプ、作成者、投稿の全文を含む各投稿の詳細が含まれています。 トレーニングに必要なターゲットラベルがありません。

有効なターゲットラベルデータを作成する2つのオプションはどれですか?

     A)ソーシャルメディア担当チームに各投稿を確認し、ラベルを提出するよう依頼します。
     B)感情分析NLPライブラリを使用して、投稿が応答を必要とするかどうかを判断する。
     C)Amazon Mechanical Mechanical Webサービスを使用して、人工知能タスクを公開して、トルコ人労働者に投稿にラベル付けを依頼する。
     D)2つのクラスの先験的確率分布を用いて、モンテカルロシミュレーションを用いてラベルを生成する。

bingで日本語翻訳

6) 管理者は、2つのカテゴリにあなたの会社に言及ソーシャルメディアの記事を分類するためにアマゾンマシン学習サービスを使用することを決定: 応答としない投稿を必要とする投稿。10000投稿のトレーニングデータセットには、ポストのタイムスタンプ、作成者、全文など、各投稿の詳細が含まれています。トレーニングに必要なターゲットラベルがありません。

どの2つのオプションが有効なターゲットラベルデータを作成しますか?

) は、各ポストを確認し、ラベルを提供するために、ソーシャルメディアの処理チームに依頼してください。
b) 投稿が応答を必要とするかどうかを判断するために、センチメント分析 nlp ライブラリを使用します。
c) トルコの労働者にポストにラベルを付けるように頼む人間の知性の仕事を出版するのにアマゾン機械トルコのウェブサービスを使用しなさい。
d) 2 つのクラスの事前確率分布を使用して、モンテカルロシミュレーションを使用してラベルを生成します。

解答

原文

6) A, C - You need accurate data to train the service and get accurate results from future data. 
The options described in B and D would end up training an ML model using the output from a different machine learning model and therefore would significantly increase the possible error rate. It is extremely important to have a very low error rate (if any!) in your training set, and therefore human-validated or assured labels are essential.

googleで日本語翻訳

6)A、C - サービスをトレーニングし、将来のデータから正確な結果を得るには、正確なデータが必要です。
BとDで説明されたオプションは、異なる機械学習モデルからの出力を使用してMLモデルを訓練することになり、したがって、起こりうるエラー率を大幅に増加させる。 トレーニングセットにエラー率(ある場合)が非常に低いことが非常に重要であるため、人間が検証した、または保証されたラベルが不可欠です。

bingで日本語翻訳

6) a、c-あなたは、サービスを訓練し、将来のデータから正確な結果を得るために正確にデータが必要です。
b と d で説明したオプションは、別のマシン学習モデルからの出力を使用して ml モデルをトレーニングすることになり、したがって、可能なエラーレートを大幅に増加します。トレーニングセットに非常に低いエラー率 (もしあれば!) を持つことは非常に重要であり、したがって、人間の検証または保証されたラベルが不可欠です。