AWS - 弹性 MapReduce(EMR)

  • 简述

    Amazon Elastic MapReduce (EMR)是一种 Web 服务,它提供了一个托管框架,以一种简单、经济高效和安全的方式运行数据处理框架,例如 Apache HadoopApache Spark 和 Presto。
    它用于数据分析、网络索引、数据仓库、财务分析、科学模拟等。
  • 如何设置亚马逊 EMR?

    按照以下步骤设置 Amazon EMR -
    步骤 1− 登录 AWS 账户并在管理控制台上选择 Amazon EMR。
    步骤 2− 为集群日志和输出数据创建 Amazon S3 存储桶。(过程在 Amazon S3 部分中有详细说明)
    步骤 3− 启动 Amazon EMR 集群。
    以下是创建集群并将其启动到 EMR 的步骤。
    集群配置
    • 将标签部分选项保留为默认值并继续。
    • 在软件配置部分,将选项设置为默认值。
    火花
    • 在文件系统配置部分,将 EMRFS 的选项保留为默认设置。EMRFS 是 HDFS 的一种实现,它允许 Amazon EMR 集群在 Amazon S3 上存储数据。
    服务器端加密
    • 在硬件配置部分,在 EC2 实例类型字段中选择 m3.xlarge 并将其他设置保留为默认值。单击下一步按钮。
    硬件配置
    • 在安全和访问部分,对于 EC2 密钥对,从 EC2 密钥对字段的列表中选择该对,并将其他设置保留为默认值。
    • 在 Bootstrap Actions 部分,将字段保留为默认设置,然后单击 Add 按钮。引导操作是在每个集群节点上启动 Hadoop 之前在设置期间执行的脚本。
    • 在“步骤”部分,将设置保留为默认设置并继续。
    • 单击 Create Cluster 按钮,打开 Cluster Details 页面。这是我们应该将 Hive 脚本作为集群步骤运行并使用 Hue Web 界面查询数据的地方。
    步骤 4− 使用以下步骤运行 Hive 脚本。
    • 打开 Amazon EMR 控制台并选择所需的集群。
    • 移动到步骤部分并展开它。然后单击添加步骤按钮。
    • “添加步骤”对话框打开。填写必填字段,然后单击添加按钮。
    流媒体节目
    • 要查看 Hive 脚本的输出,请使用以下步骤 -
      • 打开 Amazon S3 控制台并选择用于输出数据的 S3 存储桶。
      • 选择输出文件夹。
      • 查询将结果写入单独的文件夹。选择os_requests.
      • 输出存储在一个文本文件中。这个文件可以下载。
  • Amazon EMR 的优势

    以下是 Amazon EMR 的好处 -
    • 易用− Amazon EMR 易于使用,即易于设置集群、Hadoop 配置、节点配置等。
    • 可靠− 从某种意义上说,它是可靠的,它重试失败的任务并自动替换性能不佳的实例。
    • 弹性− Amazon EMR 允许计算大量实例以处理任何规模的数据。它很容易增加或减少实例的数量。
    • 安全− 它自动配置 Amazon EC2 防火墙设置、控制对实例的网络访问、在 Amazon VPC 中启动集群等。
    • 灵活− 它允许完全控制集群和对每个实例的根访问。它还允许安装其他应用程序并根据需要自定义集群。
    • 廉价− 它的定价很容易估算。它对使用的每个实例按小时收费。