Amazon WebServices(AWS)为收集实时数据和分析工具提供了广泛的数据存储(结构化,非结构化)服务。

我们可以在AWS环境中共同使用这些工具并处理数据,分析它并从中获得洞察力。

在本文中,我们将讨论如何将AWS中存储的数据传输到分析工具并生成报告以了解它的见解。我们在此过程中使用AWS服务:

简单的存储服务 (S3): 这是AWS提供的基于对象的存储服务。它专为内容,媒体,软件存储而设计&分发,数据存档,备份& Recovery, Big Data, 数据分析,静态网站托管,混合云存储和灾难恢复。 Amazon S3有一个简单的Web服务界面,您可以随时从Web上的任何位置存储和检索任何数量的数据。

雅典娜: 雅典娜是一个互动 数据分析 数据分析的工具 亚马逊S3 使用标准SQL查询。它是一个较少的服务器服务,因此在设置环境和维护基础架构方面没有复杂性。雅典娜将在S3中存储数据的元数据。一旦查询在雅典娜中运行,通过使用元数据,它将从S3获取数据。

Quicksight: Quicksight是一个基于云的 商业智慧 用于分析来自您自己的数据源或AWS数据源的数据来通过使用强大的内存引擎来提供洞察的服务。 QuickSight用于创建交互式仪表板,可以与他人共享。

首先,我们将使用S3存储桶将数据加载到AWS中。我们可以在S3桶中存储结构化和非结构化数据。

程序创建AWS S3存储桶:

A.登录 到你的AWS控制台。你会找到 服务 在屏幕上,单击它,您可以找到由AWS提供的不同服务。对我们来说,我们需要 贮存 下列服务 S3 存在.

B. 如果您已经有一个桶,请进一步跳过并继续移动或继续执行此步骤以创建一个 新桶 在S3通过点击 创建桶 option.

C。 创建存储桶有四个步骤:

  1. 选择唯一的桶名称
  2. 配置版本控制等选项
  3. 将桶访问权限设置为公共
  4. 审查

D. 创建桶后,创建一个 新建文件夹 并上传所有CSV文件

E. 选择要在athena中使用的文件,然后通过单击将其公开使用 行动,选择 公开 选项新页面弹出UPS并单击“开放”。您的文件现在将被公开使用,您可以使用此文件雅典娜。

需要雅典娜:

雅典娜用于将来自来自S3存储桶的非结构化数据的数据转换为结构化数据,然后将其转移到速度。雅典娜用于在S3中为平面文件创建架构并运行ad-hoc查询。

将数据从S3获取到雅典娜:

  1. 服务 在顶部并选择 雅典娜分析.

       2. Click on 创建表 选项。单击后,选择“下拉菜单”来自S3桶 数据” 选项。

       3.现在我们必须创建一个  数据库 桌子 存储从S3桶传输的数据。它的元数据存储在雅典娜。以下是创建数据库的步骤。

步骤1: 现在通过给它和表名来创建一个新数据库。 S3桶的路径您保留了文件 S3://桶名称/文件夹/ 是宣称并单击 下一个。

第2步: 接下来,您必须选择 数据 格式 其中数据文件已存储在S3中。雅典娜支持多种数据格式,如 Apache WebLogs., CSV, TSV., 与自定义分隔符的文本文件, 杰森, par, 兽人。在此,在这种情况下,我们使用CSV文件格式,然后单击 下一页.

第3步: 现在,您可以将列与数据类型一起添加,数据类型相当于CSV文件中的列,以在雅典娜中创建文件的模式。您可以通过使用“通过一个列添加一个”添加列“或者一次使用”使用“批量列”批量添加列“ option and click “下一个”.

第四步: 此步骤有助于您使用使用 添加分区 如果您需要在您的表格中并单击 创建表.

        4.雅典娜通过单击“通过单击”为创建表创建表 运行查询,表将在Athena数据库中成功创建表。 

现在,您可以使用Athena数据库开始查询S3数据。 

连接雅典娜和Quicksight的程序:

  使用以下步骤将在雅典娜转换为QuickSight的数据:

A.登录 到你的AWS控制台。你会找到 服务 在屏幕上,单击它,您可以找到由AWS提供的不同服务。对我们来说,我们需要 数据分析 下列服务 Quicksight. 存在.

B. 如果您是第一次用户,那么您必须与您的速度登录 帐户ID.

为了从athena或redshift等源访问数据,需要在Quicksight中设置访问权限。这可以通过以下步骤完成:

  1. 点击 帐户日志 去吧 管理Quicksight.
  2.  Click on to 安全& Permissions on your left panel. 

点击一下 添加或删除 选项。您会发现可以从Quicksight附加或删除的不同AWS服务。

 

C。 完成后,QuickSight主页将打开您看到不同选项的位置 新分析,所有分析。要启动新报告,请单击“ 新分析 在页面的左上角。

D. 现在,您可以在您面前创建一个新页面 新数据集。 如果您连接到Amazon S3,则数据集是数据库中的表或文件中的集合,这是数据源之一。数据集存储原始数据以及您执行的更改,例如重命名字段或更改其数据类型。

E. 单击数据集后,现在必须从已创建的现有数据源中选择数据源或连接到亚马逊提供不同选择的新数据源,例如

  • 使用本地文件或Excel文件 上传一个文件 option.
  • 销售队伍 - 必须提供凭据。
  • 亚马逊红移,雅典娜, 亚马逊RDS, 其他数据库需要为连接提供服务器,数据库主机名和有效凭据提供详细信息。

F。 一旦你选择了雅典娜,那么你必须定义 数据源名称 然后点击 创建数据源.

G。 选择要执行分析的数据源和表,然后将导入数据 香料 为了更快分析,或者您可以通过直接编写查询来获取数据。

一旦验证完成,那么连接已设置为Athena。在这里,我们有两种选择表格 

  1. 使用自定义SQL. or
  2. 选择一个表 from the list

编写自定义SQL查询 使用自定义SQL. 选项,您可以选择 编辑/预览数据 用于数据准备或选择 确认查询 验证SQL查询而不会错误。

H. Quicksight Visuals. 是通过使用不同的数据的图形表示 视觉类型 就像饼图,条形图,线条图表,地图等。我们也可以申请 过滤器 对于视觉数据的常规或计算的字段。 QuickSight过滤器还用于排除表示特定值的可视元素。 故事 当我们必须在单个报告中显示两个不同的过滤器的两个不同的图表时使用选项。我们可以使用仪表板访问仪表板 参数。   

这样,存储在S3中的非结构化数据被修改使用和雅典娜并传输到QuickSight以生成报告并从中获得见解。