参加GCP的大数据和机器学习培训“CPB100”
我叫伊藤,是一名基础设施工程师。
谷歌云平台(GCP)最近(在我看来)快速发展的云技术之一。
2016 年 12 月,我参加了一个名为 Google Cloud OnBoard 的 GCP 研讨会,
当时参与者似乎有 1000 多人。
参与Google Cloud OnBoard | Beyond Inc.
我认为正是东京地区的出现才使得它在日本如此普遍。
东京 Google Cloud 区域 | Google Cloud Platform
我想那是在2016年10月或11月左右。
这是一个很长的介绍,但正如标题所说,
我参加了GCP培训“CPB100”。
培训内容主要是大数据和机器学习。
Google云平台免费培训之旅 | Top Gate有限公司
关于大数据
虽然这次研讨会我们没有进行任何具体操作,但我们获得了各种概览信息。
说起Google的大数据服务,那肯定是“BigQuery”。
BigQuery - 分析数据仓库 | Google 云平台
当然OnBoard上也提到了这一点。
BigQuery 能够在 10 秒内替换 100 亿行正则表达式。
那么,BigQuery 内部是如何工作的呢?
数据被划分并存储在每个 HDD 上,当运行查询时,会检索数据并为每个 HDD 创建一个容器。
磁盘 I/O 成为运行查询时的瓶颈,因此我们将其划分为许多容器以实现高速分析。顺便说一下,BigQuery 不添加任何索引并执行完整扫描。
由于数据太大,索引似乎很难。
其他服务
GCP | AWS | 概述 |
---|---|---|
云数据流 | 亚马逊弹性地图减少 | 批处理等托管服务 |
云数据处理 | 亚马逊弹性地图减少 | Spark 和 Hadoop 的托管服务 |
云发布/订阅 | 亚马逊简单通知服务 | 简单的消息服务 |
有这个区域。
为了便于理解,我将其与 AWS 服务进行了比较。
这就是流程的样子吗?
- 通过使用 Compute Engine 处理对数据进行排序
- 数据存储在CloudStorage中
- 使用 Pub/Sub 接收 CloudStorage 数据并将其扔到适当的位置
- 使用 Dataflow 或 Dataproc 处理数据
- 还将处理后的数据保存到 CloudStorage
对于简单数据,可以使用ComputeEngine来完成该过程,但
它会成为单点故障。
我相信如何有效地使用托管服务将导致“云的有效使用”。
关于机器学习
当您使用 Google 时,机器学习就存在于日常生活中。
例如,GMail。此功能目前仅限于英语,但
它使用机器学习根据上下文建议回复。
此外,我们使用机器学习来调整 Google 数据中心的冷却功率,成功将其降低了 40%。
新闻 - Google 利用 DeepMind 的 AI 将数据中心冷却功率降低 40%:ITpro
各种API
谷歌提供了它迄今为止所培育的 API。
当然,谷歌翻译也使用了机器学习API(Traslation API)。
例如这个。
语音 API - 语音识别 | Google Cloud Platform
还是一样的,只不过把你说的话变成了句子。
Google Apps 和 YouTube 也有此功能。
有图像识别和字符识别,但这似乎是在
Google Cloud Next '17云视频智能 - 视频内容分析 | Google Cloud Platform
这是图像识别的视频版本。这是一个公开测试版,因此如果您想尝试一下,您需要立即注册。
自己做
使用现有的API,如果您通过图像识别API传递一个人的图像,您可以识别“人”和“男性”等内容,但
无法识别“人名”等内容。
这是因为 Google 已经提供的 API 不会学习个人姓名。
一个相当著名的例子是 Google 提供的一个名为 TensorFlow 的机器学习库,
它被用来分类“好黄瓜”和“大黄瓜”。
Google Cloud Platform Japan 官方博客:TensorFlow 连接黄瓜种植者和深度学习
粗略地说,需要以下流程。
我必须非常仔细地写。
- 准备训练数据、创建算法并创建“训练模型”
- 使用经过训练的模型
- 了解更多以提高准确性
然而,该算法实现起来相当困难。
这就是 TensorFlow 发挥作用的地方。
TensorFlow 是一个用于实现 DeepLeraning 的库。
正如我之前所说,它是“由 Google 开发的东西,以 GCP 服务的形式出现并开源”。
提供 C++ 和 Python API。
此外,机器学习在学习时需要非常大量的资源。
主要是GPU、CPU等。 (因为它可以进行图像识别等)
“云机器学习引擎”可用于此目的。
机器学习仅在学习时才需要资源,因此非常适合云。
GPU现已可用,并且大量GPU专用机器正在幕后推出。
预测分析 - 云机器学习引擎 | Google Cloud Platform
如果您对 TensorFlow 感兴趣,这里有一个 TensorFlow 用户组,所以
我认为参加那里的学习课程是个好主意。
东京 TensorFlow 用户组 - connpass
不过,20人左右的学习会竟然有200人参加,人气非常高……! !是。
概括
故事远不止这些,但只属于参与的人。 。
中午提供盒饭。很美味。
不要要求我拍更好的照片。
啊,GCP 经常被拿来与 AWS 进行比较,但是当我听完演讲后,下面的部分对我来说是有意义的。
AWS 提供“已经在 AWS 上以开源形式提供的产品(例如 Memcached、ElasticSearch 等),并以易于用户使用的状态提供给用户”,但
对于 GCP, “我们自己开发的产品”
并提供产品作为 GCP 服务提供给用户。”
例如,Google开发的MapReduce是从Dremel发展而来的,并已作为GCP的“BigQuery”发布,而MapReduce现在也可以像Hadoop一样开源。
GCP 基本上是与 AWS 相反的方法。