[大阪/横滨/德岛] 寻找基础设施/服务器端工程师!

[大阪/横滨/德岛] 寻找基础设施/服务器端工程师!

【超过500家企业部署】AWS搭建、运维、监控服务

【超过500家企业部署】AWS搭建、运维、监控服务

【CentOS的后继者】AlmaLinux OS服务器搭建/迁移服务

【CentOS的后继者】AlmaLinux OS服务器搭建/迁移服务

[仅适用于 WordPress] 云服务器“Web Speed”

[仅适用于 WordPress] 云服务器“Web Speed”

[便宜]网站安全自动诊断“快速扫描仪”

[便宜]网站安全自动诊断“快速扫描仪”

[预约系统开发] EDISONE定制开发服务

[预约系统开发] EDISONE定制开发服务

[注册100个URL 0日元] 网站监控服务“Appmill”

[注册100个URL 0日元] 网站监控服务“Appmill”

【兼容200多个国家】全球eSIM“超越SIM”

【兼容200多个国家】全球eSIM“超越SIM”

[如果您在中国旅行、出差或驻扎]中国SIM服务“Choco SIM”

[如果您在中国旅行、出差或驻扎]中国SIM服务“Choco SIM”

【全球专属服务】Beyond北美及中国MSP

【全球专属服务】Beyond北美及中国MSP

[YouTube]超越官方频道“美由丸频道”

[YouTube]超越官方频道“美由丸频道”

参加GCP的大数据和机器学习培训“CPB100”

我叫伊藤,是一名基础设施工程师。


谷歌云平台(GCP)最近(在我看来)快速发展的云技术之一。

2016 年 12 月,我参加了一个名为 Google Cloud OnBoard 的 GCP 研讨会,
当时参与者似乎有 1000 多人。

参与Google Cloud OnBoard | Beyond Inc.

我认为正是东京地区的出现才使得它在日本如此普遍。
东京 Google Cloud 区域 | Google Cloud Platform

我想那是在2016年10月或11月左右。

这是一个很长的介绍,但正如标题所说,
我参加了GCP培训“CPB100”。
培训内容主要是大数据和机器学习。


Google云平台免费培训之旅 | Top Gate有限公司

关于大数据


虽然这次研讨会我们没有进行任何具体操作,但我们获得了各种概览信息。

说起Google的大数据服务,那肯定是“BigQuery”。
BigQuery - 分析数据仓库 | Google 云平台

当然OnBoard上也提到了这一点。

BigQuery 能够在 10 秒内替换 100 亿行正则表达式。
那么,BigQuery 内部是如何工作的呢?
数据被划分并存储在每个 HDD 上,当运行查询时,会检索数据并为每个 HDD 创建一个容器。
磁盘 I/O 成为运行查询时的瓶颈,因此我们将其划分为许多容器以实现高速分析。

顺便说一下,BigQuery 不添加任何索引并执行完整扫描。
由于数据太大,索引似乎很难。

参与Google Cloud OnBoard | Beyond Inc.

其他服务

GCP AWS 概述
云数据流 亚马逊弹性地图减少 批处理等托管服务
云数据处理 亚马逊弹性地图减少 Spark 和 Hadoop 的托管服务
云发布/订阅 亚马逊简单通知服务 简单的消息服务

有这个区域。
为了便于理解,我将其与 AWS 服务进行了比较。

这就是流程的样子吗?

  1. 通过使用 Compute Engine 处理对数据进行排序
  2. 数据存储在CloudStorage中
  3. 使用 Pub/Sub 接收 CloudStorage 数据并将其扔到适当的位置
  4. 使用 Dataflow 或 Dataproc 处理数据
  5. 还将处理后的数据保存到 CloudStorage

对于简单数据,可以使用ComputeEngine来完成该过程,但
它会成为单点故障。
我相信如何有效地使用托管服务将导致“云的有效使用”。

关于机器学习


当您使用 Google 时,机器学习就存在于日常生活中。

例如,GMail。此功能目前仅限于英语,但
它使用机器学习根据上下文建议回复。

计算机,回复此电子邮件:Gmail 收件箱中引入智能回复

此外,我们使用机器学习来调整 Google 数据中心的冷却功率,成功将其降低了 40%。
新闻 - Google 利用 DeepMind 的 AI 将数据中心冷却功率降低 40%:ITpro

各种API

谷歌提供了它迄今为止所培育的 API。
当然,谷歌翻译也使用了机器学习API(Traslation API)。

例如这个。
语音 API - 语音识别 | Google Cloud Platform

还是一样的,只不过把你说的话变成了句子。
Google Apps 和 YouTube 也有此功能。

有图像识别和字符识别,但这似乎是在
Google Cloud Next '17云视频智能 - 视频内容分析 | Google Cloud Platform

这是图像识别的视频版本。这是一个公开测试版,因此如果您想尝试一下,您需要立即注册。

自己做

使用现有的API,如果您通过图像识别API传递一个人的图像,您可以识别“人”和“男性”等内容,但
无法识别“人名”等内容。

这是因为 Google 已经提供的 API 不会学习个人姓名。

一个相当著名的例子是 Google 提供的一个名为 TensorFlow 的机器学习库,
它被用来分类“好黄瓜”和“大黄瓜”。
Google Cloud Platform Japan 官方博客:TensorFlow 连接黄瓜种植者和深度学习

粗略地说,需要以下流程。
我必须非常仔细地写。

  1. 准备训练数据、创建算法并创建“训练模型”
  2. 使用经过训练的模型
  3. 了解更多以提高准确性

然而,该算法实现起来相当困难。
这就是 TensorFlow 发挥作用的地方。

TensorFlow 是一个用于实现 DeepLeraning 的库。
正如我之前所说,它是“由 Google 开发的东西,以 GCP 服务的形式出现并开源”。

提供 C++ 和 Python API。

此外,机器学习在学习时需要非常大量的资源。
主要是GPU、CPU等。 (因为它可以进行图像识别等)
“云机器学习引擎”可用于此目的。
机器学习仅在学习时才需要资源,因此非常适合云。
GPU现已可用,并且大量GPU专用机器正在幕后推出。

预测分析 - 云机器学习引擎 | Google Cloud Platform

如果您对 TensorFlow 感兴趣,这里有一个 TensorFlow 用户组,所以
我认为参加那里的学习课程是个好主意。
东京 TensorFlow 用户组 - connpass

不过,20人左右的学习会竟然有200人参加,人气非常高……! !是。

概括

故事远不止这些,但只属于参与的人。 。

中午提供盒饭。很美味。
不要要求我拍更好的照片。

啊,GCP 经常被拿来与 AWS 进行比较,但是当我听完演讲后,下面的部分对我来说是有意义的。

AWS 提供“已经在 AWS 上以开源形式提供的产品(例如 Memcached、ElasticSearch 等),并以易于用户使用的状态提供给用户”,但
对于 GCP, “我们自己开发的产品”
提供产品作为 GCP 服务提供给用户。”

例如,Google开发的MapReduce是从Dremel发展而来的,并已作为GCP的“BigQuery”发布,而MapReduce现在也可以像Hadoop一样开源。

GCP 基本上是与 AWS 相反的方法。

如果您觉得这篇文章有帮助,请点赞!
0
加载中...
0 票,平均:0.00 / 10
435
X Facebook 哈特纳书签 口袋
[2025.6.30 Amazon Linux 2 支持结束] Amazon Linux 服务器迁移解决方案

[2025.6.30 Amazon Linux 2 支持结束] Amazon Linux 服务器迁移解决方案

[大阪/横滨] 积极招募基础设施工程师和服务器端工程师!

[大阪/横滨] 积极招募基础设施工程师和服务器端工程师!

写这篇文章的人

关于作者