什么是 Google 的超高速数据仓库“BigQuery”?
我是技术销售部门的大原。
这次,我们将重点关注Google提供的完全管理的数据仓库“ BigQuery”。
BigQuery 到底是什么?
BigQuery是Google提供的一项大数据分析服务,并于2012年在Google I/O(Google主办的开发者活动)上宣布成为官方服务。
最初,有一个名为 Dremel 的数据分析系统在 Google 内部使用,并且有不断改进并提供给外部用户的历史。
日本系统供应商还提供许多服务,包括大数据分析服务和软件,但是BigQuery在数据集上执行类似SQL的查询,这些查询范围从几个TB(TBYTES)或几个PB(PB)(PB)执行,在短短几秒钟或几个秒内执行处理,并返回搜索结果。
BigQuery 有多快
BigQuery 速度很快,因为它使用两种机制:
列结构数据存储
传统的 RDBS 按行存储数据,而面向记录(=面向行)将整个记录存储在同一存储中。
然而,采用列定向(columnorientation),通过将一条记录划分为列并将它们放置在单独的存储中,可以“最小化流量”并以“高压缩比”存储数据,从而可以在查询时实现高速数据引用。执行。
○传统rdbs中的“记录=以行为导向”
,“ column”
*信息来源: DREMEL:网络级数据集的交互式分析
树结构
BigQuery 具有树形分布式处理结构。
根服务器从客户端检索查询,然后让服务器通过执行查询处理,并行将上述列中排列的数据并行执行查询处理,并快速汇总在此处读取的结果以产生查询结果。
(看来,即使是PB级的大量数据(超过5-1亿行),一些信息也显示了仅几秒钟的结果。
○列结构数据文献
○树架构
*信息来源: DREMEL:网络级数据集的交互式分析
以上两个点是BigQuery快速的原因。
您感兴趣的价格是多少?
不过,即使使用 BigQuery,成本仍然是一个问题,所以我简单总结了一下。
● 存储容量 = 0.020 美元/GB/月
- BigQuery 中存储的数据容量
* 即使有 1 TB 数据,“20 美元 = 约 2,000 日元/月”
● 查询处理能力 = $5 / TB
・执行查询时扫描的数据量
*查询数据处理每月最多 1 TB 免费
● 流式插入= $0.01 / 200MB
・这是用于实时数据收集的API,根据插入表中的数据量付费。
概括
反正很便宜,为什么不尝试一下呢? (如果您有Google帐户,则可以立即开始)
▼有关BigQuery服务的更多信息,请单击此处▼
https://cloud.google.com/bigquery/?hl