mpp数据库有哪些 greenplum和hadoop对比

前段时间在网上看到一个大数据产业的全景图,几乎涵盖了大数据相关的所有技术。光数据库产品就有几十个,真的是眼花缭乱:)先说一些概念:结构化和非结构化数据,关系型和非关系型

本文最后更新时间:  2023-04-25 00:48:25

前段时间在网上看到一个大数据产业的全景图,几乎涵盖了大数据相关的所有技术。光数据库产品就有几十个,真的是眼花缭乱:)

先说一些概念:结构化和非结构化数据,关系型和非关系型数据库。

简单来说,二维表可以表示的就是结构化数据(比如一条记录有不同的字段);相反,不方便用二维逻辑表表示的数据,如文本、图片、视频、XML、HTML、图像、音频等,都是非结构化数据。此外,字段可以根据需要进行扩展,即字段数量不确定,可以称为半结构化数据。

关系数据库是由二维表及其关系组成的数据集。可以理解为,如果数据集(数据库)是关系型的,那么数据就必须是结构化的。相反,如果数据是结构化的,那么组成的数据集可能是关系型的。关系数据库最大的特点是事务的一致性。传统的关系数据库读写操作是事务性的,具有ACID的特点,比如典型的银行系统。但在互联网应用中,一致性就没那么重要了:比如张三看到的内容和李四看到的内容更新不一致是可以容忍的。换句话说,两个人看到同一个好友的数据更新的时间差是几秒钟,这是可以容忍的。所以关系数据库最大的特点,在互联网时代已经不那么重要了。

1.关系数据库

在数据库发展的早期,几乎所有的数据库都是以集中式关系数据库为主,如商业数据库ORACLE、SQL Server、IBM DB2、Sybase等。,尤其是ORACLE,几乎占据了大型数据库70%以上的市场份额。这也是为什么“去IOE”(IBM小型机、Oracle数据库、EMC存储)最难的原因。

逐渐发展起来的开源数据库有MySQL和PostgreSQL。据统计,截至2016年11月,MySQL已经超越Oracle数据库,在关系数据库中排名第一。互联网,如谷歌、FaceBook、阿里、腾讯、JD.COM等。、以及传统行业,如顺丰、童渊、上港集团、陆港集团、SAIC、上交所、宁波银行、恒丰银行、中国联通、中国移动、电信等。,都有MySQL的大规模应用。PostgreSQL在GIS领域主要处于主导地位,拥有丰富的GIS数据类型和处理算法。

2.非关系数据库(NoSQL):大部分都是开源的,可谓百花齐放,百家争鸣。常见产品有20多种。其中,大量的非关系型数据库是针对某些特定的应用需求而出现的,因此对于特定的应用具有非常高的性能。

非关系数据库主要分为以下几类:

(1)键值数据库:对于高性能并发读写,典型代表是Redis。

(2)柱状存储数据库:面向PB的分析应用,如HBase、Hypertable等。JD.COM、阿里、腾讯、唯品会、童渊、顺丰等都将HBase应用于大规模准实时数据分析、挖掘和计算,并提供历史档案数据存储和查询服务。

(3)文档数据库:特点是能够在海量数据中快速查询数据,如网页、移动应用数据等。典型的:MongoDB,CouchDB,Mark Logic

(4)图形数据库:比如用在推荐系统和关系图中,典型代表有new4j、InfiniteGraph和OrientDB。

3.新型关系数据库(NewSQL ):NewSQL提供了与NoSQL系统相同的扩展性能,并保持了传统数据库支持的ACID特性。典型:SAP HANA、VoltDB、nuoDB、MariaDB、Pivotal

4.MPP(海量并行处理)数据库:是指由多个SQL数据库节点构建的数据仓库系统。MPP解决了单个SQL数据库无法存储海量数据的问题。代表产品有Teradata、Vertica、Redshift、Greenplum。

温馨提示:内容均由网友自行发布提供,仅用于学习交流,如有版权问题,请联系我们。