nosql--简介
NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
(一)NoSQL数据库的四大分类
(1)键值(Key-Value)存储数据库
这一类数据库主要会使用到一个
哈希表
,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果
DBA
只对部分值进行查询或更新的时候,Key/value就显得效率低下了。
举例如:Tokyo Cabinet/Tyrant,Redis,Voldemort,Oracle BDB.
典型应用场景:内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。
数据模型:Key 指向 Value 的键值对,通常用hash table来实现
优缺点:查找速度快;数据无结构化,通常只被当作字符串或者二进制数据
(2)列存储数据库。
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra,HBase,Riak.
典型应用场景:分布式的文件系统
数据模型:以列簇式存储,将同一列数据存在一起
优缺点:查找速度快,可扩展性强,更容易进行分布式扩展;功能相对局限
(3)文档型数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB,MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)
数据模型:Key-Value对应的键值对,Value为结构化数据
优缺点:数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构;查询性能不高,而且缺乏统一的查询语法。
(4)图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J,InfoGrid,Infinite Graph.
社交网络,推荐系统等。专注于构建关系图谱
图结构
优缺点:
利用图结构相关算法。比如最短路径寻址,N度关系查找等;很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。
1.易扩展: a.NoSql数据库种类繁多,但是有一个共同的特点都是去掉关系数据库的关系型提醒。b.数据之间无关系,这样就非常容易扩展,也无形之间,在架构的层面上带来了可扩展的能力。 2.大数据量高性能: a.NoSql数据库都具有非常高的读写性能,尤其在大数据下,同样表现优秀。b.这得益于它的无关系行,的数据库结构简单。c.一般MySQL使用Query Cache(查询缓存),每次表的更新Cache就失效,是一种大粒度的Cache在针对web2.0的交互频繁的应用,Cache性能不高,而NoSQL的Cache是记录级的是一种细粒度的Cache,所以NoSQL在这个层面上来说就要性能高很多了。 3.多样灵活的数据模型: a.NoSql无需事先为要存储的数据建立字段,随时可以存储自定义的数据格式。 4.传统RDBMS VS NoSql: a.RDBMS(传统的关系型数据库): --高度组织化结构化数据--结构化查询语言(SQL)--数据和关系都存储在单独的表中--数据操纵语言,数据定义语言--严格的一致性--基础事务ACID: 1.A(Atomicity)原子性2.C (Consistency)一致性3.I (Isonlation)隔离性4.D (Durability)持久性 b.NoSQl(非关系型数据库): --代表着不仅仅是SQL--没有声明性查询语言--没有预定义的模式--键-值对存储,列查询,文档存储,图形数据库--最终一致性,而非ACID属性--CAP定理: 1.一致性,数据一致更新,所有数据变动都是同步的2.可用性,好的响应性能3.分区容错性,可靠性 --高性能,高可用和高可伸缩性 在分布式数据库中的CAP原理: 1.传统的ACID分别是: (1).A(Atomicity)原子性: 2.CAP分别是:
3.CAP的核心理论: (1).一个分布式系统不可能同时很好的满足一致性、可用性和分区容错性这三个需求,最多只能同时较好的满足两个。因此根据CAP原理将NoSQL数据库分成满足CA原则、满足CP原则和满足AP原则三大类: a.CA -单点集群,满足一致性、可用性的系统,通常在可扩展性上不太强大。b.CP -满足一致性、分区容错性的系统,通常性能不是特别高。4.CAP的3进2的概念: (1).CAP理论就是说在分布式存储系统中,最多只能实现上面的两点。而由于当前的网络硬件肯定会出现延迟丢包等问题,所以分区容错性是必须需要实现的。所以3进2只能在一致性和可用性之间进行权衡,有NoSQL系统能同时保证这三点。 a.CA 强一致性、高可用性就是传统的Oracle、MySQL之类的关系型数据库。b.AP 高可用性、分区容错性是大多数网站架构的选择(什么天猫、京东)。c.CP 强一致性、分区容错性就是Redis、MongoDB数据库。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |