15-高性能NoSQL

关系型数据库的缺点

关系型数据库已经非常成熟,但是并不是完美的,仍然有以下缺点:

  • 关系型数据库存储的是行记录,无法存储数据结构。

  • 关系型数据库的Schema扩展非常不方便。

    关系型数据库的Schema是强约束,无法操作不存在的列。当要扩展列时,需要先执行DDL操作。

  • 关系型数据库在大数据场景下I/O较高。 如果对关系型数据库的表进行统计的时候,I/O会非常的高。即使只是统计几列的数据,它也会把行中所有列的数据加载到内存当中。

  • 关系型数据库的全文搜索功能比较弱。 关系型数据库的全文搜索只能用Like进行扫描,性能低。

针对这些问题,就诞生了NoSQL。在某些场景不NoSQL的性能会比关系型数据库的性能更好。但是这种性能提升是牺牲了ACID的某些特性。要注意的是NoSQL并不是银弹,它是关系型数据库的补充。NoSQL != No SQL,NoSQL = Not Only SQL。

常见的NoSQL方案分为以下几类:

  • K-V存储:解决关系型数据库无法存储数据结构的问题,如Redis。
  • 文档型数据库:解决关系型数据库强Schema的问题,如MongoDB。
  • 列式数据库:解决大数据场景下I/O较高的问题,如HBASE。
  • 全文搜索引擎:解决关系型数据库全文搜索功能弱的问题,如ES。

下面分别介绍:

K-V存储

K-V存储全称是key-value存储,其中key是数据标识,Value是数据。以Redis为代表,是开源的高性能K-V缓存和存储系统。其Value存储的数据可以是具体数据结构,包括String,Map,List,Set等等。 Redis的缺点在于不支持完整的ACID事务。Redis只保证了事物的隔离性和一致性,无法保证原子性和持久性。

文档型数据库

文档型数据库最大的特点就是No Schema,可以存储和读取任意数据。目前大部分文档型数据库数据存储都是使用JSON,因为JSON是自描述的,无须使用之前定义的字段。读取一个JSON中不存在的字段也不会报报错。

文档型数据库的优势在于:

  • 新增字段简单 业务增加字段不需要你像关系型数据库那样进行DDL操作,直接在数据上增加字段即可。
  • 历史数据不会出错 即使新增了字段,读取历史数据也不会报错,对于新增的字段也只会返回空。
  • 可以存储复杂的数据结构 因为使用JSON作为数据结构,所以可以描述很复杂的数据结构。

文档型数据库的缺点在于:

  • 不支持事务。
  • 不支持Join操作。

列式数据库

列式数据库是指按照列来存储数据,有别于关系型数据库按照行来存储数据。

关系型数据库使用行式存储的优点在于:

  • 业务同时读取多个列时效率高,因为这些列是按行存储在一起的,一次行操作可以把多个列的值读取到磁盘上面。
  • 能够一次性完成对一行数据多个列的写操作。保证了行数据的原子性和一致性。因为这些数据都是写在一起的。如果是采用列式存储的,因为一行的数据存储在不同的文件上,所以可能导致某些列更新成功,某些列更新失败,导致数据不一致。

但是,如果在海量数据的情况下,比如我们需要查询用户年龄这个字段,如果是行式存储的话,需要把用户的所有数据放到内存中,然后返回用户年龄这个字段的值。但是采用列式存储的话,只需要读取年龄这个字段的值即可。可以大大的减少I/O数量。

另一个方面,可以提供更高的压缩比。因为某列的数据类型都是一致的,能够提高更高的压缩比。普通的行式存储的压缩比在3:1到5:1左右。列式存储的压缩比在8:1和30:1左右。

全文搜索引擎

传统的关系型数据库一般采用索引的方式来提高访问速度,但是在全文搜索的业务场景下,索引也无能为力,主要在:

  • 全文搜索的条件可以任意的组合,如果都加上索引的话,索引的数量会非常的多。
  • 全文搜索的模糊匹配方式,索引无法满足,只能用like实现,需要全文扫描。

全文搜索的基本原理

全文搜索引擎的技术原理被称为“倒排索引”。也常被称为反向索引、置入档案或反向档案,是一种索引方法,其基本原理是建立单词到文档的索引。之所以称为“倒排”,是和“正排”索引相对的,“正排”索引的基本原理是建立文档到单词的索引。下面用一个例子来说明“倒排”和“正排”。

假设我们有一个文章列表,用户可以浏览文章和搜索文章。

正排索引示例:

文章ID 文章名称 文章内容
1 敏捷架构 文档包含:架构、设计、架构师等词
2 Java编程必知 Java、编辑、面向对象、架构、设计等词
3 面向对象 设计、模式、对象、类、Java等词

正排索引用于根据文档名称来查询文档内容,当用户点击文章名称“Java编程必知”时,查询文章内容展现给用户。

倒排索引示例:

单词 文档ID
架构 1,2
设计 1,2,3
Java 2,3

注意

示例只写了三个索引,实际上每一个单词就会有一个索引。

倒排索引适用于根据关键字查询文档内容。例如,用户想看“设计”相关的内容,需要把文档内容包含设计的所有内容返回给用户。

全文搜索的使用方式

全文搜索的索引对象是单词和文档,而关系型数据库的索引对象是键和行。为了让全文搜索引擎支持关系型数据的全文搜索,需要将关系型数据转换成文档。

目前常见的转换方式是将关系型数据按照对象的形式转换成JSON文档,然后将JSON文档输入全文搜索引擎进行索引。

全文搜索引擎能够基于JSON文档建立全文索引,然后快速进行全文搜索。以ES为例,其索引的基本原理是:

  • ES是分布式的文档存储方式。它能存储和检索复杂的数据结构--序列化成JSON文档--以实时的方式。
  • 在ES里面,每个字段的所有数据是默认被索引的。即每个字段都有为了快速检索设置的专用倒排索引。而且,它能在相同的查询中使用所有倒排索引,并以惊人的速度返回结果。
上次更新: 3 个月前