redis内存模型和五种数据内存结构转换

redis内存模型和五种数据内存结构转换

Redis是⽤C语⾔开发的⼀个开源的⾼性能键值对(key-value)的NoSQL数据库。它通过提供多种键值 数据类型来适应不同场景下的存储需求,是一个单线程运用,IO多路复⽤(是啥)

Redis整体内存划分‍‍

Redis作为内存数据库,在内存中存储的内容主要是数据(键值对);但是还有其他部分占用内存,内存划分主要分为

数据内存

作为数据库,数据是最主要的部分;这部分占⽤的内存会统计在used_memory中。 Redis使⽤键值对存储数据,其中的值(对象)包括5种类型,即string、hash、list、set、zset。这5种类型是Redis对外提供的,实际上,在Redis内部,每种类型可能有2种或更多的内部编码实 现;此外,Redis在存储对象时,并不是直接将数据扔进内存,⽽是会对对象进⾏各种包装:如 redisObject、SDS等。

进程内存

Redis主进程本身运⾏肯定需要占⽤内存,如代码、常量池等等;这部分内存⼤约⼏兆,在⼤多数⽣产环境中与Redis数据占⽤的内存相⽐可以忽略。这部分内存不是由jemalloc分配,因此不会统计在 used_memory中。

除了主进程外,redis创建的子进程也会专用内存,比如redis进行AOF、RDB重写时创建的子进程。

缓冲内存

缓冲内存包括客户端缓冲区、复制积压缓冲区、AOF缓冲区等;其中,客户端缓冲存储客户端连接的输 ⼊输出缓冲;复制积压缓冲⽤于部分复制功能;AOF缓冲区⽤于在进⾏AOF重写时,保存最近的写⼊命 令。在了解相应功能之前,不需要知道这些缓冲的细节;这部分内存由jemalloc分配,因此会统计在 used_memory中。

内存碎片

内存碎⽚是Redis在分配、回收物理内存过程中产⽣的。例如,如果对数据的更改频繁,⽽且数据之间的 ⼤⼩相差很⼤,可能导致redis释放的空间在物理内存中并没有释放,但redis⼜⽆法有效利⽤,这就形成 了内存碎⽚。内存碎⽚不会统计在used_memory中。

内存碎⽚的产⽣与对数据进⾏的操作、数据的特点等都有关;此外,与使⽤的内存分配器也有关系:如 果内存分配器设计合理,可以尽可能的减少内存碎⽚的产⽣。后⾯将要说到的jemalloc便在控制内存碎 ⽚⽅⾯做的很好。

如果Redis服务器中的内存碎⽚已经很⼤,可以通过安全重启的⽅式减⼩内存碎⽚:因为重启之后, Redis重新从备份⽂件中读取数据,在内存中进⾏重排,为每个数据重新选择合适的内存单元,减⼩内存 碎⽚。

数据内存

Redis整体上是⼀个KV结构,但是它的Value⼜可以分⽂以下五种数据类型。

  • string 字符串
  • hash 散列
  • list 列表
  • set 集合
  • zset 有序集合

数据内存结构

redis内存模型和五种数据内存结构转换

  1. dictEntry:Redis是Key-Value数据库,因此对每个键值对都会有⼀个dictEntry,共24字节大小。⾥⾯存储了指向 Key和Value的指针;next指向下⼀个dictEntry,与本Key-Value⽆关。
  2. .Key:图中右上⻆可⻅,Key(”hello”)并不是直接以字符串存储,⽽是存储在SDS(是什么)结构中。
  3. redisObject:Value(“world”)既不是直接以字符串存储,也不是像Key⼀样直接存储在SDS中,⽽ 是存储在redisObject中。实际上,不论Value是5种类型的哪⼀种,都是通过redisObject来存储 的;⽽redisObject(结构是啥样的 )中的type字段指明了Value对象的类型,ptr字段则指向对象所在的地址。不过可 以看出,字符串对象虽然经过了redisObject的包装,但仍然需要通过SDS存储。

redisObject是啥

不管哪种类型的数据redis都转为redisObject对象存储,redis对象的类型,内部编码、对象回收、共享对象等功能都需要redisObject支持。其数据结构如下

redis内存模型和五种数据内存结构转换

其中type 4 bit,encoding 4 bit,lru2 4 bit,8bit一个字节,这三个占用内存4个字节,剩余两个ptr 8 个字节和 refcount 4 个字节。所以一个redisObject是16个字节。

type

type字段表示对象的类型,占4个⽐特;⽬前包括REDIS_STRING(字符串)、REDIS_LIST (列表)、 REDIS_HASH(哈希)、REDIS_SET(集合)、REDIS_ZSET(有序集合)

encoding

encoding表示对象的内部编码,占4个⽐特。 对于Redis⽀持的每种类型,都有⾄少两种内部编码,例如对于字符串,有int、embstr、raw三种编 码。通过encoding属性,Redis可以根据不同的使⽤场景来为对象设置不同的编码,⼤⼤提⾼了Redis的 灵活性和效率。以列表对象为例,有压缩列表和双端链表两种编码⽅式;如果列表中的元素较少,Redis 倾向于使⽤压缩列表进⾏存储,因为压缩列表占⽤内存更少,⽽且⽐双端链表可以更快载⼊;当列表对 象元素较多时,压缩列表就会转化为更适合存储⼤量元素的双端链表;

ptr

ptr指针指向具体的数据,如前⾯的例⼦中,set hello world,ptr指向包含字符串world的SDS

refcount

refcount记录的是该对象被引⽤的次数,类型为整型。refcount的作⽤,主要在于对象的引⽤计数和内 存回收。当创建新对象时,refcount初始化为1;当有新程序使⽤该对象时,refcount加1;当对象不再被 ⼀个新程序使⽤时,refcount减1;当refcount变为0时,对象占⽤的内存会被释放。

Redis中被多次使⽤的对象(refcount>1),称为共享对象。Redis为了节省内存,当有⼀些对象重复出现 时,新的程序不会创建新的对象,⽽是仍然使⽤原来的对象。这个被重复使⽤的对象,就是共享对象。⽬前共享对象仅⽀持整数值的字符串对象

Redis服务器在初始化时,会创建10000个字符串对象,值分别是0~9999的整数 值;当Redis需要使⽤值为0~9999的字符串对象时,可以直接使⽤这些共享对象。10000这个数字定义 在源码的 OBJ_SHARED_INTEGERS 常量中定义,这就是共享对象池,之所以有共享对象池,是因为创建⼤量的整数类型redisObject存在内存开销,每个redisObject内部结构⾄少占16字节,甚⾄超过了 整数⾃身空间消耗。

lru

ru记录的是对象最后⼀次被命令程序访问的时间,占据的⽐特数不同的版本有所不同(2.6版本占22⽐ 特,4.0版本占24⽐特)。

通过对⽐lru时间与当前时间,可以计算某个对象的闲置时间;object idletime命令可以显示该闲置时间 (单位是秒)。object idletime命令的⼀个特殊之处在于它不改变对象的lru值。

redis内存模型和五种数据内存结构转换

lru值除了通过object idletime命令打印之外,还与Redis的内存回收有关系:如果Redis打开了 maxmemory选项,且内存回收算法选择的是volatile-lru或allkeys—lru,那么当Redis内存占⽤超 过maxmemory指定的值时,Redis会优先选择空转时间最⻓的对象进⾏释放。

SDS

Redis没有直接使⽤C字符串(即以空字符’\0’结尾的字符数组)作为默认的字符串表示,⽽是使⽤了SDS。 SDS是简单动态字符串(Simple Dynamic String)的缩写。

redis内存模型和五种数据内存结构转换

Redis的对象类型与内存编码

Redis⽀持5种对象类型,⽽每种结构都有⾄少两种编码; 这样做的好处在于: ⼀⽅⾯接⼝与实现分离,当需要增加或改变内部编码时,⽤户使⽤不受影响; 另⼀⽅⾯可以根据不同的应⽤场景切换内部编码,提⾼效率。

Redis各种对象类型⽀持的内部编码如下图所示

redis内存模型和五种数据内存结构转换

string(SDS)

字符串是最基础的类型,因为所有的键都是字符串类型,且字符串之外的其他⼏种复杂类型的元素也是 字符串。 字符串⻓度不能超过512MB

字符串类型的内部编码有3种,它们的应⽤场景如下:

  • int:8个字节的⻓整型。字符串值是整型时,这个值使⽤long整型表示。
  • embstr:<=44字节的字符串。embstr与raw都使⽤redisObject和sds保存数据,区别在于, embstr的使⽤只分配⼀次内存空间(因此redisObject和sds是连续的),⽽raw需要分配两次内存 空间(分别为redisObject和sds分配空间)。因此与raw相⽐,embstr的好处在于创建时少分配⼀ 次空间,删除时少释放⼀次空间,以及对象的所有数据连在⼀起,寻找⽅便。⽽embstr的坏处也很 明显,如果字符串的⻓度增加需要重新分配内存时,整个redisObject和sds都需要重新分配空间, 因此redis中的embstr实现为只读。
  • raw:⼤于44个字节的字符串

list(ziplist、linkedlist、quicklist)

列表(list)⽤来存储多个有序的字符串,每个字符串称为元素; ⼀个列表可以存储2^32-1个元素。 Redis中的列表⽀持两端插⼊和弹出,并可以获得指定位置(或范围)的元素,可以充当数组、队列、栈 等。

Redis3.0之前列表的内部编码可以是压缩列表(ziplist)或双端链表(linkedlist)。选择的折中⽅案 是两种数据类型的转换,但是在3.2版本之后 因为转换也是个费时且复杂的操作,引⼊了⼀种新的数据格 式,结合了双向列表linkedlist和ziplist的特点,称之为quicklist。所有的节点都⽤quicklist存储,省去了 到临界条件是的格式转换

  • 压缩列表(ziplist)

redis内存模型和五种数据内存结构转换

压缩列表(ziplist)是Redis为了节省内存⽽开发的,是由⼀系列特殊编码的连续内存块组成的顺序型数 据结构,⼀个压缩列表可以包含任意多个节点(entry),每个节点可以保存⼀个字节数组或者⼀个整数 值,放到⼀个连续内存区,当⼀个列表只包含少量列表项时,并且每个列表 项是⼩整数值或短字符串,那么Redis会使⽤压缩列表来做该列表的底层实现

  • 双向链表(linkedlist)

redis内存模型和五种数据内存结构转换

  • 快速列表quicklist

就是 linkedlist和ziplist的结合。quicklist中的每个节点ziplist都能够存储多个数据元素。 Redis3.2开始,列表采⽤quicklist进⾏编码

redis内存模型和五种数据内存结构转换

hash(压缩列表和哈希表)

哈希(作为⼀种数据结构),不仅是Redis对外提供的5种对象类型的⼀种(与字符串、列表、集合、有 序结合并列),也是Redis作为Key-Value数据库所使⽤的数据结构。为了说明的⽅便,后⾯当使⽤“内层 的哈希”时,代表的是Redis对外提供的5种对象类型的⼀种;使⽤“外层的哈希”代指Redis作为Key-Value 数据库所使⽤的数据结构。

内层的哈希使⽤的内部编码可以是压缩列表(ziplist)和哈希表(hashtable)两种,当hash中元素数量⼩于512个并且hash中所有键值对的键和值字符串⻓度都⼩于64字节用ziplist;Redis的外层的哈希则只使⽤了hashtable。

hashtable:⼀个hashtable由1个dict结构、2个dictht结构、1个dictEntry指针数组(称为bucket)和多 个dictEntry结构组成。

redis内存模型和五种数据内存结构转换

其中ht属性和trehashidx属性则⽤于rehash,即当哈希表需要扩展或收缩时使⽤。ht是⼀个包含两个项的数 组,每项都指向⼀个dictht结构,这也是Redis的哈希会有1个dict、2个dictht结构的原因。通常情况下, 所有的数据都是存在放dict的ht[0]中,ht[1]只在rehash的时候使⽤。dict进⾏rehash操作的时候,将 ht[0]中的所有数据rehash到ht[1]中。然后将ht[1]赋值给ht[0],并清空ht[1]。

set(整数集合和哈希表)

集合(set)与列表类似,都是⽤来保存多个字符串,但集合与列表有两点不同:集合中的元素是⽆序 的,因此不能通过索引来操作元素;集合中的元素不能有重复。

⼀个集合中最多可以存储2^32-1个元素;除了⽀持常规的增删改查,Redis还⽀持多个集合取交 集、并集、差集。

只有当集合中元素数量⼩于512个并且所有元素都是整数值才会使⽤整数集合。如果有⼀个条件不满⾜,则使⽤哈希表;且编码只可能由整数集合转化为哈希表,反⽅向则不可能。

zset(压缩列表和跳跃表)

有序集合与集合⼀样,元素都不能重复;但与集合不同的是,有序集合中的元素是有顺序的。与列表使 ⽤索引下标作为排序依据不同,有序集合为每个元素设置⼀个分数(score)作为排序依据。

当有序集合中元素数量⼩于128字节并且所有成员⻓度都不⾜64字节才会使用压缩列表如果有⼀个条件不满⾜,则使⽤跳跃表;且编码只可能由压缩列表转化为跳跃表,反⽅向则不可能。

skiplist(跳跃表)

redis内存模型和五种数据内存结构转换

①、搜索:从最⾼层的链表节点开始,如果⽐当前节点要⼤和⽐当前层的下⼀个节点要⼩,那么则往下 找,也就是和当前层的下⼀层的节点的下⼀个节点进⾏⽐较,以此类推,⼀直找到最底层的最后⼀个节 点,如果找到则返回,反之则返回空。

②、插⼊:⾸先确定插⼊的层数,有⼀种⽅法是假设抛⼀枚硬币,如果是正⾯就累加,直到遇⻅反⾯为 ⽌,最后记录正⾯的次数作为插⼊的层数。当确定插⼊的层数k后,则需要将新元素插⼊到从底层到k 层。

③、删除:在各个层中找到包含指定值的节点,然后将节点从链表中删除即可,如果删除以后只剩下头 尾两个节点,则删除这⼀层

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/93906.html

(0)

相关推荐