怎么用 Bitmap 来统计20亿用户中有多少用户在线?

假如我们在判断用户是否登陆的场景中使用 Redis 的 String 类型实现(key -> userId,value -> 0 表示下线,1 – 登陆),假如存储 100 万个用户的登陆状态,如果以字符串的形式存储,就需要存储 100 万个字符串了,内存开销太大。

❝为什么 String 类型内存开销大?

String 类型除了记录实际数据以外,还需要额外的内存记录数据长度、空间使用等信息。

当保存的数据包含字符串,String 类型就使用简单动态字符串(SDS)结构体来保存,如下图所示:

SDS

  • len :占 4 个字节,表示 buf 的已用长度。
  • alloc :占 4 个字节,表示 buf 实际分配的长度,通常 > len。
  • buf :字节数组,保存实际的数据,Redis 自动在数组最后加上一个 “”,额外占用一个字节的开销。

所以,在 SDS 中除了 buf 保存实际的数据, len 与 alloc 就是额外的开销。

另外,还有一个RedisObject 结构的开销,因为 Redis 的数据类型有很多,而且,不同数据类型都有些相同的元数据要记录(比如最后一次访问的时间、被引用的次数等)。

所以,Redis 会用一个 RedisObject 结构体来统一记录这些元数据,同时指向实际数据。

对于二值状态场景,我们就可以利用 Bitmap 来实现。比如登陆状态我们用一个 bit 位表示,一亿个用户也只占用 一亿 个 bit 位内存 ≈ (100000000 / 8/ 1024/1024)12 MB。

大概的空间占用计算公式是:($offset/8/1024/1024) MB

❝什么是 Bitmap 呢?

Bitmap 的底层数据结构用的是 String 类型的 SDS 数据结构来保存位数组,Redis 把每个字节数组的 8 个 bit 位利用起来,每个 bit 位 表示一个元素的二值状态(不是 0 就是 1)。

可以将 Bitmap 看成是一个 bit 为单位的数组,数组的每个单元只能存储 0 或者 1,数组的下标在 Bitmap 中叫做 offset 偏移量。

为了直观展示,我们可以理解成 buf 数组的每个字节用一行表示,每一行有 8 个 bit 位,8 个格子分别表示这个字节中的 8 个 bit 位,如下图所示:

Bitmap

8 个 bit 组成一个 Byte,所以 Bitmap 会极大地节省存储空间。

这就是 Bitmap 的优势。

判断用户登录态

❝怎么用 Bitmap 来判断海量用户中某个用户是否在线呢?

Bitmap 提供了GETBIT、SETBIT操作,通过一个偏移值 offset 对 bit 数组的 offset 位置的 bit 位进行读写操作,需要注意的是 offset 从 0 开始。

只需要一个 key = login_status 表示存储用户登陆状态集合数据, 将用户 ID 作为 offset,在线就设置为 1,下线设置 0。通过 GETBIT 判断对应的用户是否在线。5000 万 用户只需要 6 MB 的空间。

SETBIT 命令

SETBIT <key> <offset> <value>

设置或者清空 key 的 value 在 offset 处的 bit 值(只能是 0 或者 1)。

GETBIT 命令

GETBIT <key> <offset>

获取 key 的 value 在 offset 处的 bit 位的值,当 key 不存在时,返回 0。

假如我们要判断 ID = 10086 的用户的登录情况:

第一步,执行以下指令,表示用户已登录。

SETBIT login_status 10086 1

第二步,检查该用户是否登录,返回值 1 表示已登录。

GETBIT login_status 10086

第三步,登出,将 offset 对应的 value 设置成 0。

SETBIT login_status 10086 0

要统计当前登录的用户总数,可以使用BITCOUNT命令:

BITCOUNT login_status

示例

# 设置多个用户的登录状态   
SETBIT login_status 10086 1   # 用户10086登录   
SETBIT login_status 10087 1   # 用户10087登录   
SETBIT login_status 10088 0   # 用户10088未登录   
SETBIT login_status 10089 1   # 用户10089登录   
# 统计在线用户数   
BITCOUNT login_status   
# 返回值: 3 (表示有3个用户在线)
# 统计指定字节范围内的在线用户数   
# start和end表示字节索引,而不是用户ID   
BITCOUNT login_status 0 1  # 统计前16个用户的在线情况(2个字节)
9