redis+结巴分词做倒排索引

起源

之前爬取过一百万的歌曲，包括歌手名，歌词等，最近了解到倒排索引，像es，solr这种太大，配置要求太高，对于一百万的数据量有些小题大做，所以想到了redis做一个倒排索引。

我的配置

这里说一下我的配置，后面用的到：

cpu：i7 8750HQ （六核十二线程）
内存：8G ddr4
硬盘：ssd（.m2接口）

思路

简单来说就是把MySQL中的数据取出来，分词（包括去除停用词），将分词后得到的一个个词语存入redis。在redis当中，一个词语就是一个set，set里存放的是歌词中包含这个词语的歌的主键。

当我们生成这么一个倒排索引后，就可以实现“搜索一句话，很快得到有这些话的歌曲集合”。

因为一百万的数据还是挺大的，所以考虑多线程执行，按过程来说分为两部分：

1、从数据库中取出来，放到Redis的list结构里去，使用list的lpush和rpop达到一种消息队列的效果。

2、从Redis中rpop出一首歌，分词，然后将分词结果存入Redis，形成倒排索引。

下面就根据这两部分讲一下具体的实现。

实现

MySQL->Redis部分的实现

这一部分思路就是从MySQL中取出数据，使用FastJson进行序列化，存入key为“dbWorkersKey”的list里，这里使用的是lpush命令。

我们把上面的思路封装到一个Thread里，多线程的去搬运就很快了。

多线程下有以下几个问题和回答：

Q：我们使用的数据访问工具是Spring的JdbcTemplate，他是线程安全的吗

A：是线程安全的，Spring把session，connection这些非线程安全的使用ThreadLocal做了线程私有化，避免了这些问题。

Q：每个线程负责一块数据，数据划分怎么做

A：使用了一个AtomicInteger，多个线程同时持有一个该对象，每次都incrementAndGet，在SQL语句中结合limit使用，做到数据的划分。

Q：考虑到多线程，那肯定要用线程池了，线程池有什么需要注意的吗

A：有，因为一个任务的很大的两块时间——从MySQL获取数据和向Redis添加数据——都是网络IO，为了更好地利用处理器，我们可以把线程池大小设置为2*核心数，同时别忘记把数据库连接池的最大连接数设置为大于线程数，比如我用的dbcp2默认的maxTotal是8。

Q：如何搬运完毕后自动停止

A：这里因为我知道搬运条目的总数量为1106599，而且我每次获取1000条，所以当AtomicInteger >1107时，就是结束的时候了

worker代码如下：

static class DbWorker extends Thread {private JdbcTemplate jdbcTemplate;private RedisCacheManager redisCacheManager;private String name;private AtomicInteger atomicInteger;public DbWorker(JdbcTemplate jdbcTemplate, RedisCacheManager redisCacheManager, String name, AtomicInteger atomicInteger) {this.jdbcTemplate = jdbcTemplate;this.redisCacheManager = redisCacheManager;this.name = name;setName(name);this.atomicInteger = atomicInteger;}@Overridepublic void run() {super.run();long lastSongId = 0;while (true) {int index = atomicInteger.incrementAndGet();if (index > 1107) {System.out.println(TimeUtils.dateToString() + " dbWorkers-" + getName() + "-db中应该是没有数据了，结束线程运行...-get index = " + index + " ... lastSongId = " + lastSongId);return;}int start = (index - 1) * 1000;List<Song> result = jdbcTemplate.query("select id,lyric from song limit " + start + ",1000", new Object[] {},new BeanPropertyRowMapper<Song>(Song.class));for (Song temp :result) {redisCacheManager.lpush(REDIS_DB_WORKERS_KEY, JSON.toJSONString(temp));}lastSongId = result.get(result.size()-1).getId();System.out.println("dbWorkers-" + getName() + "-获得" + result.size() + "条数据后已经将这些数据运往redis保存了，继续下一次db获取... -get index = " + index + " ... lastSongId = " + lastSongId);}}}

消耗时间

当时设置的是16条线程，忘记修改最大连接数，导致最大连接数为8，而且打印的内容有点多，所以，1106599条数据，从MySQL搬运到Redis用了7min16s的时间。

Redis->分词->Redis中

这一部分主要是从Redis中使用rpop出一首歌，使用FastJson反序列化后，对歌词进行分词，这里分词使用的是结巴分词的Java版本，将分词结果去除停用词后，存入key为“song:词语”的set结构中。

当然也要用到多线程了，要不得到啥时候去。

Q&A

Q：在多线程池中，注意的问题？

A：因为分词是一个计算型的任务，所以我们需要压榨处理器，设置线程数为核数+1，减少线程切换次数

Q：如果全部数据处理完毕，如何停止任务呢？

A：每次rpop出的value，如果为空，则rpopIsNull计数器+1，并线程沉睡rpopIsNull*500毫秒，rpopIsNull大于5之后，退出线程。如果又一次rpop出的value不为空，则将rpopIsNull重置为0，这样还可以避免生产者消费者的处理能力不均的问题。

其他：

A：注意多线程异常

A：停用词使用的是结巴提供的词语库

A：使用SpringRedis的时候，他默认的序列化器是Java默认的序列化器，这个序列化器会在序列化后的内容最前头加上类信息，每个key、value都有，看着不舒服的同时还浪费内存空间，我就换成了StringRedisSerializer，参考的这一篇文章，文章末还推荐了一片【Redis 内存优化】节约内存：Instagram的Redis实践也很棒

A：使用VisualVM进行监控，特别是VisualVM中各个状态的意义，还有如何分析出死锁

A：Redis在生产环境中，使用keys，一般肯定把服务器打挂，一般使用scan和dbsize，具体文章点击Redis查询当前库有多少个 key和2.1.1 列出key——极客学院课程

代码：

static class FenCiWorker extends Thread {private RedisCacheManager redisCacheManager;private String name;private int cantPop = 0;private JiebaSegmenter segmenter;public FenCiWorker(RedisCacheManager redisCacheManager,String name) {this.redisCacheManager = redisCacheManager;this.name = name;setName(name);segmenter = new JiebaSegmenter();}@Overridepublic void run() {super.run();long lastSongId = 0;while (true) {Object value = redisCacheManager.rpop(REDIS_DB_WORKERS_KEY);if (value != null) {cantPop = 0;Song song = JSON.parseObject((String) value, Song.class);lastSongId = song.getId();String lyric = song.getLyric();if (StringUtils.isEmpty(lyric)) {//                        多线程的异常，这里如果不检测lyric是否为null，线程会报异常后不提示而结束...continue;}
//                    System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-开始处理一首歌 id = " + lastSongId);List<SegToken> result = segmenter.process(lyric, JiebaSegmenter.SegMode.INDEX);for (SegToken temp :result) {String word = temp.word;if (!stopWordSet.contains(word)) {redisCacheManager.sSet(REDIS_SONG_INDEX_PRE + word,song.getId().toString());}}
//                    System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-处理了完一首歌 id = " + lastSongId);} else {cantPop++;if (cantPop >= 5) {System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-超过5次没有pop到数据，线程退出了... lastSongId = " + lastSongId);return;} else {long sleep = cantPop * 500;System.out.println(TimeUtils.dateToString() + " fenciWorker-" + getName() + "-已经+ " + cantPop + "次没有pop到数据... 线程将沉睡" + sleep + " lastSongId = " + lastSongId);try {Thread.sleep(sleep);} catch (InterruptedException e) {e.printStackTrace();}}}}}}

消耗时间

开了8个线程，花了16min35s，共1106559条数据，速度1112.12首/s。

到这里，倒排索引就建好了，备份一下dump.rdb文件。

使用

简单的实现思路，用户输入一句话，对这句话分词，根据分词结果去redis查询，将查询结果放到idSet里，最后对idSet进行遍历，使用主键去数据库查询。

不足

当直接查询歌名时，但也做了分词，查到很多没用的记录
查询结果没有根据与目标符合程度的排序
有的比如“我”，“爱”，“你”这种词太多歌里都有了，所以用这种词查询意义不大

优化

索引应该加入歌名，直接搜歌名
加入优先级属性，比如搜歌名得到的结果应该放到最前面
其他的可以去查阅一些关于搜索的文章