索引文件的生成(二十三)(Lucene 8.6.0)

  从本篇文章开始介绍用于描述存储域(存储域的概念见文章索引文件之fdx&&fdt&&fdm)的索引文件.fdx、.fdt、.fdm的生成过程,直接给出流程图:

图1:

  从图1中可以看出,生成完整的索引文件.fdx、.fdt、.fdm的过程分布在两个阶段:索引阶段、flush阶段。这也解释了为什么在文章文档提交之flush(三)的图5中,其他索引文件都是"生成"、而索引文件.fdx、.fdt、.fdm则是"更新",注意的是那篇文章中是基于Lucene 7.5.0,故不存在索引文件.fdm。

索引阶段

处理存储域的域值信息

图2:

  图2中Document指定是索引阶段的一篇待处理的文档,我们集合一个例子来加以介绍:

图3:

  当开始处理一篇文档(Document)时,我们需要记录对存储域的域值,图1的例子中有两篇文档,在执行了流程点处理存储域的域值之后,域值信息将被写入到一个字节数组bufferedDocs[ ]数组(在源码中bufferedDocs其实是一个对象,它用来将数据写入到字节数组buffer[ ]中,为了便于介绍,所以我们直接认为bufferedDocs是一个字节数组)中,域值信息中包含两类信息:

  对于图3的例子,这两篇文档中存储域的域值写入到bufferedDoc[ ]数组后,如下所示:

图4:

  图3中文档0有四个域信息,但是域名"attachment"的域的属性为"STORE.NO",那么域值就不会别写入到bufferedDoc[ ]数组中,这会导致在搜索阶段,当文档0满足某个查询条件后,我们无法获得文档0中域名"attachment"的域值。

  bufferedDoc[ ]数组中的内容将被写入到索引文件.fdt中:

图5:

  图5中,每个Doc字段就描述了一篇文档的所有域存储域的域值信息。

增量统计存储域的信息

图6:

  在生成一个chunk之前,需要增量统计存储域的信息,满足生成一个chunk的条件后,存储域的信息将被写入到索引文件.fdt中。

  在这个流程点,需要增量的记录下面的数据:

  为了能更好的描述这些信息,我们需要新给一个例子:

图7:

  图7中要注意的是,文档1中不包含存储域,处理完这三篇文档后,收集到的存储域信息如下所示:

图8:

  图8中,由于文档1不包含存储域,所以在numStoredFields[ ]数组中,下标值为1的数组元素为0,另外在endOffsets[ ]数组中,文档0的存储域信息存储为下标值1的数组元素,即11,描述了文档0中最后一个存储域的域值信息在bufferedDocs[ ]数组中的结束位置。

  另外文档1中不包含存储域,为什么另它对应在endOffsets[ ]中的数组元素跟文档0是一致以及这些数组如何配合使用的介绍将在随后的介绍索引文件fdx&&fdt&&fdm的读取的文章中再详细展开。

  存储域的信息对应在索引文件.fdt中的字段如下所示:

图9:

结语

  基于篇幅,剩余的内容将在下一篇文章中展开。

点击下载附件