
doc 文件主要用于保存term的倒排表信息,包括docId倒排链及term在docId的term freq信息等。倒排链是Lucene 进行全文检索的核心数据结构,请特别关注这个数据结构
请参考 Lucene tim文件格式详解 第三部分
文件头部分主要内容为标识此文件类型为 Lucene50PostingsWriterDoc , 源码部分在 Lucene50PostingsWriter 的123行,主要内容如下
开始本部分阅读时,请注意一个在第3部分兆虚得到的结果及含义, 现族茄燃在开始分析该部分内容
下面为term的doc信息。 主要逻辑是: 对于term的doc freq = 1的term来说,纳档doc文件不保存这个term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq >1的term。在范例中,只有nice的doc freq >1, 故只保存nice的doc倒排链
关于其它term(term freq = 1)的编码方式,请参考 tim 文件相应的格式内容
footer区主要有以下内容
1.新建项目2.添加头文件
找到在ProcessDB安装目录下的include文件夹下的头文件余扮,名称如下:
添加到我们新建的项目的头文握毁启件中
如果头文件引用不到,请在visio studio中,点击项目——属性,点击C/C++——常规,附加包含目录——编辑,将包含找不到的源文段如件(头文件)的文件夹添加到附加包含目录中。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)