
一种电子文件格式,是火云术语翻译辅助软件专用的术语文件。Term文件可以用火云术语打开预览并导入。Term文件中包含术语的原文、译文,以及术语库名称、条数、标签、备注等基本信息。
http://baike.baidu.com/view/2068037.htm
可以,C:\Documents and Settings\您的用户名\Local Settings\Temp这个是临时文件夹,里面的文件全部删除,很多木马,病毒的文件隐藏在这里
本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0.
doc 文件主要用于保存term的倒排表信息,包括docId倒排链及term在docId的term freq信息等。倒排链是Lucene 进行全文检索的核心数据结构,请特别关注这个数据结构
请参考 Lucene tim文件格式详解 第三部分
文件头部分主要内容为标识此文件类型为 Lucene50PostingsWriterDoc , 源码部分在 Lucene50PostingsWriter 的123行,主要内容如下
开始本部分阅读时,请注意一个在第3部分得到的结果及含义, 现在开始分析该部分内容
下面为term的doc信息。 主要逻辑是: 对于term的doc freq = 1的term来说,doc文件不保存这个term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq >1的term。在范例中,只有nice的doc freq >1, 故只保存nice的doc倒排链
关于其它term(term freq = 1)的编码方式,请参考 tim 文件相应的格式内容
footer区主要有以下内容
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)