
第一个中文分词方法是北京航空航天大学梁南元教授空明确提出的基于“部首词典”的分词方法。这种方式就是把所有的句子读一遍,然后独立识别字典里的所有单词。遇到复合词(比如北大)会找最匹配的词。当你遇到一个未知的字符串数组,把它剪成单独的文本。
例如:“著名导演冯小刚说,11日晚将有10万人到天安门广场参加晚会。”
按照这种方法,像:
“著名电影导演|冯小刚|Say|十一国庆|晚上|会|分发|十万人|去北京天安门广场|联欢会”
这样的分词方法,在现实搜索引擎中因为细分太多,虽然可以适应很多句子,
上世纪80年代,哈尔滨工业大学计算机专业博士生导师王小龙博士明确提出了分词的基本理论,即一个句子至少应该是一个字符串的数组进行分词,这样会让搜索引擎更清楚其含义。但对于“歧义”等重要短语,不能说切分最多就是最好的结果。
比如“吉利大学城图书书店”
这个关键词的恰当分词应该是“亲善头|职教城|图书书店”而不是字典里的“吉利大学城|图书书店”
目前流行的。
根据统计模型进行文本编辑
从方式上看,单词是稳定的单词。所以前后相邻的词出现越频繁,就越有可能构成一个词。因此,词与词共现的频率或概率可以很好地反映词的真实性。能够对语料库中与共现相邻的每个词的成分的频率进行统计分析,并测量它们的共现信息量。定义两个汉字的共现信息量,计算两个汉字X和y的相邻共现概率,互信息量最能反映汉字整合和联想的不可分程度。当不可分性水平高于一定阈值时,可以感觉到这个词的组词很可能构成一个词。这种方法只需要统计语料库中词的词分组频率,不需要划分词典。所以也叫无词典分词或统计分析选词。但是,这种方法也有一定的局限性。一些常见的共现频率较高的汉字组,如“这个”、“一个”、“一些”、“我的”、“很多”等,往往会被抽出来。而且常用词识别精度差,耗时多。具体的统计分析分词系统软件需要使用一个基本的分词词典(常用词词典)进行串匹配分词。此外,利用统计分析方法识别部分新词,将串频统计分析和串匹配相结合,既充分发挥了匹配分词更快更高效的分词特点,又利用了无词典分词的优势,自动识别词并消除歧义。
基于字符串数组匹配的逆向大匹配法
一般来说,SEO中应用最广泛的分词方法是基于字符串数组匹配的逆向大匹配法。这种方式是从句子后面到前面(从右到左)分词。
在搜索引擎运行的系统中,有很多种中文分词方法,如正向大匹配分词、反向大解析、基于统计分析的分词等。然而,在具体搜索引擎 *** 作的整个过程中,分词的方法并不那么简单。因为搜索引擎不仅要充分考虑分词结果的准确性,还要充分考虑无法区分的词的解决方法。
首先我们来讨论一下分词结果的准确性。一般来说,搜索引擎使用多种分词方法组成混合分词方法进行分词,因为这样可以最大化词汇利润,进行更精确的切分。分词的基本原理是:先用技术词典进行分词,再用通用词典进行一次分词。
那么对于无法区分的词,搜索引擎实际上是如何 *** 作的呢?
一般来说,搜索引擎遇到那样的关键词,会采用一元分词、二元分词、分词不分词的方法来处理这样的难题。
比如“草尼玛是草食动物”
一元分词的结果:“草\泥\马\是\一种草食动物”或者“草\泥\马\是\一种草食动物”
第三种方法——果断混淆保持新词汇的一致性。
经过这一系列的分词程序,具体的分词结果是:草泥\泥马\草尼玛\是\一种\草食\食物\草\动物\草食
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)