
用来分词的,jieba 可以:
把一句话拆分成多个词。
从一句话(一段话)中提取纳高悔最重要的几个关键词。
最常用的功能应该就是这些吧,分词之后结合 TF-IDF,就可以洞正开始做搜索工具和念咐相关推荐了。
现可以提供两种思路:1.String或是StringBuffer(建议用) 中的indexOf("中华")方法,查找给定的的字符串中是否有给定词表历旅中的词。
2.借鉴编译原理中的状态装换的思想。
先编写一个状态机,用于测试给定字符串中的词是否满足词表中的内容。
写在最后:1)建议使用第一种方法,因为在java 内部实现的查找 *** 作其实 和你想得思路是相同的,不过他的效率会高些。
2)如果个人的编程能力比较强或是不陆烂冲考虑效率只是想实现专有的分词算法。可以使用早歼第二种方法。
3)以上的两种方法都可以使用多线程来提高程序的效率。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)