d性搜索中的HTML Strip

d性搜索中的HTML Strip,第1张

概述我有一个包含html标签的属性的文档.我想在索引之前删除html. 我发现这个htmlstrip-charfilter,但我找不到使用这个的例子.我是新来的d性搜索和分析器的概念. 谢谢 请检查以下链接: # Analyze text: "the <b>quick</b> bröwn <img src="fox"/> "jumped""curl -XPUT 'http:/ 我有一个包含HTML标签的属性的文档.我想在索引之前删除HTML.

我发现这个htmlstrip-charfilter,但我找不到使用这个的例子.我是新来的d性搜索和分析器的概念.

谢谢

解决方法 请检查以下链接:
# Analyze text: "the <b>quick</b> bröwn <img src="fox"/> &quot;jumped&quot;"curl -xpuT 'http://127.0.0.1:9200/foo/'  -d '{   "index" : {      "analysis" : {         "analyzer" : {            "test_1" : {               "char_filter" : [                  "HTML_strip"               ],"tokenizer" : "standard"            },"test_2" : {               "filter" : [                  "standard","lowercase","stop","asciifolding"               ],"char_filter" : [                  "HTML_strip"               ],"tokenizer" : "standard"            }         }      }   }}'curl -XGET 'http://127.0.0.1:9200/foo/_analyze?format=text&text=the+%3Cb%3Equick%3C%2Fb%3E+br%C3%B6wn+%3Cimg+src%3D%22fox%22%2F%3E+%26quot%3Bjumped%26quot%3B&analyzer=standard' #    "tokens" : "[b:5->6:<AlphaNUM>]#    #    3: #    [quick:7->12:<AlphaNUM>]#    #    4: #    [b:14->15:<AlphaNUM>]#    #    5: #    [bröwn:17->22:<AlphaNUM>]#    #    6: #    [img:24->27:<AlphaNUM>]#    #    7: #    [src:28->31:<AlphaNUM>]#    #    8: #    [fox:33->36:<AlphaNUM>]#    #    9: #    [quot:41->45:<AlphaNUM>]#    #    10: #    [jumped&quot:46->57:<COMPANY>]#    "# }curl -XGET 'http://127.0.0.1:9200/foo/_analyze?format=text&text=the+%3Cb%3Equick%3C%2Fb%3E+br%C3%B6wn+%3Cimg+src%3D%22fox%22%2F%3E+%26quot%3Bjumped%26quot%3B&analyzer=test_1' # {#    "tokens" : "[the:0->3:<AlphaNUM>]#    #    2: #    [quick:7->12:<AlphaNUM>]#    #    3: #    [bröwn:17->22:<AlphaNUM>]#    #    4: #    [jumped:46->52:<AlphaNUM>]#    "# }curl -XGET 'http://127.0.0.1:9200/foo/_analyze?format=text&text=the+%3Cb%3Equick%3C%2Fb%3E+br%C3%B6wn+%3Cimg+src%3D%22fox%22%2F%3E+%26quot%3Bjumped%26quot%3B&analyzer=test_2' # {#    "tokens" : "[quick:7->12:<AlphaNUM>]#    #    3: #    [brown:17->22:<AlphaNUM>]#    #    4: #    [jumped:46->52:<AlphaNUM>]#    "# }

https://gist.github.com/clintongormley/780895

感谢clintongormley

总结

以上是内存溢出为你收集整理的d性搜索中的HTML Strip全部内容,希望文章能够帮你解决d性搜索中的HTML Strip所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/1099822.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-28
下一篇2022-05-28

发表评论

登录后才能评论

评论列表(0条)

    保存