algorithm – 搜索多个字符串_html-js-css

概述我知道在文件中查找一个字符串的有效方法(kmp),或文件中的各种字符串(trie) 但是,多年以来,我一直想知道是否有一种方法(并且在某种程度上认为这是不可能的)来搜索多个文件的多个字符串假设我有一百万个文件,我想回答诸如“查找具有字符串”香蕉“,”摩托艇“和”白狐“”的查询.什么是有效的算法？有吗？当然,可以在线性时间内搜索要搜索的文件大小.但对于大量的大文件来说,这似乎是不可行的. 谷歌的我知道在文件中查找一个字符串的有效方法(kmp),或文件中的各种字符串(trIE)

但是,多年以来,我一直想知道是否有一种方法(并且在某种程度上认为这是不可能的)来搜索多个文件的多个字符串

假设我有一百万个文件,我想回答诸如“查找具有字符串”香蕉“,”摩托艇“和”白狐“”的查询.什么是有效的算法？有吗？

当然,可以在线性时间内搜索要搜索的文件大小.但对于大量的大文件来说,这似乎是不可行的.
谷歌的存在似乎表明实际上有一个非常快的算法来做到这一点.也许甚至一个这样的问题,即每个查询只取决于查询大小,而不是文本大小的数据库(当然,这样的算法会涉及输入文件的一些预处理)

我认为必须有一个这样的算法(谷歌做它！)但我的搜索没有发现任何东西.

解决方法并行编程

这在很大程度上肯定是并行编程的任务：将文件分发到不同的计算单元,让它们进行搜索,然后收集结果.这实际上是谷歌所做的,例如他们通过结合千种商用硬件PC解决了一些翻译问题. (虽然他们可能正在使用其他硬件来获取真正的Google搜索结果.)您可以阅读热门文章on the internet.

“MapReduce”作为一个概念

谷歌发明了一个名为MapReduce,which they wrote down in a whitepaper的范例.这基本上归结为在第一步中将输入映射到输出(广泛分布).然后在第二步中将所有小结果减少为一个主要结果.

可以像这样实现搜索：

> map：将文档与关键字一起分发以进行搜索.如果在当前文件中找到搜索词,则从计算节点返回文件名.否则什么都不返回
> reduce：从所有节点收集列表中的所有文件名.

(这实际上与他们在论文中提出的“分布式grep”问题相同.)

找出给定文本中是否存在给定字符串的问题在名称“字符串匹配”下进行了很好的研究,例如参见the Rabin-Karp algorithm或Knuth-Morris-Karp algorithm(只是为了得到任何东西).所以地图的实现相当容易.