1.倒排索引
又称反向索引。它将文档中的词做为关键字,建立词与文档的映射关系。可以通过对倒排索引的检索,可以快速获取包含这个词的文档列表。这对任何搜索引擎来说都是至关重要的。
2.分词
分词就是将句子或者段落进行切割,从中提取出包含固定语义的词。
3.停止词
在不同语言中都包含了很多使用频率特别高的词汇,如果这些词汇都被建立到索引中进行索引的话,搜索引擎就没有意义了。因此,停止词需要被忽略掉。
4.排序
当输入一个关键词进行搜索的时候,可能会命中许多文档,搜索引擎的价值在于帮助用户快速定位到需要的文档,因此,需要将相关度大的内容放在前面。这就需要有适当的排序算法,一般来说,名字标题的文档比命中内容的文档有更高的相关性。命中多次的文档比命中一次的文档有更高的相关性。商业的搜索引擎的排序算法还会融入广告,竞价排名等因素,一般属于商业机密