513696889    更新文章
2 年前

怎么获取、存储并核算如此海量的数据?怎么快速响应用户的査询?怎么使得搜索成果能够满意用户的信息需求? 搜索引擎架构 抓取网页:搜索引擎的信息源来自于互联网网页,经过网络爬虫将互联网的信息获取到本地。 #蜘蛛 #网站 #关键词 #标签 #链接 #搜索引擎 #排名 #索引 #互联 #百度 #php #抓取 #导航

网站搜索引擎的分类及其技能架构

网站搜索引擎的分类及其技能架构

树立索引:抓取到网页后,搜索引擎会对网页进行解析,抽取出网页主体内容和相关信息,(包括网页地点URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、巨细、与其它网页的链接关系等)。依据必定的相关度算法进行很多杂乱核算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息树立网页树立索引。为了加速响应用户査询的速度,网页内容经过"倒排索引"这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存。之所以要保存链接关系,是由于这种关系
喜欢