网络爬虫是什么,有哪些结构组成呢?工作原理又是什么呢?不太了解搜索引擎抓取原理的用户会有这样一个疑问,接下来逐鹿带领大家了解一下:
网络爬虫是什么?
网络爬虫又称为搜索引擎蜘蛛,是一种按照一定的规则自动抓取互联网上网页内容的程序或脚本。那么脚本又是什么呢?脚本是一种编程语言,用来控制软件的应用程序,通常是以文本保存的,只在被调用时进行解释或者编译。
搜索引擎基本结构包括哪些?
搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。
1、搜索器
搜索器也叫网络蜘蛛,是搜索引擎用来爬行和抓取网页的一个自动程序,在系统后台不停歇地在互联网各个节点爬行,在爬行过程中尽可能快的发现和抓取网页。
2、索引器
它的主要功能是理解搜索器所采集的网页信息,并从中抽取索引项。
3、检索器
其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。
4、用户接口
它为用户提供可视化的查询输入和结果输出的界面。
搜索引擎的工作原理是什么?
搜索引擎的原理,可以看做三步:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。
1、从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的URL爬到其它网页,重复此过程,并把爬过的所有网页收集回来。
2、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
3、在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎蜘蛛访问抓取最频繁的是首页,有内容更新时,一定要在首页体现出来并建立链接,便于蜘蛛最快抓取到,增加抓取机会、提升网站收录。
相关新闻
关闭
Hi,
认真聆听您的需求
是我们最重要的工作之一...