福建快3最大遗漏数据
您现在的位置:[首页]电商平台 > 蜘蛛抓取文章页面全过程

蜘蛛抓取文章页面全过程

发布日期:2013-12-30 阅读次数:1164

大家都知道搜索引擎抓取文章的过程是一个非常复杂的过程,但是我们大致可以把他分成以下3个步骤,合肥网页设计小编简称:三步走。

第一步:搜索引擎蜘蛛把页面url抓取,获取页面的url存放在数据库。

第二步:程序对数据库中抓取来的内容进行内容提取,分词建立索引。

第三步?#21495;?#21517;程序对数据库中索引调用,计算内容页面的相关性和权重值,?#32531;?#25353;照一定的格式排列在用户搜索页。

小编详细的介绍这三个步骤:

1、搜索引擎又叫做蜘蛛、机器人,当蜘蛛发现一个页面时,服务员会返回页面的html代码。当搜索引擎爬取一个页面时?#35805;?#37117;是首先访问网站的robots.txt协议,在明确网站管理设置的禁止抓取协议以后,才对页面进行抓取索引数据库。

2、搜索引擎蜘蛛抓取的时间是:定期抓取(根据每个搜索引擎蜘蛛的更新时间不一样而异)、增量抓取(在原有的页面上抓取更多的页面)、分类抓取(根据类目不同而抓取的时间不一样,例如新闻类的内容可以几个分钟抓取一次。)
搜索引擎蜘蛛的抓取方式:深度抓取(例如类目A 和 类目b 类目c :蜘蛛抓取类目a会一直沿着页面a的页面深度抓取,直到把页面a的页面全部抓取再返回主页抓取类目b.)
广度抓取(广度抓取就是页面a 和页面b页面c同时抓取),最后一个是用户提交,?#35805;?#34584;蛛抓取会根据页面的链接爬取更新鲜的页面,所以用户提交这种方式的效果很微小。

3、蜘蛛程序对抓取存储在数据库内容的内容提取以及分词建立索引:为了避免重复抓取搜索引擎蜘蛛会建立一个数据库,在?#30475;?#25235;取页面的时候分别详细的记录页面的url,文件大小以及创建日期?#21462;?#25628;索引擎把抓取来的页面都存放在数据库中,数据库中的url来源大致有3种途径:搜索引擎蜘蛛爬取页面从html解析出来的url,如果没有访问过的url就把他放在待访问数据库,接着回按照重要性抓取更新的资源页面,如果检测到已经抓取?#31456;?#30340;就会把他删了。人工手动写入的url,还有就是站长通过表格提交的url,每一个url?#21152;?#19968;个特定的编号。?#32531;?#23545;每个url对应的页面进行内容提取,切词分词相关性建立索引,当用户搜索这个词的时候,程序会根据页面的相关性,页面的权重进行合理的排序。

标签:文章页面
司瓦图胡经理
技术客服,免费咨询
技术客服司瓦图胡经理
司瓦图网络自2007年正式注册成立,目前提供各类平台系统定制,包括电商平台开发,微信小程序定制开发,微?#29260;?#21488;定制开发,企业官网制作以及400电话开通等服务!

全国服务热线4000-522-555周一至周六8:30-18:00

地址:合?#36866;?#25919;务区天珑广场5号?#20934;?#20889;字楼1007-1008室

老张个人微信

老张原创分享

Copyright © 2018 版权所有:合肥司瓦图网络科?#21152;?#38480;责任公司 ALL Rights Reserved  
皖ICP备07007410号
司瓦图老张头像
司瓦图老张
老张自05年进入互联网行业,一直?#37038;?#20114;联网平台开发行业,服务项目主要有:平台定制开发,电商平台开发,微信商城,微信小程序?#21462;?/div>
司瓦图老张微信
福建快3最大遗漏数据 试玩游戏赚钱的平台 正规棋牌游戏排行榜 棋牌游戏最靠谱app qq分分彩怎么玩可以挣钱 股票配资论坛&找象泰配资口碑好GO 超级大乐透周一走势图 广东11选5人2遗漏表 手机棋牌游戏app开发 中国平安股票 辽宁十一选五推荐