所属栏目:发布日期:2014-05-11 15:03浏览量:3103作者:admin
百度蜘蛛对网站抓取内容并不是一次性全部抓取完,而网站内容也不是一下子就能更新完事了。配合了蜘蛛的抓取才能对网站内容进行更新,让网站内容成为蜘蛛最亲密的partner。
(1)增量抓取
一个高频率更新的网站,蜘蛛会采取“增量”抓取的模式。通常经常更新的页面,蜘蛛会对抓取过的页面进行监控,做好再次抓取的准备。 当然不是说蜘蛛每时每刻都在监控着你的页面,它只会对重要页面进行定时监控,这主要针对网站中的重要页面,每次抓取时间间隔不会太长。另外,蜘蛛是在原网 站上再次抓取的,不仅仅缩短了抓取时间也及时的向用户展现网站的最新内容。
(2)分类定位抓取
对不同的页面进行分类定位抓取监控模式,即要对不同类别的页面进行分类处理。虽说抓取时间缩短了,页面灵活度也 提升了,不过范围太广了,没有办法监控到所有页面的更新情况。即使不同网站存在有相同类别的页面,也会有更新周期很大的问题。因此,结合增量抓取的方式完 成页面监控更新。
(3)定期抓取
蜘蛛的习性我们应该多少有点了解,它是定期抓取的。也就是说,蜘蛛会定期的更新收录的内容,那些旧的页面、不存在的页面都会被替换车新的页面,并且还把之前不存在的页面存储为新页面;这一抓取特点使得更新周期变长,但对收录所有页面是有好处的。
蜘蛛的每次更新包含了所有页面,因此页面权重也会被重新计算得到。如你的网站是企业站,在页面较少、内容更新缓慢的情况下,也是很适合蜘蛛这样的习性的;另一方面也说明了长时间的更新周期使得网站无法向用户呈现实时的动态。