返回首页搜索引擎机制

爬取-搜索引擎的爬取规则

上篇文章,我们说了「搜索引擎对页面的处理过程」,里面提到了四个步骤:爬取、识别、收录、排序。这篇文章我们来详细说爬取这个步骤。爬取这个步骤是seo优化的第一步,是重中之重。

上篇文章,我们说了「搜索引擎对页面的处理过程」,里面提到了四个步骤:爬取、识别、收录、排序。这篇文章我们来详细说爬取这个步骤。爬取这个步骤是seo优化的第一步,是重中之重。

1、什么是蜘蛛(爬虫)?

互联网就是一张大网,所以,我们就把搜索引擎派出来的程序叫做蜘蛛,每时每刻都有蜘蛛在爬取页面。这个程序的最主要目的有三个:

第一、为搜索引擎发现新网页;

第二,回访老页面:根据网页质量,确定回访时间;

第三,智能发现和回访(重要性排序)

那么,它是怎么发现新页面的呢?

有两个方式:第一,自己提交给百度;第二,通过外链。

我们先来看第一种:建站完成之后,是需要提交给百度的,这样,爬虫才知道有这么一个站点的存在。在「百度搜索资源平台」进行提交。

首先,把你的网址粘贴到百度搜索框(注意不是地址栏)进行搜索:

点击提交网址:

点击提交即可。

提交之后,搜索引擎就会派遣爬虫来爬取我们的网页。

这个周期,有长有短。老域名的周期短,可能几个小时就来了;新域名周期长,一周到半个月都有可能。比如说,最近百度收录就很慢,我的站点到今天第十一天(21年5月1日)了,还没有被收录,爬虫还没来:

通过「百度资源搜索平台」的爬取频次即可看到爬虫每天来的次数。目前为0。

接着来看第二个方式:通过外链。

我们在别的平台上写文章并且留下网站链接,也就是网址,百度爬取这个网页的时候,会发现里面有一个网址,也会爬取。

总而言之,爬虫对于seo而言,是极为重要的。主要体现在以下三点:

1、爬虫来到网站,是收录(索引)网站的前提

2、爬虫来得越多,收录(索引)就会越快

3、爬虫来得多,说明内容足够优质;来得少,说明内容不够优质或者seo优化有问题。

2、哪里可以看到爬虫爬取次数

有两个途径:

a、在百度搜索资源平台:

首先,需要验证「百度搜索资源平台」,绑定站点:

改天写一篇文章

b、在你的服务器日志:

爬取细节分析。这里有很多的知识,能够分析爬虫爬取到哪里

3、哪些情况会导致爬虫不友好

主要有以下三种情况:

1、中文网址

2、网站打开速度慢

3、网站存在打不开的链接(死链接)

第一种情况,我们选择域名的时候,不要带有中文即可

第二种情况,打开网站速度最好是500毫秒,在1000毫秒以内

就像上图,最大值是6363,也就是网站用了6s才打开,太慢了

第三种情况,网站有死链接,就需要去提交死链接

4、如何提升爬虫次数?

主要有四点:

1、发布优质的网站内容,可以看这篇文章

2、每日更新内容量越多越好

3、定时更新,因为爬虫是个机器,非常守时,你每天两点发,爬虫就会每天两点来爬取。当然,这个不做强求,只要每天发布即可,坚持3个月,才能养成爬虫每天来爬取你的网站。而如果网站上线之后,就不更新,对网站的伤害是很大的。

4、优质的网站内链。蜘蛛希望你的网站就像是一张网,所以要有合适的内链,每篇文章1-3,不要每篇文章都链接到首页,避免百度认为你刻意优化

5、网站一直没被收录怎么办?

可以在「百度搜索资源平台」的反馈中心进行反馈,选择「新站整站未收录」:

填写资料:

在反馈中心可以看到百度是否有回复。