3月1日开始着手制作一个服装类型的新网站,在本地调试完毕后上传到空间。这个网站无论从域名、空间还有网站内容都是全新的,域名和空间是当天注册和购买的,我具体观察了百度和谷歌的蜘蛛抓取情况以及新站收录的整个过程。对于一个全新的网站,百度和谷歌在爬取网站内容和收录过程都有许多差异,主要表现在以下几个方面:
一、蜘蛛抓取差异
我一直喜欢观察蜘蛛行踪,笔者在许多站长群里面被称为“蜘蛛侠”,就是来源于我的这个习惯和爱好。这次上新站这样的机会是肯定不能错过的。网站内容上传完毕后,首先去几个门户论坛发帖回复引蜘蛛,几个小时后访问日志已经产生了,百度蜘蛛的速度较快,在谷歌之前来到了网站。通过日志查看,谷歌的蜘蛛非常有趣,反复爬取robots文件10多次以后才小心翼翼的抓取首页,之后一边爬取robots一边抓取网站内页。而百度蜘蛛则显得比较着急,我的网站是制作了robots文件的,但是百度并不爬取此文件,直接去抓取网站首页,而且显得非常饥饿和疯狂,在1分钟内,反复爬取首页20多次,之后再去抓取内页。返回状态码200 0 0,表示全部抓取成功。感兴趣的朋友可以到我的网站查看昨天的蜘蛛抓取日志,一个新站的抓取过程,对于研究蜘蛛的规律和性格有非常不错的参考价值。
从上面的过程可以看出,谷歌的蜘蛛比较有礼貌和注重礼仪规矩,会反复敲门得到陌生新主人许可后才进去,之后的每一个行为都参照robots规则来进行内页的抓取,让我想起了解放军的三大纪律八项注意,在这里赞一个。而百度蜘蛛忽略robots,进门反复咬首页10多口才放手的行为,让人感觉很暴力很野蛮,蜘蛛吃完首页继续吃内页,这个过程中百度蜘蛛完全无视robots文件的存在。
二、网站收录差异
几小时后site谷歌,已经收录了新站的2个页面,其次是搜搜在24小时内收录了首页。新站到现在为止已经诞生30多小时了,而百度至今还没放出首页。由于搜索机制和规则不一样,目前来说新站收录效率来讲谷歌最给力,百度慢了好几拍。
以上分享的是笔者的新站在谷歌和百度抓取和收录过程中的差异,希望通过这个案例,给研究SEO的朋友和需要上新站的朋友一些学习参考和灵感,让你更了解谷歌百度的抓取规则和收录流程。