15621857753

meta name="robots"及各搜索引擎蜘蛛爬虫解析

来源:齐鲁CMS 栏目:其他 阅读: 日期:2024-04-07

meta标签是放在html网页中head头部标签内的,我们可以通过设置html元素标签中name="robots"相应的content属性值来告诉所有搜索引擎蜘蛛爬虫如何抓取页面。

meta标签是放在html网页中head头部标签内的,我们可以通过设置html元素标签中name="robots"相应的content属性值来告诉所有搜索引擎蜘蛛爬虫如何抓取页面。

一、robots的写法

希望所有搜索引擎蜘蛛爬虫来抓取页面,就可以这样写:

<meta name="robots" content="index">

禁止所有搜索引擎蜘蛛爬虫抓取页面,就像这样写:

<meta name="robots" content="noindex">

只想禁止谷歌搜索引擎抓取页面,这样写:

<meta name="Googlebot"  content="noindex">

也就是说,content="属性值"可以指定搜索引擎抓取方式,其属性值有all, none, index, noindex, follow, nofollow……

all 允许搜索引擎抓取该网页,也能通过该网页中的链接去抓取其他网页
index 允许搜索引抓取该网页;
noindex 禁止搜索引擎抓取该页面,但能通过该网页中的链接去抓取其它网页
follow 允许搜索引擎通过该网页中的链接去抓取其它网页
nofollow 禁止搜索引擎通过该网页中的链接去抓取其它页面
none 禁止搜索引擎抓取,也不允许通过该网页中的链接去抓取其他网页
noarchive 在显示本网页于搜索结果中时,不要显示一个"网页快照"链接
unavailable_after:[日期] 在指定的日期和时间之后,从搜索结果中删除该网页
nosnippet 在搜索结果中显示当前页时,不要显示页面摘要

注意:

content属性值为空,则表示默认值all;

同种属性正反两方面(如index与noindex)不能同时出现在content之中

content="index,follow",可以直接用 content="all"代替

content="noindex,nofollow",可以直接用 content="none"代替

二、各大搜索引擎蜘蛛名称

1、百度蜘蛛:BaiduSpider

百度还有如下几个蜘蛛:Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)、Baiduspider-mobile(抓取wap)。前两者最常见。

2、谷歌蜘蛛:Googlebot

有人说谷歌蜘蛛是GoogleBot,官方谷歌蜘蛛最新名称为Googlebot,还发现了Googlebot-Mobile,应该是抓取wap内容的

3、360蜘蛛:360Spider

4、搜狗蜘蛛:Sogou News Spider

搜狗还有如下几个蜘蛛:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider

5、必应蜘蛛:bingbot