网站建成后,我们当然希望被搜索引擎收录的页面越多越好,但有时候也会遇到网站不需要被搜索引擎收录的情况。启用新域名作为镜像网站,主要用于PPC。
此时,我们必须找到一种方法来阻止搜索引擎蜘蛛对我们镜像网站的所有页面进行爬行和索引。如果镜像网站也被纳入搜索引擎,很可能会影响官网在搜索引擎中的权重。
以下是阻止爬虫(蜘蛛)在主流搜索引擎中抓取/索引/收集网页的一些想法。注意:整个网站屏蔽,尽量屏蔽所有主流搜索引擎的爬虫(蜘蛛)。
1.通过。
Robotstxt文件屏蔽
说起来不算太多
Robotstxt文件是最重要的渠道(它可以与搜索引擎建立直接对话),并给出以下建议:
用户代理
Baiduspider
驳回
/
用户代理
谷歌机器人
驳回
/
用户代理
谷歌机器人手机
驳回
/
用户代理
谷歌机器人图像
不允许/
用户代理
MediapartnersGoogle
驳回
/
用户代理
AdsbotGoogle
驳回
/
user agentfeedfeetchergoogle
驳回
/
用户代理
雅虎思乐普
驳回
/
用户代理
雅虎思乐普中国
驳回
/
用户代理
YahooAdCrawler
驳回
/
用户代理
优道机器人
驳回
/
用户代理
sospider
驳回
/
用户代理
搜狗蜘蛛
驳回
/
用户代理
搜狗网蜘蛛
驳回
/
用户代理
MSNBot
驳回
/
用户代理
iaarchiver
驳回
/
用户代理
番茄机器人
驳回
/
用户代理
驳回
/
2.通过。
元标签掩码
在网页的所有头文件中添加以下语句:
元名称='robots '内容='index,follow '
/:您可以爬网此页面或继续索引此页面上的其他链接。
meta name=' robots ' content=' no index,follow '
/:禁止对此页面进行爬网,但可以对该页面上的其他链接进行爬网和跟踪。
meta name='robots '
Content='index,nofollow'/:您可以爬网此页面,但禁止爬网和跟踪此页面上的其他链接。
meta name=' robots ' content=' no index,nofollow '
/:禁止对此页面进行爬网,禁止对该页面上的其他链接进行爬网和跟踪。
meta name=' robots ' content=' no archive '/:禁止搜索引擎拍摄快照。
3.通过服务器(如Linux/nginx)。
)配置文件设置。
直接过滤
蜘蛛/机器人的知识产权部分。
以上是《SEO优化之如何设置让网站禁止被爬虫收录》的全部内容,仅供站长朋友们互动学习。SEO优化是一个需要坚持的过程。希望大家一起进步。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/53341.html