如何设置让网站禁止被爬虫收录

平台运营 2022-01-16111未知000007e

本页,抓取,搜索引擎,收录,屏蔽,000007e

  网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站没有需要被搜索引擎收录的情况。要启用1个新的域名做镜像网站,次要用于PPC 的推广,这个时候就要想举措屏蔽搜索引擎蜘蛛抓与和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。

  以以下举了屏蔽支流搜索引擎爬虫(蜘蛛)抓与/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有支流搜索引擎的爬虫(蜘蛛)。

  1、通过 robotstxt 文件屏蔽

  可以说 robotstxt 文件是最重要的1种渠道(能和搜索引擎建立直接对话),给出以下建议:

  Useragent Baiduspider

  Disallow /

  Useragent Googlebot

  Disallow /

  Useragent GooglebotMobile

  Disallow /

  Useragent GooglebotImage

  Disallow/

  Useragent MediapartnersGoogle

  Disallow /

  Useragent AdsbotGoogle

  Disallow /

  UseragentFeedfetcherGoogle

  Disallow /

  Useragent Yahoo Slurp

  Disallow /

  Useragent Yahoo Slurp China

  Disallow /

  Useragent YahooAdCrawler

  Disallow /

  Useragent YoudaoBot

  Disallow /

  Useragent Sosospider

  Disallow /

  Useragent Sogou spider

  Disallow /

  Useragent Sogou web spider

  Disallow /

  Useragent MSNBot

  Disallow /

  Useragent iaarchiver

  Disallow /

  Useragent Tomato Bot

  Disallow /

  Useragent

  Disallow /

  2、通过 meta tag 屏蔽

  在所有的网页头部文件添减,添减如下语句:

       <meta name='robots' content='index,follow' />:可以抓与本页,也能够顺着本页继续索引其余链接

       <meta name='robots' content='noindex,follow' />:禁止抓与本页,但可以抓与跟踪本页的别的链接

       <meta name='robots' content='index,nofollow'/>:可以抓与本页,禁止抓与和跟踪本页的别的链接

       <meta name='robots' content='noindex,nofollow' />:禁止抓与本页,禁止抓与和跟踪本页的别的链接

       <meta name='robots' content='noarchive' />:禁止搜索引擎建立快照

  3、通过服务器(如:Linux/nginx )配置文件设置

  直接过滤 spider/robots 的IP 段。

  以上就是《SEO优化之如何设置让网站禁止被爬虫收录》的齐部内容,仅供站长朋友们互动交换学习,是1个需要坚持的过程,希望大家1起配合进步。

1个好的 优化网站内链结构对用户和搜索引擎来讲是很友爱的,1方面利于提高用户体验,增减停止时间,另外一方面搜索引擎蜘蛛可以深度抓与,同时权重传送及提降网站排名,那么网...
网站有1些要害词排名,然而网站的基本也没有是很好。网络公司没有仅仅是提供域名注册、空间租用、网站开收、网站建设取网络营销活动策划相闭的企业组织。只要关于网络方面的问...

本页,抓取,搜索引擎,收录,屏蔽,000007e

Copyright © 2012-2022 yycz.com 悠悠网-金盟网旗下 备案号:浙ICP备2021023120号-1