解析网站robots的重要性

网站robots的重要性:必须小写,后缀必须是.txt.、必须放在网站的根目录、内容语法要正确、robots文件中必须要存在Disallow函数。

  

 robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。此文件究竟还有没有其他作用呢?我们一起来学习一下。

    这个文件是搜索引擎与网站之间的沟通桥梁,是两者之间约定好的语法文件,搜索引擎每抓取一个网站,就会先检查这个文件,就好像开门的钥匙一样。如果这个文件不存在,那么就代表不限制搜索引擎的抓取。如果这个文件存在,它就会按照文件中的规定要求进行抓取。有些站长会问了,我们建立网站,肯定是需要搜索引擎收录的,为什么还要限制其抓取呢?搜索引擎在抓取过程中会搜索全站,你的网站中可能存在一些你采集的东西,或者是类似一些没有实质性东西的页面,那么搜索引擎抓取后会对你的网站的评价大打折扣,起不到SEO的效果,但是robots文件就可以告诉蜘蛛,哪些页面不希望它去看,也间接的减少了服务器的负荷量。

    这个文件有几个需要注意的地方:

    1。文件名称不能写错,而且必须小写,后缀必须是.txt.

    2。文件必须放在网站的根目录,比如:http://www.taofengyu.com/robots.txt,要可以访问。

    3。文件内容语法要正确,一般情况下,常用的就是User-agent和Disallow:

    User-agent:*就表示允许所有搜索引擎蜘蛛抓取和收录,如果不想让百度收录你的网站,就把*换成"baiduspider",那么后面Disallow限制的内容就不会被百度蜘蛛抓取和收录了。如果你要限制抓取全站,那么Disallow文件就要写成“Disallow:/”,如果你要限制某个文件夹下的文件不被抓取,那么就写成“Disallow:/admin/",如果你要限制抓取以admin开头的文件,那么就写成”Disallow:/admin",以此类推,你要限制某个文件夹下的文件比如,你要限制抓取admin文件夹下的index.htm文件,那么Disallow语法就写成“Disallow:/admin/index.htm"。如果Disallow后不带”/",就代表允许抓取和收录网站所有页面。

    一般网站的后台管理文件,程序函数,数据库文件,样式表文件,模板文件,网站一些图片等等,没有必要让蜘蛛抓取。

    4。robots文件中必须要存在Disallow函数,这是这个文件成立的一个关键因素。

    robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。

    那么robot一般怎么写:

    User-agent:*

    Disallow:/

    Sitemap:http://www.srzxjt.com/sitemap.xml

    对于一般企业可以这样的去写,在Disallow掉不想被搜索引擎抓取的文件即可,比如我们的网站数据,图片等等。具体禁止搜索引擎收录的方法可以参考百度搜索帮助中心的进行详细的了解。

    关于robots文件的一些重要性和方法大概就这些了,希望能给大家带来一点用处。


本文关键词: