1. 首页
  2. SEO优化
  3. 正文

什么是“爬虫陷阱”?爬虫陷阱都有哪些?

  什么是“爬虫陷阱”?



  “蜘蛛陷阱”就是阻止蜘蛛程序爬行网站的障碍物,一些网站设计技术对搜索引擎来说不是很友好,不利于蜘蛛爬行和抓取,这些技术被称为蜘蛛陷阱。最大的特点是当蜘蛛抓取某个特定URL的时候,它便进入了无限循环,只有入口,没有出口。


  爬虫陷阱都有哪些?



  网站地图不正确

  网站地图对于用户和蜘蛛来说,一副完整、正确的网站地图可以很好地识别整个网站的架构,从而更好地扫描和爬行网站。如果网站地图不完整或不正确会让蜘蛛爬行时陷入其中,最终“迷路”了。

  限制性内容

  对于一些站点,为了吸引访客,要登录才可以查看,这诱导了蜘蛛,它很难识别内容,并且不断的尝试抓取这个URL。

  网站过多锚文本

  网站锚文本过多,造成内链链轮。很多站长为了提升关键词的排名,使用过多锚文本,最后造成页面之间的链接轮回效应,蜘蛛走进了无底洞,无法走出来。

    延伸阅读

  • 什么是“爬虫陷阱”?爬虫陷阱都有哪些?

    什么是“爬虫陷阱”?“蜘蛛陷阱”就是阻止蜘蛛程序爬行网站的障碍物,一些网站设计技术对搜索引擎来说不是很友好,不利于蜘蛛爬行和抓取,这些技术被称为蜘蛛陷阱。最大的特点是当蜘蛛抓取...

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.lnbdc.com/article/2981.html

(function(){ var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?1d7dde81dc0903e04d3ac0b9599444f6":"https://jspassport.ssl.qhimg.com/11.0.1.js?1d7dde81dc0903e04d3ac0b9599444f6"; document.write('<\/mip-script>'); })(); (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();