1. 首页
  2. SEO优化
  3. 正文

厦门SEO优化用户需求分析及网页去重技术讲解

  一、厦门SEO优化-用户需求分析

  厦门用户需求分析可分为两个方面:一个是用户搜索词的分析,另一个是用户搜索意图的分析。用户搜索词的分析可以返回一个可能是用户需要的结果列表,通过厦门用户搜索意图的分析并对搜索结果进行调整,可以获得此用户更加想要的结果列表。

  二、厦门SEO优化搜索词分析

  当用户向搜索引擎提交查询后,搜索引擎首先判断用户所提交的搜索词的类型:是普通的文本搜索、普通文本带有高级指令的搜索,还是纯高级指令的搜索。这三类搜索词会分别进行不同的索引匹配。

  如果是纯高级指令的搜索,那么就会触发搜索引擎相应的结果返回机制。比如,使用site、inurl、intitle等高级指令,搜索引擎会对这种搜索词进行专门的处理。按照搜索词的要求只对索引文件的相应数据进行匹配,比如,site和inurl要求搜索引擎只匹配网页的URL,intitle要求搜索引擎只匹配网页的Title。并且当搜索引擎识别搜索词为域名或超链接时,也会触发返回固定形式结果的算法。如果用户输入了明显错误的字,搜索引擎还会依次进行错误矫正,并按照矫正后的词进行检索。另外,如果用户的搜索词为常用词的同义词,百度也会使用“纠错”的搜索结果形式。

  用户搜索词分析完毕后,就可以正常地对索引文件进行检索了。不过为了返回用户最需要的搜索结果,对于搜索意向不明显的关键词,搜索引擎会尝试分析用户的搜索意图后,再进行对索引文件的检索。


  三、搜索意图分析

  当用户搜索一些比较宽泛的关键词时,只根据关键词本身,搜索引擎并不能知道用户确切需要什么,此时就会尝试性地分析用户的搜索意图。比如,用户搜索“周迅”,搜索引擎并不知道用户到底是想要得到周迅的个人简介、最新新闻,还是周迅的相关视频、图片、音乐等。此时会触发搜索引擎的整合搜索功能,不能判断用户确切的需求,那么就把与“周迅”相关且不同方向的内容同时呈现出来,让厦门用户自由选择,这样也可以保证在搜索结果的首页就满足用户的检索需求。根据统计分析用户搜索该关键词时所关注的内容比率,搜索引擎也会调整这些内容的排名。

  当厦门用户搜索一些通用词汇时,搜索引擎会尝试参考用户所处地域的信息,返回可能是用户最需要的当地的相关信息。这就是地域性的搜索结果,也是搜索引擎分析用户搜索意图后对常规关键词匹配搜索结果的改进,使得搜索引擎结果的用户体验更加友好。

  当一个厦门用户多次搜索某一个宽泛关键词(含扩展及同义词)后,如果经常点击同一个网页,那么搜索引擎就会通过Cookie记录用户的这一行为习惯。当用户搜索点击的次数达到一定程度后,再搜索相关关键词时,搜索引擎会优先把用户经常浏览的网页排在前面,这就是“个性化搜索”结果。同上述地域性搜索一样,都是搜索引擎对用户

  搜索意图进行分析后,对常规关键词匹配搜索结果的改进。并且如果对于同一个搜索词(含扩展和同义词)搜索结果中的同一网页,搜索点击人数比例过大,也会影响到常规的网页排序,该网页对应的该搜索词相关关键词排名都会有所提升,也就是之前提到的搜索点击率问题。

  四、总结

  现在百度搜索推出了“框计算”,对用户搜索意图进行了更加深入地分析。比如,对火车票信息、飞机票信息、日历、简单数据计算等搜索词的分析和结果展现,都体现了百度在用户搜索意图分析方面的技术提升。

  搜索引擎通过对搜索词、厦门用户属性和用户历史行为的分析,来分析用户的搜索意图,这样就可以比较明确地确定搜索用户真正的需求,从而把用户最想得到的结果提供给用户。在搜索引擎分析完用户的搜索词后,先从索引库中检索与搜索词最相关、最重要的页面,进行排序后,再引入用户搜索意图对排序结果进行调整。

  五、厦门SEO优化技术之网页去重

  网页去重原理在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地进行网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。

  在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,去重步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况,或者决定是否直接屏蔽抓取。

  去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

  实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否是重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

  因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做得完全读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重量级的打击。所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创。一般如果网站权重没有大问题,都会得到健康的发展。关于原创问题,本书后续会进行详细讨论。

  另外,不仅仅是搜索引擎需要网页去重,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验满意度也会降低很多。又如SEO人员在设计流量产品大批量产生页面时,也需要做一个重复过滤,否则就会大大降低产品质量。SEO人员所设计的流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

  去重算法的大概原理一般就如上所述,厦门SEO优化有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做网页去重工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的SEO产品。作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况去重工作也可以在多个环节进行(比如对核心词的分词环节),SEO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会提改标题、改链接、改文字之类‘无聊’的需求”了。

    延伸阅读

  • 厦门seo优化方法

    当今互联网时代,搜索引擎优化(SEO)成为了网站拓展影响力和提高曝光率的重要手段。在中国的网络市场中,厦门SEO无疑是一项至关重要的策略。作为一个拥有丰富旅游资源和发展迅猛的城...

  • 厦门SEO优化用户需求分析及网页去重技术讲解

    一、厦门SEO优化-用户需求分析厦门用户需求分析可分为两个方面:一个是用户搜索词的分析,另一个是用户搜索意图的分析。用户搜索词的分析可以返回一个可能是用户需要的结果列表,通过厦...

  • 厦门seo优化提升网站权重的方法

    最近也是总有站长说自己网站权重到现在还没出来,网站流量非常低,而且也已经做了几个月时间的优化,但依旧没有让网站出权重和流量,那今天小编就来跟大家讲解一下厦门seo优化提升网站权...

本文来自投稿,不代表本人立场,如若转载,请注明出处:http://www.lnbdc.com/article/8522.html

(function(){ var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?1d7dde81dc0903e04d3ac0b9599444f6":"https://jspassport.ssl.qhimg.com/11.0.1.js?1d7dde81dc0903e04d3ac0b9599444f6"; document.write('<\/mip-script>'); })(); (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();