返回首页
  主页 > SEO知识 > SEO基础 >

网页查重是什么?百度如何判断原创文章

2019-03-07 09:35 阅读:150 来源:智宇SEO自媒体

  在日常上网一般很少留意相同相似的页面,一些偶然的机会会看到一些相对重要的页面被各大网站转载。或者浏览网站的时候会看到各种各样的转帖。对于网民来说这种重复是有利的,便于大多数人看到重要的信息。但对搜索引擎来说重复的网页存在意味着这些网页至少被多处理一次,更糟糕的是在接下来的索引中可能会索引两份相同的网页。当用户查询时,在有限的查询结果中就会出现重复的网页链接。因此无论从系统效率,还是索引质量来说,重复网页都是有害的。

  网页查重技术的发展历史:

  文本复杂检测机制系统与相应的算法提出

  相似网页有以下4种情况

  A. 两个页面的内容和格式上完全相同

  B. 两个网页内容相同但格式不同

  C. 两个网页重要部分的内容相同而且格式相同

  D. 两个网页重要部分内容相同,但格式不同

  搜索引擎在网页相似问题上按照内容和格式的组合合计4种不同的形式。对网规模网页来说,网页查重只需要找到内容相同或者相似的页面,而格式上的不同可以忽视。

  网页查重的实现方法

  由于不考虑网页格式的不同,网页查重先要提前结构化网页的标题和正文,将复杂的网页转化成具有标题和正文的文档。因此网页查重也叫“文档查重”。

  文档查重第一步是特征提取:

  A. I-Match 算法

网页查重是什么?百度如何判断原创文章

  尽可能抽取一个特征,这样比较两个文档是否相似只要比较一次就可以了。I-Match算法基于一个假设。一篇文档中特别高频和特别低频的词汇往往不能反映这篇文档的本质。因此通过将文档中去掉高频和低频词频后的词汇通过排序得到一个字符串,使得签名算法获得该字符串的签名。如果其他文档和这个签名值相同,则判断为相似。
 

  B. Shingle算法

  抽取多个特征词汇,通过比较两个特征集合相似度实现文档查重。抽取多个特征的方法很多。Shingle算法是比较经典的一种算法。Shingle在英文中表示相互覆盖的瓦片。下图将5个汉字为一个Shingle的方法。好像相互覆盖的瓦片一样。由于一个文档转化成一组字符串集合。每个元素为一个Shingle。因此判断两个文档的相似性就变成了对比两个字符串集合的相似性。

网页查重是什么?百度如何判断原创文章

  Shingle算法的结论:对于长度L的文档,每隔N个汉字取一个Shingle,这样一共取到L-N+1个Shingle。可见N的取值对效率和效果影响很大。很显然N最小取2,最大取L.

  文档查重第二步是相似度计算和评价:

  I-Match 算法特征只有一个。因此只需要为文档计算一个签名值。如果两个文档签名值相同。则文档相似。大规模文档查重只需要维护一个哈希表,每来一个文档查一次哈希表,如果哈希表的槽位被置位,说明已经存在相似文档。

  Shingle算法提取多个特征,因此处理比较麻烦,具体的可以百度了解Shingle算法公式。

  这里不多介绍了。

  对一下两者算法,I-Match 算法提取特征只需要文档分词和词频比较的代价。因此提取特征比较复杂。但文档是否相似的计算简单。Shingle算法提取特征简单,但文档是否相似的计算复杂,因此各种利弊。由于Shingle算法在性能上有优异表现。因此更广泛的采用。

  文档查重第三步网页消重:

  搜索引擎

  从版权角度考虑,会尊重原创,从而过滤转载或者复制的网页。

  从页面寿命考虑,会过滤网站质量不高的网站不稳定的页面,保留大型稳定的网站页面。

  从容易实现角度考虑,最先抓取的页面保留,后面相同或者相似的页面过滤。

  总结:从搜索引擎网页查重的过程,我们能学到百度等搜索引擎是如何判断原创文章的。当然这两个算法是非常经典基础的算法。现在型的搜索引擎还有加入一些更加现代型的算法。



返回首页
利博娱乐计划 利博娱乐官网 利博娱乐APP 利博娱乐走势图 利博娱乐下载 利博娱乐官方 利博娱乐网站 利博娱乐怎么玩 利博娱乐官方 利博娱乐靠谱吗 利博娱乐代理 利博娱乐骗局 利博娱乐投注 利博娱乐倍率 利博娱乐开奖 利博娱乐漏洞