到目前为止,搜索引擎工程师多次否认排名算法中使用了他们自己的网站流量统计数据。可能的原因包括:
1、噪声太大,太容易作弊。看看以前做点击器,现在做百度快排的有多少,就知道作弊的市场有多大了。不仅给自己刷,还有给竞争对手刷的,把跳出率刷高。
2、不同场景,用户行为方式不同。跳出率高,不一定代表页面质量不高。
3、有的网站没有用搜索引擎的统计服务,怎么给这些网站排名?
但我们又真实地观察到用户访问数据确实影响了页面排名,这是不是有矛盾呢?人工智能也许就是答案。
回到最前面的问题,用户点击、访问等行为是否是排名因素?是的话,怎样解决噪声、作弊问题?没有用搜索引擎统计服务的网站,无法确切知道访问深度、停留时间等,这又怎么办?
可以设想一下,算法可能不把用户访问数据作为直接排名因素,但可以作为某种验证和质量控制方式,比如在传统排名算法计算出相关页面后,人工智能算法挑出与已知作弊页面有相同访问特征和其它特征的页面,降低其排名或者干脆不返回。这里要记得人工智能潜在的惊人的准确率。记得去年中Google就说过,AlphaGo当时大致相当于人类13段棋手,年底的棋局似乎验证了这很可能不是吹牛。柯洁和聂卫平等人与Master对局后都表达过大致这么个意思:看了AlphaGo/Master的棋,觉得人类一些对围棋的认识很可能是错的。
这种判断的惊人准确性,也许以后对黑帽SEO是个无法挽回的打击。如果搜索引擎算法判断一个页面是否作弊时,具有13段棋手、远远超出人类的水平和准确率,那么我们凡人该怎么作弊?
与此类似,如果网站没有使用搜索引擎的流量统计服务,人工智能可能会判断,这个网站A具有特征x, y, z…,另一堆使用了自己统计服务的网站同样具有特征x, y, z…..,预估网站A的访问深度、停留时间等和那些已知网站相同。这里,特征x, y, z……是什么,是人工智能自己学习出来的,很可能有人类意想不到、觉得毫无关系的东西。而基于人工智能的骇人能力,结论很可能是正确的。