我要投稿 | 留言给我

百度推广信息审核的三重门

※发布时间:2016-2-24 11:06:06   ※发布作者:平民百姓   ※出自何处: 

  为大规模用户提供的互联网服务,从一开始就要提前考虑的问题是什么呢?答案是反垃圾(anti-spam)。如果互联网服务不具备反垃圾能力,正常的服务根本开展不下去,在流行起来之后分分钟会被网络垃圾摧毁。这也是为何美国第七大网站,分类目录鼻祖Craigslist只有几十个人的团队里,超过三分之二是反垃圾技术人员的原因。

  近日,百度公布了一组数据来证明自身在信息审核方面的进展与努力,披露出来的数字极为惊人。百度目前已屏蔽有害链接38亿条,站点级别已超1亿个。2015年百度的广告系统已了不良账户438300个,判罚的违规消费金额达到了4.67亿元,还为机关提供了许多造假售假线索。

  百度是世界上流量最大的网站之一,也是中国流量最大的网站,日搜索请求达60亿次以上。百度用户是最具多样性特征的,用户属性可以说是无所不包,这也正应了那句话,林子大了什么鸟都有。门类齐全的有害信息,包括违法与有害广告,都想通过百度这个平台进行,如果百度不具备相应的反垃圾技术和有害信息过滤技术,是根本做不到如今这个规模的。

  这世界上所有的搜索引擎,无一例外都会遇到类似问题。谷歌2015年全年共去除了7.8亿条违反其政策的广告,比2014年的5.24亿条增长了近50%。这个增长率比正常商业广告还快,有数不清的违法广告希望通过搜索引擎谋取利益,不把好关就了。百度也一样,每天有4.7亿条广告通过百度广告系统送审,每秒要处理5000条以上,这基本已不是人力能解决的问题了。同谷歌一样,百度也主要是通过技术手段来对广告进行审查和过滤。据披露,百度为此有专门的“黑科技”系统,负责审查甄别各种虚假违规推广内容。

  不同的反垃圾技术,在处理原则上都是一样的,首先是机器发现异常内容后提交进一步审核的预警机制、第二是发现异常内容后的批量处理机制、第三是处理完异常内容之后防止再次出现的屏蔽机制。这几个步骤说起来容易,做起来很难,尤其对百度这样流量巨大的公司来说。技术跟不上的话就只能增加人工审核力量,这会给公司造成巨额成本支出,而技术跟不上又花不起钱的话,公司迟早会被垃圾信息拖死。好在,经过十几年运营经验和技术研发的积累之后,百度已拥有了一套非常有效的机器审核过滤系统。

  以大数据为基础的“雷达系统”,是百度在审核与过滤有害信息及非法广告的一个利器,可以实现对95%以上的信息进行自动审核。这个系统与百度搜索本身有相似之处,通过将信息的IP、ID,来源,语义内容等素材进行大数据比对,从而发现有害信息及违法广告。系统拥有强大的数据采集能力,丰富的数据分析维度,还有快速而准确的瞬时数据处理能力,这其中的每一种技术都不是大多数公司所能够掌握的。

  在一个包含10万字节的word文档中,个人PC基本能做到瞬间就将相同的字词找出来,可如果需要查询的字节是10亿量级的,且来自于开发标准不同,包含各种层级体系的网页,还需要将不同维度的变量集中到一个结果中,且瞬间反应,那就不是一件容易的事情了。这首先需要相当高超的数据算法,还要有周密严谨的多个数据模型,更需要有搭建大规模计算机运算系统的能力。在互联网行业中,这些技术的总和相当于大当量“核武器”。

  当然,在目前的技术条件下,机器系统再先进也不能解决所有问题。以百度的审核与过滤系统来说,系统最多能让审核与过滤过程更有效率,成本更低,但还是有一些特别有技术含量的有害信息及非法广告,还是需要依赖人工的。例如一些使用flash技术的动态广告,提交时是正常的,几个小时后也许就变成别的了。对这类广告,虽然用系统能过滤掉大部分,但还是会有一部分需要进行人工审核。

  技术系统同人一样,无法做到见微知著,对任何细微的个性化特征都做到正确反应。在百度雷达系统里跑过一遍的信息,一定有漏网的,也一定有被冤杀的,一般情况下机器系统发现有问题但又难以下结论的信息,都会被提交到人工审核系统进行审核。目前百度的审核团队有几千人之众,这几千人负责漏杀或误杀的信息审核,三班倒24小时不间断对信息进行审核,尽量减少问题发生。

  技术和人工共同发力抵制有害信息与非法广告,并不是完结,机制与规则方面的建设其实也非常重要。百度有自己对商家的加V认证体系,按照信用等级将企业和商家分为V1、V2、V3三个级别,根据实际情况动态升级和降级,2015年四季度有27000个诚信企业升级,同时也有29700个不良商家受到了降级的惩罚。信用等级的升降完全基于客观条件得出结论,找李彦宏也是没用的。

  除了商家加V认证体系,百度口碑也是百度推广信誉体系的一个重要组成部分。百度口碑一方面是商家掌握用户口碑舆情、加强与用户互动、倾听消费者反馈的渠道,另一方面也是用户查询商家产品服务口碑、消费体验反馈、表达评价的平台。不同于其他“遍地好评”的平台,截至2016年1月,百度口碑的数据中,五星好评占79%,四星到二星的中评占15%,一星差评也有6%。

  搜索引擎是通用的流量入口,也是用户寻找互联网信息及服务的一,太多形态各异的角色想要利用这扇门达到自己的暗黑目的。对于百度来说,虽然好客人和坏客人都能给自己带来收入,但百度还是一直在严格运用各种手段将坏客人拒之门外的,因为唯有保持一个良好的在线推广运营,一个始终是良币劣币的良性网络空间,百度的长期利益才能真正得到保障。

  百度在消灭有害信息及非法推广方面的努力,包括技术上的和机制上的研发与建设,人力上财力上的投入与付出,都不会是一种无法收回的成本,而恰恰是一种相当重要的投资。百度着互联网的大门,亿万用户从百度经过,始终为用户营造良好的网络,百度,其一直对违规虚假推广的严厉打击,也值得赞许。

推荐:

相关阅读
  • 没有资料