全民参与、十万机构、百万搜索词:百度打响公立机构官网保护战
提起城市中熟悉的医院,相信大家会脱口而出一连串诸如“某某三院”、“某军某院”、“几零几医院”等一系列名字。我们很容易发现,其实我们所熟悉的医院名字基本都是俗称、简称。除去这些,还有些全国知名医院的俗称几乎让人摸不着头脑:例如因为房顶是红色所以被称为“红房子医院”的复旦大学妇产科医院和一直用着曾用名“南京皮研所”的中国医学科学院皮肤病医院。
有时仔细想想,会发现很多时候我们只知道这些医院的俗称、简称,而不知道他们的全名。对于那些跨省就医的人来说,更是很难分辨信息。而被这些复杂名称弄糊涂的,不仅仅有普通人,还有搜索引擎。
此前百度已经对超过21000家公立医院实行了品牌保护。在百度中搜索这些公立医院的全称时,搜索结果的第一位是这些公立医院的官方网站。百度希望以此来保证搜索用户可以准确地找到自己想找的公立医院。
但问题很快出现了:在搜索公立医院时,很多用户不知道这些医院的全称,或者习惯性地使用民间称呼去搜索,导致有可能无法准确找到自己真正想要就医的医院官网。
如何确保用户在不搜索全称的情况下也能准确搜索到自己想找的公立医院?百度必须尽可能全面地统计不同公立医院的简称、俗称。在没有现成统计数据的情况下,百度开始尝试“集思广益”。先是百度内部员工开始收集提交自己所知道的医院俗称,接下来又号召身边的亲戚朋友收集信息。
来自全国的公立医院资料被陆陆续续地汇总起来。但很快百度又发现,很多用户会从自己理解角度去“创造”出一些搜索关键词,光靠百度自己的力量,很难实现对于这些关键词的全面覆盖。于是百度干脆发动了群众的力量,对外公开收集信息,并在双微上打开沟通窗口。得来的信息,也要根据卫健委的名单反复核验,甚至去实地走访。
目前,百度已经为超过3万家公立医院、14.5万个词条(包括全称词、简称词、俗称词、变体词)提供保护,覆盖率高达99%。
这一场“名称之战”,才刚刚吹响战歌。
公立机构官网保护:以权威之名
实际上,除了公立医院之外,学校、景点、政府机关等公立机构都会面对类似的问题。百度“公立机构官网保护计划”正是为解决这些问题而生。通过该计划,网民在百度搜索政府机关、事业单位等公立机构时,百度将优先展示经过认证的公立机构官网或相关信息,并对搜索结果标注官方认证标识。
截至目前,百度“公立机构官网保护计划”已引入超过10万家公立机构官网,涉及700万个搜索词,覆盖了政府机关、事业单位、医院、殡仪馆、学校、博物馆、景区等公立机构,未来覆盖范畴还将持续增加。
为什么执着于做公立机构的官网保护?如果把搜索引擎比作一个码头,聚集来的人们有着不同的目的地。有人想要知道某一座城市的天气,有人想要知道某一位明星的信息。但最“古老”同时又需求量极大的目的地,一定是“寻址需求”,帮助用户找到权威官方网站发布的内容或正确的地址。换句话说,就是为用户提供权威信息,保证能让他们搭乘上安全的船只,去往正确的方向。
但“保证权威”这件事并没有想象中那么简单。搜索引擎的应用率越高、用户量越大,人与计算机之间思维模式的差异就愈发凸显。对于人类来说,建立在自己常识累积之上,可以对信息的正确与否进行一个基本的判断。但对于计算机来说,所有信息都是0和1的字符,同时也很难通过交互彻底理解搜索者的意图。计算机本身没有辨别权威的能力,那么人类是否能够按照计算机的思维逻辑,建立出一套识别体系来?
答案是确定的。
为了保证搜索的权威性,百度多年来摸索出了一套适合自己的“权威性AI系统”,通过“基础数据+搜索策略+前端展现”等手段,来保证公立机构官网的优先呈现。
首先,作为搜索引擎,百度的爬虫系统和日志系统会尽可能地穷尽网络上的海量信息数据,包括从网站的标题、内容、图片、音视频到网页间的链接指向关系等,并通过人工智能、大数据等手段,进一步分析各类数据中内外部之间的关联信息。
其次,在数据之上,百度通过自研的各种策略,进一步过滤清洗数据,降低互联网中不良数据对各类搜索效果的影响,同时进一步建立围绕官网识别和排序的自动化策略,当用户发起搜索需求时,百度会将相关官网的信息优先展现出来。
举例来讲,当用户搜索“苹果手机电池维修”时,更倾向于浏览苹果官网中的内容,而不是和关键词匹配度更高的内容。从人类思维的角度来看,多半是因为人们普遍认为在官方渠道修理手机更加安全保险。当百度通过数据识别到这种特殊情况,就会制定出专门的策略,让官网内容优先显示,以更好地满足用户需求。
最后,在前端展现上,百度通过对公立机构官网增加“官网”标志、优先展示等方式,来让用户更放心地点击进入官网。
由此我们可以清晰地看到百度在增强搜索权威性时采取的逻辑:通过丰富的用户行为累积,结合强大的数据分析能力,把人的经验转换成计算机的智能行为准则。也就是说在建立权威性AI系统的过程中,庞大的数据累积、强大的数据分析能力和AI构建能力都是缺一不可的。
全民参与“名称之战”
但技术并非万无一失,“权威性AI系统”也会遇上难题。
比较明显的例子,是前文提到的用户搜索习惯问题,不同地域的人们有着对本地机构丰富的俗称、简称,光靠百度自己的能力很难把这些关键词统统收录起来。
另外一个难点,存在于各种公立机构官网本身的的不规范性。很多公立机构在建站时完全依靠外包系统,自身又缺乏互联网方面的常识。有时会出现频繁变更域名,又不在原来域名基础上做定向跳转的情况。这样一来,即使是AI系统也很难识别出域名变化,无法进一步帮助官网进行保护。
更别说封禁IP和Robots声明这样的问题了——个别官网本身不允许搜索引擎进行抓取和收录,或是封禁了搜索的IP。对于百度这样的搜索引擎来说,不论是官网网址本身还是官网里面的内容,都无法呈现给用户。
在重重困难面前,百度仍然在借助技术手段,不断优化基础数据和搜索策略、前端展现等环节,尽力提升搜索体验。因为不论搜索引擎从PC进化到移动端,还是像今天这样打开语音交互的入口,用户对于权威信息的需求是从未改变的,这也是“名称之战”最需要获得的战果。
但显然,想要获得这一战果,仅凭改善技术是不足够的。百度也开始寻求一种新的方式,来引入更多社会公众的力量。百度“公立机构官网保护共建平台”诞生了。
当你搜索的公立机构官网不在百度保护之列,可以登陆“百度公立机构官网保护共建平台”进行反馈和数据提交,经百度审核通过后,该公立机构官网即可在搜索结果中给予官网认证、置顶和广告避让。
这场全民参与的“名称之战”,显然比仅凭一己之力来得效率高。“公立机构官网保护共建平台”上线仅一个月,就收到了来自600多位用户提交的748个网站数据,覆盖了1674个不同搜索名称。经审核后,最终上线了662个有效官网,包含1249个“常用名称”。
世界,与科技一起进化
随着科技互联网的普及,科技产品与人们的生活已经连接的非常的紧密。对于用户来说,科技产品让他们获得了丰富的信息和便利的服务,在未来还会关系到他们的出行、教育、金融、政务等等。在这样的全面覆盖之下,即使是一个小小的保护用户权益的举措,也能为整个社会带来巨大的价值。
除了百度自己在加强搜索引擎的权威性以外,我们也能看到很多企业在做着相同的努力:智能音箱正在加入越来越多的障碍人士友好功能、AI技术可以帮助人们识别出听障人士的手语、大量级的互联网平台开始向公益事业输送流量……优化自己的业务,也间接改变了世界的模样。
但是从百度公立机构官网保护计划的案例中,我们也有了新的发现。科技互联网产品本身拥有强大的连接性,也正因如此,仅仅凭借科技企业本身,不能完全实现对用户权益的保护。
相信类似的问题绝不仅仅发生在搜索引擎中。科技正在把整个世界以一种不可想象的方式捏合在一起,为了让这种组合更加安全和牢靠,仅仅依靠科技产业自己的努力是不够的。被组合在一起的每一份子,都有去参与和改变的责任。
整个世界的滚滚向前,也就在每一份子的微小改变中被推动着。