推广 热搜: 进口  企业  未来  河南  大地  曙光  朝鲜  上海  其他  龙江 

科技开讲:谷歌每秒赚1000美元背后的技术

   日期:2012-01-06     来源:ZYD创业网    作者:zyidi    浏览:212    评论:0    

新浪科技:您说的工程师是全球部署的是吗?各个不同的地方的改动,都会影响产品的形态是吗?

郄小虎:是。我们是在同一个系统上进行开发,可以开发出针对每个国家地区的用户需要的特殊功能,针对这个功能,可以只对这个国家用户开放。在不适用的国家,会把这个功能关掉是可以选择的。

Google广告核心系统:海量存储、机器学习、实时匹配

新浪科技:刚才tiger给我们讲了工程师在做Google广告系统的时候,会面临的一些问题,我们想了解工程师在技术上面,会面临什么样,除了之前说的资金压力,他们在技术上会面临什么样的问题呢?

郄小虎:广告系统是非常大型的分布式系统,对完成每一次用户请求这个过程并不复杂,我们想象需要一个数据库存储所有广告信息,需要一个截面给广告商使用,他们通过页面他们购买的关键字,对于每一个关键字的售价和广告信息等。数字信息会被传到全球所有浏览器上去,用户在搜索时,会提供给相应匹配的广告信息展示给用户,会被回传下来,用户月底会收到帐单。

对Google最大的挑战是,我们如何相应海量的广告商数据、用户数据,每天超过十亿的客户访问量。每一次的用户请求,要进行非常复杂的竞拍过程,这里需要牵涉到上千台机器的协同工作。

相比其它部来说,搜索来讲,广告系统对搜索同步性非常高。如果搜索一个网站,网站会进行更新如果我经过一段延迟看到广告最新的内容,大家都是可以接受的。对于广告平台上的应用来讲,广告商他们经常会把一个新的广告上线,或把已有的广告下线他们会买新的关键字和进行调整,这些改动需要在新的时间内生效。

新浪科技:您能给我们总结出什么样的机制,在支撑Google的正常运转吗?

郄小虎:这个系统简单分成三大模块,首先要海量存储系统,这个系统需要存储所有用户广告商的广告数据,包括关键字、出价、预算、广告创意。同时它要记录所有的用户行为,包括每一次广告展示,每一次广告的点击、转换等等。

对于这个数据库来讲,它需要处理大量的海量数据,我们的系统中现在有超过上百万的广告客户,如果你假设每一个广告客户购买一千个关键字数据量是相当大的。

经常我们的系统需要完成一些我们的分析工作,比如说我们想知道最多的关键字是哪一个,或者说这段时间内用户搜索的关键字是哪些,这些请求是传统数据库不能完成的,是由我们工程师开发的超大容量的数据库进行支持。

第二个模块是机器学习系统。这个系统对我们记录下来的所有事件分类、分析、处理。比如我们对广告和一个关键字的相关性进行处理,我们会对一个页面上面的概念进行抽取,我们会对用户的点击,以及转换机器学习。机器学习系统会建立非常大数学模型,这是支持我们广告质量的分的核心系统。

最后一个是实时匹配系统,这个系统完成了我们竞拍过程,每一个客户请求到来之后,我们会从机器系统中找到可以匹配的广告,从当中提取的模型对请求进行预算,对每个广告进行评分,最终完成竞拍的过程,把排名前面的广告展示在前面。

廉价硬件支撑起海量存储系统

新浪科技:Google有多少机器可以用来作为存储?

郄小虎:这个属于商业机密,可以告诉你超过上万台。

新浪科技:一开始Google还穷的时候不会有上万台机器,一开始怎么解决这个问题的?

郄小虎:这个是很有趣的问题,Google一开始走的路线是以大量廉价硬件和高质量软件结合解决这个问题。

新浪科技:廉价硬件。

郄小虎:刚刚提到数据库的问题,可以从市场上买最高端的服务器和数据库,但这些数据库没有办法处理Google的访问量。我们采用的办法是用大量的廉价的机器,构成大规模的机群,这些机群用的硬件,都是你可以在市场上找到最廉价的硬件。

在早期,我记得当时Google,曾经用卡车去买来了大量废弃的内存条,我们高质量的内存条可以保证,储存数据和读出来的数据是一致的,这些低水平的内存条是不能保证这点。你写进去的是1,出来的可能是0。像这样低质量的内存条,一般人家不会要的,但Google会要,我们可以检测到,从这样的错误中如何会恢复。

新浪科技:大家比较关心的是,一个错的信息我们为什么要?难道把错的信息提供给用户吗?

郄小虎:当我们有一百台机器之后,如果有一台机器跟其它九十九台不一致,不能避免每一台都给出正确的答案,大部分给出同一个答案的应该是正确的。

新浪科技:多个机器一块来算。

郄小虎:对。很多时候是多台机器对同一个请求进行计算,进行投票的机制。在早期没有足够的资金购买高端硬件的情况下,我们工程师想到非常聪明的解决方法。

新浪科技:现在不会再做这种?

郄小虎:有一些理念直到今天被应用。我们一直相信,大规模的机群通过协同工作,可以达到高端机器不能达到的行动。

新浪科技:刚才讲到机器学习系统,机器是通过什么样的原理学习的,通过我们自己编的软件,是有归纳还是什么过程,可以做到机器的学习呢?

郄小虎:这个是数学的建模过程,简单的讲它是根据历史来预测将来。如果说,我们看到在过去大部分用户的广告请求中,我们能够发现一些模式,那么我们会把这种模式,用来对未来进行预测。

支付原则:接纳山羊作为广告费

新浪科技:我们今天实际上在最后,也想问tiger一个问题,我们看到Google今天新的CEO上任之后,有很多改变,我们想知道在最开始的时候,Google的创始人包括在现在为止,对这个系统怎么看,他们当中有好玩的小故事没有?

郄小虎:我们两位创始人对系统要求相当高,对每一个产品来讲都要求我们能打造出非常优秀的广告平台。在一开始在我们广告平台没有完全搭建之前,他们已经有了非常长远的宏伟规划,其中有一个有趣的小故事。我们在广告平台建立时需要先设计一个系统,使广告商支付他们产生的费用。

在这个系统设计开始,Google创始人提出,在电子商务不发达的国家,我们必须支持以当地接受的形式进行支付的过程。比如说你在中亚的某个地区,大部分的交易是以物异物的交易,你必须允许广告商用他养的山羊来支付广告费用。

新浪科技:现在没有人给Google交羊是吧?

郄小虎:我们希望将来有一天是会实现的。

新浪科技:今天我们和tiger回忆了Google最赚钱的体系和发展,他有哪些失败怎么走向成功,他有很多经验,希望将来Google有更多的故事跟各位分享,我们今天的活动就到这里,谢谢tiger,谢谢大家!

 
打赏
 
更多>同类新资讯
0相关评论

推荐图文
推荐新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  违规举报  |  豫ICP备14023129号