网站首页 > 手游开测> 文章内容

ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师曾梓恩: 海量

※发布时间:2018-10-1 4:11:03   ※发布作者:habao   ※出自何处: 

  金木水火土查询表ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师曾梓恩: 海量业务的SSD 质量保障

  9月27日,由云计算发展与政策论坛、数据中心联盟指导,数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC数据中心峰会”在京隆重召开。在下午“ODCC测试认证”的分论坛上ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师曾梓恩发表了题为“海量业务的SSD 质量保障”的。

  9月27日,由云计算发展与政策论坛、数据中心联盟指导,数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC数据中心峰会”在京隆重召开。在下午“ODCC测试认证”的分论坛上ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师曾梓恩发表了题为“海量业务的SSD 质量保障”的。以下为全文:

  这个PPT准备的非常好我自己觉得,因为当时我在想翻页的时候我必须要测试一下,我现在都翻到这边来了,翻回翻试一下。这带来出来一个很重要的意义,测试其实在生活中无处不在。因为对于这个世界的探索人类都常渺小的,无时无刻我们对未知世界的探索就是一种测试,这是今天我想带来的一个思想。我自认从业时间不是很长,在众位专家面前谈技术觉得有点班门弄斧,今天分享的主要是思想,主要是我自己个人工作中的经验。

  首先大家看一下这个题目,这个题目很明显就是为了应付今天这个高大上的场合出来的。但是完之后我自己有一个思考,其实海量业务+SSD+质量保障这三个东西,其实就是我们日常工作当中最常见到的。首先看一下介绍,我叫曾梓恩,是在深圳腾讯,网络平台部服务器技术组工程师,我们部门主要是负责新产品新技术的引入,就是服务器相关的,主要是硬件方面的东西。买硬件实际上就像上菜市场买菜一样,必须还得先挑选。一个新媳妇儿入门,往往先看她会不会买菜,这常重要的。所以说对于业务来说我们是帮忙买菜的,业务是大厨,我们买回来的东西好不好对于业务实际上非常关键。

  我们先看一下题目,为什么海量业务这个东西这么关键?腾讯前几天已经成为了亚洲估值市值第一的公司,实际上跟海量业务分不开。我们公司大概有一千多项业务部署在我们公司超过50万台服务器,这个在国内数据中心的体量应该是最大的,这个数量是截止到2015年的Q4。随着过去三个Q,随着云的大力发展,现在这个数量应该是又到了60万多,这个就不方便给大家透露。首先业务种类是一千多种,设备数量也非常大,而且还有这几个爷爷。我们在内部是作为支撑部门,我们把这几位都叫做祖。一个是微信、QQ、英雄联盟、云以及我们的门户业务,这些业务在腾讯营收方面占非常重要的地位,如果任何因为设备故障出现了问题,而导致营收下降,最终的责任都会在于我们硬件支撑平台这边。所以为什么我们对海量业务心怀,就是因为他们是赚钱的主。

  看完海量业务之后,为什么还要把题目SSD给扣出来?因为SSD我们其实用的也非常多,我听前辈说过一个故事,在2006、2007年左右,是英特尔的五位高管来我们公司说给我们介绍SSD。这个会开完以后,我们的人说要在数据中心中用,英特尔的老外说我以为你们是卖PC机的,现在是用英特尔的SSD放在数据中心去吗?那时候我们刚刚开始做搜索业务的时候,我们就真的是把SSD落地到搜索业务去,目前第一块买来的SSD还在数据中心运转,因为那时候SSD的寿命都非常长,当然成本也非常贵。

  SSD在腾讯的发展实际上是一个巧合,因为那时候SSD也不是大规模使用,只是一个尝鲜者引入进来。再分享一下SSD新技术的应用,腾讯是第一个在数据中心中大规模使用。因为在去年的时候,我们已经开始联合英特尔最早推出的(英文)系列的盘我们已经放到数据中心中使用了,用来取代过去运维非常麻烦的传统的(英文)SSD。我们看到其实SSD在腾讯说的这么天花乱坠,用的多么多么好,实际上在运营中会出现很多问题,丝毫不亚于低空飞成的洼地。SSD也会有一个很强大的屏障挡在我们面前,就是运营上对技术要求是很高的。首先是容量性能上的差异,有时候我们做完设备选型放在池子里,业务来选的时候会发现都是SSD为什么用在这会差不多,另外一种差这么多?第二是容量上,因为现在的产品非常多,不一定每一种供应商的产品都能达到我们的要求。还有寿命,寿命是不可描述的一个很奇怪的参数。为什么有些业务能用到死,有些业务完全觉得SSD是一个无穷无尽的东西,这跟业务常相关的。

  而说了这么多,美好的东西都是来自技术引入,而痛苦都是在运营当中。我想问一下在座有人做新技术的?干新技术的事情都是充满,凡是涉及到运营大家都会觉得非常难受。所以我们干技术工作的时候,必须要帮运营兄弟们考虑到实际应用中怎么减轻他们的工作,减少他们的工作时间,让他们回家陪老婆。

  如何解决?其实这页PPT并不是我写错了,就是这么一个简单的事情,如何解决?我们通过测试就可以解决很多不必要产生的问题。刚才线缆测试那位同事分享的东西我觉得非常对,其实一个很简单的测试动作在入场前把它测试完之后,完全就没有后面的问题。我加了一句,这是贯穿SSD生命周期的测试活动,我说一下腾讯是如何伺候五位爷爷的?

  首先先看一下测试策略,简单分成几种,一个是组件测试,一个是产品测试,还有一个是用户测试。这三个层级分别是底层、中层、高层。简单来说组件测试,我会把非常底层的东西,或者某一个单个功能去做测试,这个测试相当于非常底层、研发的测试活动。产品测试是ODCC最常见的测试用例都是在这个里面,它会对整个产品做一个灰盒子的测试。用户测试这个就可能常高层次的,这个用例也非常多。比方说我们会针对一个最近新出的一个项目,如何从(英文)里面快速把数据导到CPU里面,是一个高性能计算的软件框架,会对(英文)设备进行不一样的读写,我们会去测试这种业务系统这个东西是否好用?是否能用?

  另外,用户测试有些用户会去把不同大小SSD格式化成一样的可见容量,这时候都是我们业务自己管的,都会归到业务系统里面去。一句话讲完,从底层到高层每一个阶段都要进行不同的测试。

  再看一命周期中我们是做了什么?首先很简单买菜回来之前我们要先试吃,去超市。选型的时候我们会要求厂商提供各种各样的比较深层次的测试数据,另外还会进行产品测试,这个是由我们自己技术团队负责的。另外我们会联合用户去部署业务,比方说我们会把(英文)团队的软件拿过来,或者说联合他们去搭建一个测试,最终的目的并不是为了测试这整个系统,而只是为了测试一款产品,而部署业务这个东西是最好的一个方法,并不是一个拿大炮打蚊子的行动。后面到工厂生产这就非常关键了,这就是为什么腾讯在质量保障上付出这么多,主要是蓝色这部分。因为我相信橙色这部分每一个公司都会做到,蓝色这部分在工厂生产的时候、我们交货的时候,工厂生产产线上我们已经把测试系统推到(英文)厂商产线的前端,每一台出厂的设备都要通过我们的测试系统进行性能的确认,以交货的质量、数量,还有一些其他的配置是正确的。交货验收,当机器拿到IDC上架之后,内部的运维系统也首先会对收到的设备进行验收。运维团队拿到验收之后的收件会把操作系统还有各种各样的配置往上填充的时候,也会进行一个配置检查,在某一种OS各种功能是否正常,然后看一下设备的各种版本有没有出现问题?

  最后,交到业务手上,业务部署、业务运维系统也会对硬件进行审查。后面当运行一段时间之后出现一些故障,我们会重新返回到研发阶段这个地方,去对故障的硬件进行排查,到底是什么原因?是否是批量故障,后面再采取规避措施。退役的时候我们也不会给它检查身体,就直接扔掉了。所以整一个生命周期中我们都会进行这个测试活动,所以大家可能觉得测试是一个选项标准,但实际上没有这么简单,测试贯穿到整个生产过程,一直到它,最后也会进行这个测试。

  我们再来一下这部分主题,我们ODCC的测试标准实际上是融合了海量业务用户的经验,比方说BAT、各家运营商。还有供应商的一些专家意见是必不可少的,各位供应商还有英特尔、华为各种各样的较大供应商来一起提供专业意见。我们形成测试标准这么一个平台之后,我们可以对上进行产品质量的保障,对产品质量保障是对于用户而言我们有大客户的背书,是会比较信任这个产品。服务质量,也是会更好地提高他们的服务质量。

  我们再一下,因为最后我觉得大家可能已经有点累了,我们来聊一下哲学。关于测试的一些思考,其实就是对于人生的一个思考。测试首先是基于信任,因为如果不信任是无穷无尽的探索下去的,就像数学也会有一二一样,点到为止,再往下的我们交给。所以信任是测试的基础,必须得信任,不然你进行不了任何的测试。而测试本身的动机就是不信任,我们之所以测试它就是因为这个东西不可靠,我不相信,我要亲眼所见才相信。所以信任和不信任之间的矛盾,就是我们对测试进行的哲学思考,这就是人生,并不黑即白。所以说ODCC这个标准对于大家而言,这个组织是充分信任各位供应商,我们充分信任各位工作的,在这个基础上会进行大量验证,来消除各位客户对于行业的不信任,我们是做这样类型的事情。希望今天的分享可以给大家带来收获,感谢。

  关注中国IDC圈微信:idc-quan或微信号:821496803我们将定期推送IDC产业最新资讯

  根据研究公司IDC数据显示,自2000年代中期首次亮相以来,今年10G以太网交换机将首次损失市场份额,这是因为服务提供商和超大规模客户逐渐开始部署更快的带宽40G和100 G交换

  数据中心建设规模日益增大,采用大型的制冷解决方案,系统虽然复杂,但是能效高、节能效果明显,日益成为主流。

  在7月5日召开的百度AI开发者大会上,百度集团总裁兼COO陆奇“Apollo是最强的自动驾驶生态”,背后的PPT上共有50家Apollo合作伙伴初始合作伙伴在列,其中就包括微软。今

  自2016年以来,围绕云计算与大数据的市场竞争日益激烈。面对愈发复杂的市场格局,以及日益强劲的竞争对手,谷歌显然无法再“故作镇定”。为与亚马逊和微软相抗衡,谷歌近期