腾讯团结清华揭晓最新产学研结果:数据中心电池设备的AI诊断服务

  • 时间:
  • 浏览:6
  • 来源:安图在线

克日,腾讯数据中心与清华大学自动化系智网中心团队的贾庆山老师互助论文被第21届IFAC国际自动控制世界大会录取。该大会为自动控制领域三大顶会之一,将于今年7月在德国柏林举行。本届大会将关注可连续资源、绿色能源、数字化和工业4.0等主题,人工智能、控制和盘算机科学日益重要的融合也将成为大会关注的焦点。

此次腾讯团结团队投中的论文全称为Predictive Maintenance of VRLA Batteries in UPS towards Reliable Data Centers (中文名称:对可靠数据中心UPS使用的VRLA电池的预测性维护)。

据先容,论文提出的电池故障检测方法,填补了此前行业针对UPS(Uninterruptible Power System,不中断电源)电池基于数据驱动的预测性维护的研究空缺,相比当前基于专家履历和阈值规则等举行判断的检测方式有更高的准确率,同时可以提前预警电池康健状态,有效提升数据中心的智能治理水平,是人工智能技术在数据中心落地应用的生动实例。

据相识,该研究结果也已经整合形成电池AI诊断服务,搭载在腾讯自研的数据中心智能运维平台——腾讯智维上,乐成支撑了腾讯深汕数据中心的电池康健治理服务交付事情,现在已笼罩了腾讯自建数据中心的数万只蓄电池。未来,将全面笼罩腾讯数据中心的几十万节电池,并面向宽大行业同伴开放。

通过人工智能对数据中心蓄电池举行预测性维护

UPS供电系统是满足数据中心供电质量的焦点部门,而蓄电池又是UPS系统中最重要的组成之一,是整个供电系统的“最后一道屏障”,在UPS系统的故障中,与蓄电池有关的原因占30%以上。如果电池故障引起UPS系统宕机,关键业务中断,将发生很大的经济损失。行业观察机构显示:金融行业的数据中心每宕机一小时的损失为1495134美元,通讯行业的数据中心每宕机一小时的损失为2066245美元。因此通过对蓄电池系统科学的运维治理、监测维护,实时发现故障隐患并实时维护更换,将极大提升数据中心连续运转的可靠性。

不中断电源系统使用的蓄电池

面临数据中心成千上万的蓄电池,通过人工智能自动化的方式举行检测和维护能极大提升效率。但现实中,AI在蓄电池故障预测的落地并不容易。首先,由于日常状态UPS中使用的蓄电池通常在浮充状态下运行,因此监控数据的信息量远不及举行放电测试所收集的数据。第二,没有统一的电池更换尺度,现有的维护计谋依赖于专家知识。第三,电池故障相关的数据量不足,使寻找高质量模型的任务具有挑战性。

此前行业关于用数据驱动电池寿命预测的研究,也多关注于电动汽车电池这类可循环使用的电池,针对UPS类等常态处于浮充状态电池的康健治理,此前未见已有研究。

针对这些问题,腾讯清华团结团队依托于腾讯智维平台提供的海量数据中心运营数据,研究了一种用于UPS中VRLA电池的预测维护的新型数据驱动技术。据先容,为了提高数据收罗和标注的效率,团队首先对电池自然老化和内部急剧衰退两种情况,提出了一种可以自动标注电池退化时间点的算法,划分以电池内阻和电压离群水平举行自动标注,制止了数据标注历程中的重复和繁重的体力劳动。然后,针对蓄电池监控数据数据量大、数据维度低的问题,应用特征工程技术对数据维度举行扩展。在完成特征工程后,研究人员划分训练了逻辑回归、随机森林、梯度提升决议树和人工神经网络模型,对蓄电池是否发生故障举行预测。实验效果讲明,AI模型对故障电池的预测准确率为98%,和现有的基于阈值的判断规则相比,AI模型平均能够提前15天预测电池的故障。

现在上述研究结果已经被研究团队整合形成电池AI诊断服务,并在腾讯自研的数据中心基础设施治理软件平台——腾讯智维平台上公布落地,笼罩了腾讯自建数据中心的数万只蓄电池。该服务能够利便地集成进现有的电池治理服务中,并能够自动对收罗到的蓄电池电压、内阻和温度数据举行分析预测。

应用数据驱动举行UPS蓄电池康健治理流程图

现场专家工程师对AI故障诊断的效果举行了连续的跟进验证,验证效果讲明,相比于原有的电池维护计谋,AI诊断服务能够越发准确地对电池的故障状态举行提前预测,同时还可以检测出超出专家知识规模的潜在电池故障,这使得数据中心的运维工程师能够对蓄电池的维护更换举行越发有针对性地计划,有效提高了蓄电池的运维效率,进一步保障数据中心的可靠性。在对腾讯天津数据中心3号楼的6880节电池举行现场实际落地验证发现,电池康健治理服务可以实现96.2%的告警准确率,且告警时间比实际故障提前5~30天,大大优于传统的基于履历规则的分析方案。

现在,腾讯团队正在逐步扩大落地规模,未来将通过智维平台,实现对腾讯几十万节电池的业务笼罩。

据相识,腾讯智维平台由服务腾讯内部的星云平台升级而来,是腾讯快要20年数据中心运营履历与智能化、云化技术相联合,自研的一款数据中心基础设施治理软件平台。通过腾讯智维平台,可以实现数据中心的智能告警、智能巡检、智能容量分析和透明化的客户体验,为全局把控、精致化治理、优化运营成本提供基础,同时也为技术专家实时、异地处置惩罚告警和数据中心的无人值守缔造可能。它可以资助客户360°掌握数据中心的运行情况,连续提升运营的质量与效率,降低成本投入,将数据中心的价值极大化。腾讯智维平台就像是数据中心的“大脑”,为腾讯数据中心赋予了细密的感知能力和快速迭代进化的能力。

腾讯智维平台功效简介

现在,腾讯智维平台已在腾讯凌驾80个大规模数据中心举行部署,笼罩了全球12个国家和地域,运营治理了凌驾100万台服务器,测点数量凌驾600万个。同时,腾讯智维也和重庆电信、广东电信等运营商和银行、证券等各行业的客户告竣了互助关系。据相识,腾讯智维平台接入部署后,为重庆电信在能耗优化方面提升30%左右,每年节约电费达百万元以上。

腾讯团结高校携手推进技术创新及应用落地

早在2006年,腾讯就围绕人才造就、团结研究和学术交流三条主线启动了腾讯高校互助项⽬,并先后与清华大学、哈尔滨工业大学、中科院盘算所、北京大学、华中科技大学、中国人民大学、南京大学、西安交通大学等多所知名高校建立团结实验室,且与众多领域专家开展产学研互助。

腾讯数据中心实地勘探研讨交流

2016年,腾讯IDC平台部与清华大学自动化系智网中心团队的赵千川、贾庆山和夏俐老师建设了数据中心自动化运维领域的产学研互助。研究事情以提升数据中心运营质量、降低运营成本和提升运营效率三个目的为出发点,经由双方多年连续耕作,已累积揭晓6篇高质量学术论文,输出7项发现专利。

腾讯数据中心和高校专业研究团队的互助研究,不仅集中在电池康健治理的研究上。在数据中心智能告警方面,研究团队提出了告警预警多维分析方案,综合设备状态、设备工艺,接纳多传感器融合以及专家知识等方法,通过对数据中心的告警数据的根因分析和关联性分析,对数据中心告警风暴举行收敛,有效淘汰冗余告警信息,实现了对数据中心设备的准确告警和提前预警,并在海量告警场景中举行告警溯源、定位根因,资助现场工程师快速定位故障,有效提升现场告警的准确性和响应效率。该方案已应用于腾讯智维平台,在近百个腾讯的数据中心中提供实际支持。

在数据中心节能方面,研究团队接纳AI技术,构建了数据中心能效预测模型,实现对数据中心能效的精准预测,并提供数据中心能效影响因子的解释性服务,同时基于能效预测模型举行自动寻优的智能分析,输出节能优化建议。该方案已在腾讯天津数据中心4号楼完成第一阶段的落地验证,实现良好的节能效果,证明AI技术在数据中心节能方面的应用价值和庞大潜力。

随着相关研究的不停深入,腾讯与清华将有更多研究结果在腾讯智维平台上落地公布,推动平台由自动化向智能化生长。

如今,数据中心智能化已成为其主要的生长偏向,作为所有互联网业务的基石,数据中心正在人工智能技术的推动下发生着运维治理的大厘革。作为世界领先的互联网公司,也是全球IaaS市场增长最快的云盘算厂商之一,腾讯全网服务器总量已经凌驾110万台,是中国首家服务器总量凌驾百万的公司,也是全球五家服务器数量过百万的公司之一。在此配景下,腾讯数据中心围绕“降本增效”的焦点诉求,不停整合自身资源与履历,加速构建基础设施层的自研技术体系。

延伸阅读:

国际自动控制团结会(IFAC,International Federation of Automatic Control)建立于1957年,是一个以国家组织为其成员的国际性学术组织,中国是首创国之一。该组织卖力定期举行控制方面的国际集会,利便控制领域的学者和工程师更好地举行学术交流。由其举行的IFAC世界大会(IFAC World Congress),于1960年起每三年召开一次,致力于反映世界规模内控制理论与应用生长的新结果和趋势,是自动控制领域公认的顶级学术集会。