400-123-4657
点击量:692 时间:2024-11-04
消息,8月7日晚,腾讯云官方微信公众号公布了《关于客户“前沿数控”数据完整性损毁的技术复盘》,对“数据遗失事件”全过程展开了还原成。“数据遗失事件”所指的是北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘再次发生故障,造成文件系统元数据损毁这一事件,而该公司出售的正是腾讯云的服务。
据理解,这是腾讯云继8月6日上午《关于用户“前沿数控”数据完整性损毁及腾讯云补偿措施的解释》之后的第二次官方对此。此前声明闻文章:腾讯云对此“数据遗失事件”据仔细观察,此次腾讯云公布的“复盘通报”主要有4点信息:1、还原成了故障过程2、说明了故障原因3、发布了改良措施4、明确提出了客户建议腾讯云认为,“前沿数控”平台数据遗失除了物理因素外,人为失误是最重要原因,腾讯云为此做到了深刻印象评估:复盘找到,该故障因缘于因磁盘静默错误造成的单副本数据错误,再行再加数据迁入过程中的两次不规范的操作者,造成云盘的三副本安全性机制过热,并最后造成客户数据完整性损毁。
“前沿数控”平台数据遗失,再次发生在2018年7月20日,当天腾讯云运维人员是如何找到,又是如何尝试的组织技术专家修缮的呢?还原成故障过程及故障原因且看腾讯云还原成的全过程:当天(7月20日)上午11:57,我们的运维人员接到仓库Ⅰ空间使用率过低监测,打算发动迁往配套;在14:05时,运维人员从仓库Ⅰ自由选择了一批云盘迁往至新的仓库Ⅱ,为了加快迁往,手动重开了迁入过程中的数据校验;在20:27 迁往已完成之后,运维人员将客户的云盘采访切至仓库Ⅱ,同时为了获释空间,对仓库Ⅰ中的源数据发动了重复使用操作者;到20:30 监控找到仓库Ⅱ部分云盘经常出现IO出现异常。这个过程中牵涉到多次人为操作步骤,但“磁盘静默错误造成的单副本数据错误”这一物理过程,运维人员是无法操纵的,只有当中两次操作者是出有了“大问题”的:第一是长时间数据迁往流程配置文件打开数据校验,打开之后可以有效地找到并回避源端数据出现异常,确保迁往数据正确性,但是运维人员为了加快已完成迁往任务,违规重开了数据校验;第二是长时间数据迁往已完成之后,源仓库数据不应保有24小时,用作迁往出现异常情况下的数据恢复,但是运维人员为了尽早减少仓库使用率,违规对源仓库展开了数据重复使用。腾讯云先前如何改良?减少人工干预、优化通判机制实质上,这件事给腾讯云带给了极大的公关开销。
在复盘通报里,腾讯云真诚地得出了一些强化和改良措施:首先,我们将全面检视所有的数据流程,牵涉到数据安全的流程自动化闭环,更进一步提高我们常规运维自动化和流程化,减少人工干预。同时把全流程的数据安全校验作为系统的常进功能,不容许被重开。其次,针对物理硬盘静默数据错误,在当前用户采访路径数据校验治愈的基础上,我们优化现有通判机制,通过优先通判主副本数据块、跳过近期用户采访过的准确数据块等方法,加快找到该类错误,展开数据修缮。
公告最后,腾讯云提醒客户,实质上,腾讯云自2016年3月以来仍然在获取免费的快照功能,可以对最重要数据展开定期备份。同时出于对客户数据隐私性和安全性的考虑到,客户可以自由选择打开或者不打开这一免费功能。腾讯云敦促客户打开这一功能,更进一步提高自身数据的安全性。
双方商量完全恢复运营方案:妥协金额并未透漏,并未发布责任员工名单此前,“前沿数控”平台基于自身评估就此次故障对腾讯云明确提出了超过11016000元的赔偿拒绝,腾讯云指出这显著低于他们需要获取的方案——这也是此次双方此前没能达成协议完全一致的主要原因之一。眼下,据腾讯云方面透漏,他们正在“大力与前沿数控方商量完全恢复运营的方案”。(公众号:)显然,关键的一点是,他们最后不会达成协议多少金额的赔偿金方案,此前腾讯云14万的赔偿金+补偿方案遭拒(客户消费额的37倍),这次不会是多少?因为,这不是个例,后期其他云厂商也不会遇上类似于的问题,市场都会注目腾讯云的处理方式,却是,被“碰瓷”总不是件好事。
值得注意的是,对于这次事件中误操作的工作人员,腾讯云没严厉批评,也没发布惩处方式,预计已做到内部处置。何为磁盘静默错误?腾讯云两次公告都提到指出,腾讯云两次公告都提到一个原因:磁盘静默错误。
到底这是什么类型的错误?元凶是什么?Martin Petersen 和 Sonny Singh在《Emulex 和 Oracle 最佳实践中》一书中曾认为,数据损毁常常再次发生在载入磁盘驱动器的时候。磁盘驱动器损毁有两种基本类型:第一种是潜在扇区错误,一般来说由物理磁盘驱动器故障造成。
例如,磁盘阵列报告的文件系统加载错误。这种类型的损毁一般来说由 I/O 路径中的纠错码 (ECC) 或循环校验校验 (CRC) 检测到,经常不会自动缺失。
第二种是静默数据损毁,可在没警告的情况下再次发生,可以定义为组件故障或管理操作者疏失所造成的非蓄意数据遗失。静默数据损毁再次发生在加载或载入违宪数据时,会造成 I/O 操作者告终。
这种类型的损毁是最不具灾难性的,如果没末端到端的数据完整性检查,是没有效地的方法来检测它的。用于虚拟化服务器和多核处理器,不会减小故障存储单元造成错误的有可能。如果在应用程序或数据中心工作人员不知情的情况下再次发生这样的错误,就称作静默数据损毁。
尽管静默数据损毁比较较为少见,但它有可能长时间不被找到,从而造成代价高昂的关键业务功能无法用于的损失。造成静默数据损毁的少见元凶还包括:1、操作系统,还包括核心操作系统和设备驱动程序2、存储硬件和固件3、管理错误那么“静默数据损毁”再次发生的概率有多少呢?《Silent data corruption in SATA arrays: A solution - Josh Eddy August 2008》一书曾对静默错误展开了说明。该文获取了一组数据:一项针对NetApp数据库中150万个硬盘驱动器的学术研究在32个月内找到,8.5%的SATA磁盘不会产生静默损毁。某些磁盘阵列运营后台进程,以检验数据和RAID奇偶校验否给定,并且可以捕捉这些类型的错误。
然而,该研究还找到,后台检验过程中错失了13%的错误。这意味著——没被找到的那些错误,最后不会让企业为此承担风险、付出代价。实质上,随着网络安全愈发最重要,关于“静默数据损毁”这个领域,非常有一点各大云厂商加以注目并投放研究。
原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:K8娱乐-www.xuexiaohun.com