IT办公室的故事 2024-09

in #hive-1050176 months ago


图片源自:https://unsplash.com/

一不小心,过了提心吊胆的一周。

周三的时候,我们看到Broadcom发出来他们第一条有关VMware系统安全的警告和丁补。按照我们正常的工作方案,我们会向全校发出警告,并制定一个在当天紧急维护的时间段。切断系统,彻底更新。

这一次也不例外。学校和工程院总共三组VMware的虚拟环境全部宣布维护。

原本我并不打算更新vCenter服务器,只更新所有的节点就好。下下周我们戴尔就要来我们学校安装我们买了快一年的设备,那时候,我们直接安装一个新版本8.0的就好了。

运行我们虚拟环境的设备实在太老了。本来在疫情前就应该升级设备,不过因为资金问题,停滞了。

再加上疫情,钱全用到了支撑教授们网络教学上面去。老旧的硬件就又坚持了五年。到前年初春的时候,没有一组设备上面没有坏掉的东西的。

那时候我们和校OIT合并。工程院不得不在校方的要求下,掏钱买设备。原本我们是用惠普的产品,校方喜欢戴尔。没成想和戴尔基础一下子说了一整年,他们才卖给我们设备。好不容易设备到了,但是要等戴尔的人员安装,这又过了大半年。

这也是我不想更新服务器的原因,藏在学校防火墙后面,受攻击的几率不是很大。不过,同事I苦口婆心把我说动了。于是我临时决定,一起更新完了。于是乎,仓促间备份服务器,点击更新。

由于设备老旧,同时开始更新的三组虚拟环境,工程院的速度最慢。在别人已经开始更新节点的时候,我的服务器还在92%。

半小时过去了,其他系统都完事了,我还在92%的位置。眼看我们预定的当机时间窗口已经结束了,我这里还卡在剩下的8%的位置。

这下大家有点慌了。老板还在安慰,说等一晚上,看看能不能完成。反正现在所有的虚拟服务器都正常运作,就是管理中心出问题而已。

一晚上,我看了好几次,直到晚上十二点。其实六个小时前,我就知道肯定坏了。不可能这么长时间还卡在同一个地方。


第二天一早,我的眼睛还没有完全睁开,就跑到书房连入学校的网络检查。结果和前一天没有任何变化。

和团队商量,决定重新启动一下,看看会不会跳过卡壳的地方。结果发现,vCenter根本无法启动。删除更新的目录清单,大不了让系统重新下载要更新的软件,还是没有任何变化。

这时候,同事I开始自责起来,说不应该劝说我们更新服务器。

赶紧复原备份吧,已经一整天当机了。虽然是暑期,学生都放假了,但是老师们还在做自己的研究。但是打开vCenter所在的节点,发现虚拟服务器本身snapshot不见了。我们马上考虑每天Druva在AWS上面的系统备份。

马上再去寻找更新前系统升级默认的备份。系统默认的备份需要重新安装一遍vCenter,然后在restore备份中的设置。

但是我们却无法在VMware网站上找到我们系统中的版本。VMware网站上说到Broadcom的网站上去找。Broadcom的网站上却什么都没有。这会我们已经开始骂Broadcom他娘了。

本来就对Broadcom收购案不满的一群人又一次被这家公司的不作为激怒了。本来很简单的一件事,让他们搞得那么复杂。

眼瞅着我们要手动恢复原有的系统了。老板提出了一个建议。他说要不要试试把我们在亚马逊上面的备份,恢复到校放的虚拟环境中,然后在用VEEAM把服务器作为远程副本转到我们的系统上。

姜还是老的辣,能想出这么个注意来。不过也好在我们用同一个云端备份的软件。要不然还做不到。

一秒钟10mb的下传速度。我告诉大家都别等了。我一个人就够了。

就这样,再次来到晚上十二点,下传到85%。这两天92%已经成为了大家的禁句。我是真像看下传超过92%再去睡觉。不过坚持不到了。


就这样,来到了周五的早上。下传完成了。改VLAN,开机。vCenter终于又回来了。

我第一时间把消息发到Teams群里面。几个同事第一时间回复。看来都没睡。

一片欢呼,经过两天的时间,终于都恢复正常了。

这时候,同事I又小心地问了一句。那么咱们还维护安装security patch吗?

我和老板异口同声地回答:滚……