2024-11
27

弱鸡鸡的机房

By xrspook @ 9:35:43 归类于: 烂日记

某次单位进行电力监控的升级改造,要在半夜的时候断电进行操作。理论上大半夜没有作业,大家都在睡觉,这样的操作影响应该是最低的,但关键是第二天,整个单位的业务瘫痪了。因为浪潮的智能化系统挂掉了。我一整天都不知道是怎么回事,反正就好像单位那个刷车车船排队的网页无论如何打不开,理论上正常的话,单位早上8、9点就会有重车校验的图片以及说明,但是那一天一整天都没有,从调度信息来看,理论上那天是要装船的,但是车船记录都没有。我以为是微信在平板上登录了,但实际上没有,所以我退出了手机的微信。我还清楚记得那天是周日,因为那天傍晚吃过晚饭我回单位,但结果是当我准备从家里离开的时候,打开手机打开微信才发现单位同事找我要前几天的库存数据。一个管网络的人找我要库存数据,你们的数据就没有备份?后来我才知道,因为半夜进行电力改造,但是单位的服务器没有提前手动关掉,所以对服务器来说,等于是突然断电,突然断电导致数据丢失,并且出现莫名其妙的错误。

机房的升级改造之前,浪潮的数据库会出现错误,绝大多数情况都是缓存数据满了,于是新的数据没法写入,这时,你能看到非常明确的提示,接下来,网管同志就知道该如何做了,另外一个情况就是整个系统越用越慢,这种情况谁也说不清到底是怎么回事,但重启一下就好了。

电力监控改造是有计划的,但是管机房的人却少了这个心眼手动把数据库关掉。在机房改造之前,我不知道那里有多少设备、有多少UPS,直到周二我去询问情况的时候才被告知,现在的机房服务器的设备多了很多,UPS也大了很多,但现在的UPS蓄电池只能支撑两个小时。两个小时能做什么?即便机房24小时都有人值守,但可能打个瞌睡都不止两个小时了。

这一次也是一个周日,我们遇到了也说不准到底是什么原因的突然停电,而且是半夜停电,可想而知,服务器们又是突然就挂掉,因为那些UPS甚至无法支撑到天亮就全部耗尽了。停电的那一天,我第一走进机房,看到那些UPS蓄电池的放置场所我的第一个反应是为什么就只放半人高呢,又是周二,我才被告知,那个地板的承受能力也就只能在那个面积上面堆这么多蓄电池了。我感觉那堆蓄电池的占地大概几个平方。虽然堆起来密度已经不小了,但是它们却仅仅能支撑十几米一堵墙那么多服务器两个小时的电量,可能除了那些服务器以外,还包括空调。在改造之前,据说以前的UPS只能支撑20分钟。20分钟,我即便收到信息马上赶过来都赶不上,但2个小时,如果发生在半夜,同样无解。为什么要搞UPS呢?就是为了停电的时候还有个后路,但2个小时的设计等于没有路。既然升级机房的时候你要选择华为分布式的服务器,华为怎么可能不告诉你我至少得有多少UPS蓄电池支持才能持续运行多长时间。
UPS不能保证你一直没有问题,但起码得支撑到管理员到达现场处理或者远程处理。让我觉得非常不可理解的是为什么他们既然知道UPS在启动了、UPS的电量不足了,但是服务器却没有一个逐步保存关闭的程序。突然断电服务器肯定受损,而且那种受损是你无法预知到底损在了哪里。知道没有电,就进行逐步自动关闭,等于是模仿人工应急的操作,能把损害降到最低,为什么就没有这个自动自我关闭的设定呢?是华为自己没有这个设定,还是浪潮根本就没往这方面想?为什么其它的机房不会有这种问题,人家的UPS蓄电池到底用多久?别人的电路到底有多少条?为什么别人能保证当这一条电路不行的时候能切换到另外一条?哪怕都不行了以后,依然能保证服务器里面的东西安全。

周日的停电,除了让我们的生活非常痛苦以外,现在的后遗症很明显,就是浪潮的应用跟数据库出岔子了。整套智能化系统基本属于瘫痪的状态。突然停电算是意外的天灾,但是一次又一次在同一个问题上摔跤,依然没有一个确切的解决方案,这就是人祸。

2024-11
26

接反了?

By xrspook @ 9:50:33 归类于: 烂日记

据说周六单位的停电保安在凌晨3、4点的时候就发现了。保安是24小时值守的,他们发现是理所当然的,所以我估计是那个不值守,但却最早发现的人,我发现的时候差两分钟凌晨5点。

花了一整个上午,到接近中午12点的时候才开始用发电机给生活区这边发电。为什么要给生活区发电呢?没有电就没有水,就没办法煮饭。市政的水接进来,只有少数几个水龙头能直接使用,其它地方要用水都需要水泵加压。楼顶水箱的水估计在早上8点前就已经被大家用光。饭堂厨房设置在离市政水比较远的地方,所以不进行水泵加压,饭堂没有水,就无法做任何清洗,当然也就没办法做饭了,哪怕饭堂可以用液化石油气加热。我不知道大家的早餐吃的是什么,反正我中午接近一点的时候过饭堂的时候,午餐的那个样子跟平时的早餐没区别,一个西红柿鸡蛋汤面,另外一个是肉丝蒸陈村粉。如果没猜错的话,估计这是那天早上的早餐,早餐最终不知道他们做了什么。虽然早上送菜的把东西都送到了,但是无论是肉还是菜都需要清洗,没有水什么都做不了,所以要吃饭也就只能什么简单做什么。接近中午12点才开始有电,所以我猜最早那顿饭也到一点才会有结果,但好像在中午12点30的时候,群里就宣布可以去吃饭了,但那个时候我没看到,有电以后,我给自己冲了一杯手冲咖啡。

吃完饭以后回到办公室,看到旁边的机房开门了,于是我就进去打听到底什么情况。因为理论上有电了,服务器转起来了就应该有网了,但实际上没有网,所有WiFi都处在工作状态,但是全部都无法连接互联网。步入机房的那一刻,我就感觉到热气扑面,为什么会这样呢?机房的空调向来都是很猛的,停了几个小时电,热是正常的,但是我进去的那个感受是空调根本没有转起来。询问之后才知道,原来空调开不起来。最重要的原因是那个总控没办法从UPS转为市电。UPS在过去大半天的时间里已经耗尽,所以我进去机房的时候,那些UPS蓄电池正在充电中。充电中的蓄电池为什么就不会不可以切到市电的那条线路上呢?想想都觉得这非常不可能,总不能等到那些蓄电池都充满电了,才能切过去吧,完全不符合逻辑。同事在那里折腾了半天,然后他又打电话给另外一个同事,电话指导操作下又折腾了半天,毫无结果,最后电话里的那个同事让他打电话给总控的客服。客服听了他说的情况以后,迅速敏捷地把那个原因锁定下来,是我们接入总控的那条线接反了,火线跟零线接反了,所以在手动切换UPS的那个界面会出现神奇的返回首页、没有任何效果。同事折腾总控的时候,生活区用的是发电机发的电,打那个客服电话之前,机房的空调按重启之后,机上显示的是“反向供电”,所以也验证了那个客服线路接反的说法。不就是接个发电机,临时自己发电,这怎么也可以接反呢?同事给总控客服打电话的时候,单位的群里说,马上要从发电机重新切回市电。切回市电以后,机房里所有东西都正常了。光管亮起来的那一刻,我已经感觉到空调正常运转起来,机房里那一片没有亮起的服务器灯也终于亮起来了,虽然不是全部都亮了,但起码有一些亮起来了,意味着它们通电了。在这件事之前,我还真的不知道,原来火线跟零线反过来接部分用电器还是能运转的,而另外一些用电器,他们会对线路进行检测,比如机房的那个空调和总控。

我以为切回市电以后会一切正常,但是下午16点多的时候,又进行了连续多次的停电,17点的时候也一样,所以办公室的电脑被开了又关、关了又开。最后,我甚至有点不敢打开那个机子了,因为我好怕电源按下去,几秒之后又停电,这种事情不是我的过分担忧,而是真的就这么发生过。

没有刮大风,没有下大雨,一切都很平常,但突然就发生了这么一件不知道为什么停电的事。

2022-11
29

湿得一逼

By xrspook @ 8:52:10 归类于: 烂日记

不知道为什么,现在的天气非常的潮湿。早上起床的时候湿度94%。上班之后我发现出太阳了,所以回去把宿舍阳台的窗打开,中午吃饭的时候突然下大雨,所以我赶紧回去关窗。关窗之后,我发现宿舍的湿度已经达到了99%。湿度计最多只有两位数,即便已经达到100%了,还是没法显示出来的。这到底是什么天呢?为什么会这样?虽然可能温度不算太高,只有25℃左右,但因为湿度很大,所以整个人感觉都不好了,虽然你不会大汗淋漓,但是总感觉到处都黏黏的。走在路上也得小心翼翼,因为地上湿滑。宿舍的这种湿度让我觉得躺在床上盖着被子。但浑身的感觉都很奇怪,所以我只能开抽湿机,把室内的湿度降下去。或者你会说,也可以开空调,但是空调的滤网已经洗过,插头已经拔掉,洗过的滤网再开空调没什么问题,但是要重新把那个插头插上,就要费一番周折。11月下旬接近12月居然有100%的湿度,想想都觉得这相当不可思议。

除了这么神奇的事,还有天气变得完全不讲道理。前一刻阳光明媚,下一刻倾盆大雨,那种感觉就像是盛夏,但是盛夏还有一些预兆,比如你看到一片乌云过来,然后再开始发狂,现在没有乌云。你甚至还能看到蓝天,但是却已经在倾盆大雨。一边看到太阳,一边看到蓝天,一边在下大雨,这到底是什么情况?狐狸就是在出着太阳下雨的时候娶媳妇的。还记得多年以前,在大学思德课上老师给我们放黑泽明的《七个梦》的时候,我们全部人都被第一个故事吓得不轻。准确来说黑泽明的《七个梦》所有故事都把我们吓得不轻。虽然现在要我重新想起来,那到底是7个什么故事,除了第一个以外我已经想不出来了,但是那种恐惧还依然记忆犹新。那种出着太阳下雨的天我就永远会跟黑泽明的那个梦联系在一起。

周一潮湿得很厉害,但实际上周六日的时候我已经感觉到那个苗头,因为办公室有一股发霉的味道,是那种木制品发霉的味道。这种味道在2022年尤为明显。虽然我个人感觉好像开抽湿机的几率不算太高,但的确办公室在2022年那个味道出现得比较频繁。大概因为旁边机房的空调太好,又或者换新了,所以力度非常大,他们的温度开很低,我们的温度从来都不低,于是湿气全部都聚到我们这里。湿度还未曾达到100%,我们这里的湿度已经很变态。

我是个相信科学的人,绝大多数情况之下我不会迷信风水那种东西。现在我们办公室的这种状况,根本不是风水的问题。这是非常实在的科学,比如以前的冰箱隔热性能不好,所以一到潮湿天冰箱的面板上总是会滴汗。现在冰箱的隔热性能相对来说好一点了,所以这种情况不怎么出现了。对我们来说也一样,机房就是一个冰箱,我们是面板,几乎可以这么说,是没有做隔热的面板。只不过机房的温度没有冰箱那么低,而我们这块面板相对来说表面积又比较大。一天两天还行,长年累月都处在这种环境,是不可能不生病的,问题只是生什么病而已。

做机房不做很好的隔热,这到底是什么鬼设计。

© 2004 - 2026 我的天 | Theme by xrspook | Power by WordPress