2022-11
22

我想用Python

By xrspook @ 10:24:39 归类于: 烂日记

几天前我开始看关于把Python跟Excel结合的书。其实那些书一年多前我已经已经买了,只是一直都放在那里,甚至还没开封。因为同期购买的还有一大堆Power BI的书,所以Python跟SQL我都还没有开封。现在之所以开封是因为突然想到想抓取一下网上的官方新冠疫情数据。之前我没想过要自己抓取,后来发现各大门户网站的看板都只有几个月的数据。顶多只能看到今年8月,之前的就没有办法了,要怎么抓取那些数据,然后以我想要的方式展示出来,显然依靠看板是不行的。那个东西不是给我这种较真的人去看的,只是给大伙看一下今天的情况怎么样,近期的情况怎么样,而且都只是了解个大概而已。新冠疫情的数据应该是官方的,当然是找国家卫计委和各省的卫健委。国家卫健委的东西我感觉我暂时用不上,原因是颗粒度就只是到省份而已。我之所以要收集这些新冠疫情的数据,是因为我想看一下新冠疫情和我单位的业务到底有没有关系,是否因为新冠疫情的零星散发导致广东省又或者是东莞市周边的各种防疫政策突然严格起来,甚至出现区域封控,最终导致我库的业务量大受影响。因为总的来说,和我库发生业务的那些单位大都是拉到周边,跨省的偶尔也会有,但不多。相对于之前来说,今年的装卸船都没有那么繁忙,所以新冠疫情数据主要看广东省,尤其是深圳、广州、惠州、佛山这几个地方大概就差不多了。因为从东莞疾控发布的消息来看,东莞是非常看重跟它接壤的那些地市的疫情情况的。我的真实感受是广州卫健委那边还没官方宣布消息,东莞卫健委这边就已经在官方公众号上发布要对广州采取加码防控。

广东卫健委的网站,我感觉挺漂亮,没什么多余的东西,开的速度也很快。我研究了一番那个网站的源代码,好像没找出是基于什么做出来,但我总感觉从那个网址的展示形式看来非常有可能是基于WordPress的网站。从网站的头部信息看来,写脚本的那个人很用心,因为他把信息整理得非常整齐,不同类别的还会特意用个空行分隔开,css也是整理得很漂亮。那个网站如果在不同的终端查看,估计会是不一样的效果,会有针对平板或者手机之类的版本。网站做得这么细致,里面也有不少的javascript,所以会不会有反爬技术还真很难说。最终发现如果我用最初级的爬虫去抓取数据,仅仅能爬到网页头的搜索,然后就戛然而止了。或许用上一些高端的手段能把网站爬下来。但我需要的不过是其中一段少则百余字,多则几百字的东西而已。尝试太凶猛,卫健委把我的IP给封了,我连看都看不了,问题更大。所以最终我采取的措施是在Firefox浏览器上安装一个叫download them all的插件,批量下载他们的网页。在做这些事之前,我已经试过手动下载其中一个网页,然后用Python正则提取我想要的东西。事实证明批量下载网页是可行的,Python正则抓取信息也是可行的。最终问题就归结为抓取到了某些信息以后,怎么才可以让那些信息以我想要的方式表达出来。最终我要什么效果,要什么样的颗粒度,实际上我没想好,但起码离线的网页已经在手,就没什么好纠结了。

于是这也带出了我翻出那些Python跟Excel结合的书,找一下灵感。

2022-04
28

神人们

By xrspook @ 8:41:26 归类于: 烂日记

我终于看完了《天生就会跑》这本书。虽然已经买了很多年,但是却一直没有看,总的来说这本书其实挺有意思,我喜欢这本书的节奏。一定程度上我觉得理工科的人都会喜欢这本书,因为在说明某些问题的时候,他们在应用某些数据、文献又或者是某些记录。一方面他们在展开一些跑者的故事,另一方面则是围绕超长耐力跑怎么可以才能跑得快,怎么才可以坚持下去,以及怎么可以减少伤病展开话题。

因为里面很多数据显然都是真实的,但是我却搞不懂里面所涉及的人物以及他们的故事到底是真实的还是虚构的。如果是真实的,这就类似于一个纪录片,而如果这只是虚构的,那么这就真只是一部小说而已。为什么我会觉得里面的故事是虚构的呢?因为那些人都太神了,不仅仅是跑步很神,生活的其它方面也很神,比如说那个贯穿整个故事的主角。他既是超长耐力跑的好手,也是一个极为优秀的业余拳击选手,同时也可以这么说,他是一个野人。如果把印度的那些神话故事套用进去的话,估计这个野人主角会是湿婆的追随者。因为就普通人看来,他做的所有事情都是在苦修。

超强耐力跑这个东西,起步好像就已经要50英里,牛逼一点的是上百英里,更牛逼的是在恶劣的环境下里程超过100英里。哪怕是50英里,那也几乎相当于两个标准全程马拉松的长度,而且那些绝大多数都是越野跑,是在大山中进行的,海拔经常性地大幅升降。而且行进的路线也非常恶劣。所以就一个普通人看来,干这种事的绝对是疯子、神经病,其实我也是这么觉得的。但是对于着迷的人来说,这是他们过日子的一种方式,这让他们感觉到自由。但是一定程度上,我觉得这挺矛盾。要优雅地自由,必须通过经常性习惯性的大量练习保持状态。所以对一个非全职者来说,这怎么可能轻易做到呢?如果你一根筋全部都投入到做这件事上,你哪里还会有时间和精力去工作养活自己呢?如果不能靠工作养活自己,那非常有可能就得靠赞助商维持生活,但如果这样的话你不可能不为他们做宣传,于是你的自由跟你的优雅就变得功利化了。有些专业选手以卖自己的故事以及训练方法为生,而另外一些。则是靠着自己的形象打各种广告,出席各种采访节目。如果不得不做这些事情的话,这些还算是跑者的初心吗?当初心不再的话,虽然他依然在那座山那条小径上奔跑,他还会是从前的那个感觉吗?别的不说,如果他收了人家的钱,就得为别人干活,在他练习的时候,他脑子里能没有那些东西吗?如果他脑子不是清空的,他脑子不是随时留着应对现场的任何变化,在某次练习中,他可能连自己的性命都保不住。

不过这本书里面有一个观点,我觉得是挺对的。当你跑起来,当你要超越的时候,通常来说那个目标不是为了自己,而是为了别人。小的来说可能是为了自己的亲人朋友,大的来说可能是为了某个家族,为了某个国家的荣誉,又或者是某些传统,虽然跑步这东西我觉得对手永远都是自己。

鸡血打完以后得意识到,大神是不可模仿了,找到自己的节奏和理由,跑下去就好。

2022-01
1

干活

By xrspook @ 22:40:04 归类于: 烂日记

2022年的第1天果然我又不得不花了大半天的时间工作。月末、年末所有东西叠加在一起,虽然我已经没有遇到什么幺蛾子了,但是依然花了不少时间。总的来说我觉得2021年年末的那些数据获取过程还算比较顺利的。经过这一年的调试以后,我觉得有些东西我可以做得更好。我可以再加一些判断,这样的话我获取数据的时候就可以更便捷,另外一些之前我有些想法要快速实现的功能,实际上一年下来几乎没有用到,又或者说根本没有用到,所以在2022年就没有必要继续背着那个包袱。自己制定规则,执行一段时间检验这个规则到底好不好,最终决定要不要对这个规则进行修正。没有时间的积累,这种东西根本做不了。没有用心去考虑,这个也不可能发生。

别人工作也就只是为了应付上面交办的任务,而我则从来觉得完成上面交办的工作只是一个很简单的事情而已,应该轻而易举就能做到,虽然有些时候会比较繁琐,但是那个并不是让我觉得工作让我快乐的原因。我之所以会觉得工作让我着迷,是因为我自己完全陷了进去,我在那里脑洞大开,做我想做的事。当我想做的事跟上面的意图一致的时候,效果会非常完美,但是这种事情可遇而不可求。我不明白为什么那些人工作的时候不去思考为什么要做这些?为什么要这样做?有没有更好的办法?他们的回答通常是上面叫我做我就做,上面说要这样做我就这样做。至于怎么做才更好,这个问题根本不由得我去选,即便我觉得好上面觉得不好还是不能干。我觉得这样的思路纯粹只是在推卸责任,这种人是不可能在工作上有所作为的。因为他完全处在一个迷糊的状态。万一上面叫你做的事是不对的呢?万一这种方法是很不靠谱的,但明明又有另外一些很靠谱的办法呢?谁也说不准什么时候突然间上面会突然问你,你觉得这个工作可以怎么改进。那个时候你该如何回答呢?当然,如果你回答得头头是道,这就意味着可能大批量的任务会朝你汹涌而来,你肩上的责任更多。可能会有很多的项目,也有可能要去很多地方出差,非常有可能你不得不面对一些之前你从未遇到过的问题。最让人绝望的是,即便你比别人多做很多,但实际上到手的那个钱还是差不多。如果情况是这样的话,你还愿意主动迈出第一步吗?

于是这又带出了另外一个问题,到底我们活着是为了什么?我们不为工作活着,我们为生活活着,但生活需要钱,钱来源于工作。所以实际上有时我不明白为什么我的某些网友会一直很厌倦工作。当他们还是学生的时候,他们也一样厌倦学习吗?对我来说,跟生活中的其它比起来,工作在我人生中占的比例更大。不开玩笑的说,我觉得毕业以后工作在我生命中占的比例绝对是大部分的,虽然我也做了很多乱七八糟的事情。如果人生大部分的时间都在做自己厌倦的事,日子还怎么过?反过来说,人生中有可能大部分的时间不在工作吗?

2021年那21天灵魂出窍式的出差让我深切的明白到,工作可能很霸道,生活中的其他东西,那些曾经觉得不可能放下的东西,原来不是非如此不可。

2021-11
25

数据表达

By xrspook @ 9:14:41 归类于: 烂日记

我觉得自己对数据和图表有一种痴狂,但我又不是那种很文艺的人,所以我希望图表是漂亮的,但我不会花很多精力去把图表搞得很花俏,哪怕那看上去会更漂亮。我是一个实用型的人,所以当我看到人家用一大段文字来描述数据的时候我会很自然翻一个白眼,显然那些东西最佳的表达方式是图表,哪怕你不能用图,用表也是很直观的,没有必要用一大段话把明明一目了然的东西搞得很复杂,而且一旦这样做,别人核对起来也非常麻烦,所以是什么样的脑洞才搞不出那样的东西呢?到底那么逆天的模板是谁创造出来的呢?真想把那个人揪出来打一顿,可能一顿还不解恨,要打几顿才能解决问题。创造那种表达方式的人已经够狠了,这样反人类的表达方式居然会被当作模板,一次又一次使用,那些使用的人为什么就不抗议呢?创造者的脑洞很奇葩,追随者根本就没有用大脑,没有用大脑的结果就是在套用的过程中根本不理解作者的意图,然后各种各样的错误就出现了。

数据的表达应该很舒服美观,当你把那些处理得当以后一切都是那么的舒服,但是用一种不恰当的方式强行表达,那不仅仅是影响美观,而且会让人觉得处处卡顿,有时甚至是看半天都不知道那到底是干嘛的,因为没有逻辑性可言,所以一些笔误的东西会层出不穷。最经典的笔误就是把数字倒过来写,比如15写成51。从输入者的角度考虑,这样的笔误很正常,但是从数据本身考虑,这根本是无法容忍的错误,因为一大堆数字的排列方式毫无逻辑性可言,所以出现了这些很明显的笔误,在核对的时候非常难找出原因,因为那不是重复计算或者缺少数字那么简单。核对汇总数的时候,你怎么都想不到那差值是怎么来的,唯有一个一个人肉对明细,最后发现原来是如此低级的错误。可以汇总的数据还可以快速对比出有差别,但是一些时间的数据,而且就只有一个时间的数据发生这种错误简直就在考验你的RP好不好,有没有那么好的运气能找出这样的毛病?

刚刚参加工作的时候,不知道为什么就被叫去做统计。有一次去找领导签名,那是一个很常规的报表签名,他突然问我某些数据,那时毫无准备的我根本回答不上来,然后他就来了一句,你对数字不敏感,不太适合做这个。做这个不是我主动选择,是你们安排的,如果你觉得我对数字不敏感,你完全可以找一个敏感的人去做。现在回想起来,即便突然有一天领导问我同样的问题,我依然会回答不上来。因为我的脑子就不是用来装那种数据的。我不能马上脱口回答那个问题,但是我却可以最快的速度反馈出最精准的答案,我的习惯是把数据抓在手里,而不是一直存放在脑子里。这些年下来,事实证明在这个单位我是干这个的最佳人选。如果是几年前。这个最佳人选是毋庸置疑的,而现在估计我得加上之一这两个字,但是如果综合考虑对全面性的把控,我依然是那个最佳的人选,没有之一。

正是因为我干的就是这个,所以当我看到别人在瞎整的时候,我会条件反射一脸嫌弃。

2021-07
31

什么鬼定义

By xrspook @ 12:23:21 归类于: 烂日记

每个周五回家我做的第一件事通常都是换掉身上的衣服,然后站到体脂秤上面看一下数据。通常来说,站到称上的事我一个星期就只做一次,而且每次都是在我周五回家之后。毕竟这种东西得要有类似的环境和状态才靠谱,天天测显然对我来说没必要。不同状态上的我站上去,结果肯定也是不太靠谱的。

一直以来PICOOC体脂秤为我定义的身体状态指标通常都是什么偏胖型,好一点的时候是运动型偏胖,但昨天的指标居然是运动健美型。这简直是太夸张了。一开始我是不相信那个数据的,因为比上一次高出了接近两公斤。这怎么可能呢?这一个月我已经在不断加大自己的运动量,而且在运动过程中我明显发现自己的状态已经越来越好,这样的数据增加完全没道理,唯一的解释就是大姨妈临近黄体酮增加身体的持水量也增加,但是即便这样也不应该有两公斤这么夸张的增幅。一个星期之内增加这样的数据实在让人太震惊。然后同样让人非常震惊的是在体重大幅上升的情况下,体脂率居然大幅下降,于是我就从之前的偏胖型刹那间变成了运动健美型(是不是能理解为水多了,脂肪不变,所以相对来说脂肪比例下降?)。

是不是这个状态我自己清楚,实际上我没有那么明显的变化,但为什么会得出这样的数据呢?我自己也很纳闷。就脂肪来说,我觉得首先减少的应该是内脏的脂肪,然后才是体脂。当一个人的体质你明显的看到变化的时候,实际上他的内脏脂肪已经到达了一个比较好的水平了,但现在体脂称出来的结果却是内脏脂肪好像没什么区别,但是我的体脂率却大幅下降,这显然是不合理的。体脂高还是低,我自己很清楚,用手捏一下,又或者根本不用捏,光是那种触摸感你就知道体脂还是那个样子,哪怕有一点点的降低,那也是微不足道的。所以那些大幅增加的体重到底是什么呢?之是水吗?持水率这么厉害,又或者除了水以外,万一真的有肌肉呢。但是话说回来,肌肉的构成需要蛋白质的摄入。只是进行肌肉微撕裂,没有足够的蛋白质补充,是不会有增肌种效果的,对女性来说这尤为困难。从饮食来说,单位的早餐几乎没有肉,晚餐上个星期我在单位吃两顿,但平时我吃一顿都不吃,每天晚上我就只吃牛奶麦片,所以肉类蛋白质的摄入,我就只靠一顿午餐,午餐吃的什么,那完全是买彩票,什么都有可能,有些时候很少,有些时候好一点,肉类会比较多,但不保证一定是优质蛋白质。营养摄入对比我的基础代谢以及运动消耗,实际上可能只是打了个平手,甚至摄入还小于消耗,在这种情况之下,增肌是完全是不可能的。神奇的体脂称说我的肌肉含量不降反升几个百分点,这又是什么奇葩事件。

第一次站上体脂秤的时候,我被那个体重数据震惊了,于是我又试了三次,结果还是差不多。所以这到底是怎么回事呢?大概这个谜底只有在我下一次回家,下一次站到体脂秤上面的时候才有分晓。其实,我个人觉得体重这个东西一个月测一次也就差不多了,比如说在大姨妈开始的第一天或者第二天的某个特定时间,比如说早上起床以后测会比较靠谱,其它时候因为女人激素的变化,以及各种其它因素的影响,会出现一些让人很意外的结果,比如说这次。

数据能说明很多问题,但有些时候迷信数据显然是不行的。

© 2004 - 2023 我的天 | Theme by xrspook | Power by WordPress