2026-01
1

2025狗屎运尾巴

By xrspook @ 8:43:35 归类于: 烂日记

2025年底破天荒在最后一天,我居然全部做完了。一开始我还以为我真的有一整天的时间去做那些东西,但就在前一天快下班的时候才被告知第2天依然有业务,所以我还是要等到那些东西结束了,我才有2025年的全体数据。前几天被告知最后的那笔数据2026-01-03才发生,但是2025-12-30又被告知,明天数据就得发生,但不确定到底要发生多少。按照那个客户的提货习惯,他下午15点过来,晚上22点结束是经常发生的事,但连一年的最后一天也搞得这么被动,何苦呢?

其它业务我确信不会发生,所以当其它业务逐渐结束的时候,我就已经在整理各种数据。日报的、月报的、季报的、年报的、分析报告的。就单个数据而言都不难,但关键是思绪太多,于是展开的时候就会混乱。比如只有日报的时候按照那个流程,基本上不会出什么乱子,因为这已经是我好多养成的习惯,但关键是如果在做日报的时候被打断、被强行要求提供什么数据,这就非常有可能连我最基础的日报都出错。理论上日报结束了,就应该是月报。跟日报不一样,月报虽然也基本上是那个套路,但因为平行的各种表格太多,而且它们之间又没有像日报有非常强的逻辑关联性,谁先谁后无所谓,但正是因为这种无所谓,就会导致可能这一次先做这个,下一次就先做那个。无论谁先谁后,只要把它们都做全是没有问题的,但关键就是会不会有漏项呢?以前我从来不担心这个问题,但现在每一次我都会一次又一次问自己会不会有漏项?之所以这样,除了因为年纪大了、记忆力没年轻的时候那么好以外,类似的表格越来越多也是一个因素。有些月报其实没有强制要求我月末最后一天就做完,但也正是因为这种非强制性,会让我直接忘掉。

季报我通常不会忘,因为比较单一。接下来就是年报以及分析报告的各类数据。这个东西在等最后一笔业务数据出来之前,我已经努力地把可以整的都先整了,但有一些实在没办法。只能把没办法的那些部分标黄,提醒自己那里要进行数据更新。同一个数据模板,我已经用了好多年。好处是对比的时候非常简单,坏处是这些年下来那套方法越来越臃肿。包含的数据越来越多,越来越细。以至于有时我觉得是不是没必要把自己逼成这个样子呢?但是作为一个强迫症患者,做加法相对来说要比做减法容易。最终依然没有减量的原因是舍不得减掉,万一有一天用得着呢?其实我真不觉得有一天真会用得着。只是我觉得虽然把这些东西都整出来费时间,但是我还是能整得出来的,前提是我及时整出来,如果时间一长了,神仙都没救。

快要到我家小区门口的时候,我发现自己踩狗屎了,那个时候我才意识到,这个2025年的尾巴我真的是狗屎运,因为晚上19点我就几乎把所有工作都做完了,虽然迟了2个小时才下班。

2025-11
11

Deepseek算是在摆烂吗

By xrspook @ 8:26:32 归类于: 烂日记

AI这东西是很火,但是经过我几天的深度使用以后,又或者说只是对数据分析这个频繁使用以后,Deepseek我越用越恼火。

在完全不知情的时候,你把数据丢给它,它噼里啪啦地发给你一大段东西,感觉很牛逼,但这只是看上去。是牛逼还是傻逼得由你自己去判断,因为那一大段话可能都是扯淡,又或者可能只有一半是对的。这个对与错,首先第一是分析方法选得对不对,分析方法都选错了,也就是方向都不对,也就没必要讨论往后的那堆废话。如果分析方法是对的,但是针对那个结果出来的描述方向却跟你料想的不一致,于是等于只对了一半。自从发现它会乱用方法分析以后,我就开始对它保持怀疑态度。

理论上它的可视化图片生成应该没什么问题了吧?但关键是它就像秀肌肉一样,噼里啪啦地又给你一大堆东西,但你只是想要拿个图来看一下,发现一下规律是不是直观,仅此而已,所以这只是一个测试性的观望,但它就是要给你很多图,组图有,单图也有,同一个图给你好几种款式。简单来说就是让你目不暇接,让你选择困难症。实际上对我这种只是要看一下效果的人来说,可能那些都不合适,我也就没必要花那么精力在某种图或者某些图上面挑选着各种款式。它只知道这组数据通常可以生成这些图,但哪些图最合适还是要由我们自己判断,有可能什么图都不合适。我不知道它为什么有这种回答思路,比如说对某种数据,我要求它给我做个箱形图,你给我做个最简单的就行,然后我就知道我用不用得上。如果我觉得我用得上,我会继续给你提要求说标签是什么,坐标轴是什么,网格线之类的具体要怎么整,但是在提出箱形图这个要求不要搞其它的情况之下,一下子就给了我四个并一个的主图,两个单独大图,用的都是同一组数据,你搞得眼花缭乱,到底要干什么呢?是要我在ABCD里选一个吗?但是你ABCD全部都写在一个脚本里,对小白来说。还要我去判断保留哪些删除哪些。我感觉这波操作是画蛇添足的。估计下一次再提要求的时候,我就要写明要一款箱形图就行了。

作图也好,统计分析也好,最重要的是数据得准,但这几天用下来,我发现一个很严重的问题。无论数据是从Excel表格上传的,还是直接从Excel里复制粘贴过去的文字,作图的时候如果用的格式化是多个列表,通常告诉我。字段长短不一致,无办法操作。为什么会不一致呢?不可能不一致!一开始的时候,我觉得是我的问题,但后来我发现当我把数据整理,然后跟DS格式化之后的那些数据对比,发现居然少了一个或者少了好几个,为什么居然会有这种事情呢?数据获取不准,分析结果毫无意义,作的那些图什么用都没有。如果说图给你好多款,你只留一款,你还能自行删减,但一波数据给它之后,它只给你格式化了部分,接着就给你结果,这个很可怕。我不知道有多少人意识到了这个问题。我不知道是不是这种东西如果你买高级会员就没有这种烦恼。当我发现了这个问题以后,我就明白到,数据给它,顶多是让它给我个建议用什么分析方法。数据源还是得从自己电脑的Excel表里面用Python去实现。一开始我不明白为什么给出的代码运行出来的结果跟DS直接给结果的数值不一样。后来我发现这个字段长度不一致的问题以后我就明白了。另外一个很神经的,还有中国人的图表肯定有中文,但是它默认给我的执行代码生成的图表中文全部是方框,要解决这个东西也很简单,就是要进行中文字体的前置设定。但牛逼的是每一次默认生成的那个代码,运行结果中文永远是方框。我都被你大数据了,你知道我是在哪里使用,你知道我处理的数据有中文,你回答我的那些所有自动生成的文字也都是中文,你怎么就觉得Python生成的那个图可能不需要特别支持中文字符呢?

综上所述,无论是数据的完整性,还是图表的合适度,Deepseek离合格的要求还很远。

2024-04
9

犯下各种错误

By xrspook @ 10:13:24 归类于: 烂日记

感觉近期我经常会犯一些这样那样的错误,有一些错误是系统性的,比如公式设置不当,这种错误修改起来很简单,但是一旦追溯,可能涉及的东西会很多。这种错误一般很难被发现,因为那些固定的公式一直以来都是那么用的,你知道那是公式,所以你不会动,但关键是某些情况发生了变化,那些位置是需要做变动的,如果这个时候没去改,系统错误就会一直延续下去。设定公式的时候,我肯定是经过多方考虑经过各种测试,之所以那个公式会使用,肯定也意味着好长一段时间我也是这般做下来没有问题。有些时候公式可能会让某些情况自动的被剔除在外,这个我是可以预测的。所以在那个时候,我就得手动验证一下公式是否合理。理论上这种事情我需要在情况发生变化的时候验证,但万一在那个时候我没有做验证呢?上个月发现的某个系统公式错误延续了我好几年的数据。虽然那个数据看上去刺眼,但实际上不影响我其它地方的数据使用,所以一直没有被发现。表格最终在报出来之前,我都经过多方验证,但是偏偏那个公式不到位的地方从来都不是我验证的范围。那次错误以后,我修正了某些公式,让那个之前从来不被我关注的地方也纳入验证。

另外一些让我出错的地方是某些数据要体现出来,但是跟前后左右都毫无关联。如果你光看纸质的表格,你会觉得出那样的错误是根本说不过去,因为不符合那里的勾稽关系,但实际上,如果看过电子表格的话会发现原来那里我没有做任何的勾稽关系,为什么那个地方会被排除在外呢?因为在出错之前,那个地方无法用公式实现。因为那个东西跟其它数据完全没有交互。如果按照以前一贯的做法,即便没有交互那个数据也不会出错,因为把月末数直接复制粘贴到期初库存那里就可以,但偏偏出错的那一次就在于那个数不知道为什么被我例外处理了。之所以会出现这个例外,是因为除了那个数以外,我都使用等于的关系来处理那一列的其它数据,理论上那个期初库存也可以用等于的公式直接取数过去,但我的公式没有覆盖到那里。所以为什么我在复制粘贴的时候没有发现这个问题呢?还有就是为什么当我做核对,当我把纸质版打印出来,再三校验的时候也没有发现这个问题呢?发现这些问题都是我自己,不是其他人告诉我出错了。被动地等待别人帮我找出问题,显然这是不可能的。

近期之所以会出现这种瑕疵,一定程度上跟我的某个心态有一点波动有关。理论上,处理数据的时候,我的注意力应该高度集中,但有些时候突然间就会冒出这么松懈的念头,为什么会这样呢?以前我从来不会这样。虽然我也明白,以前不出错,不意味着以后也没有问题。虽然主观上我已经很努力地使用各种方式避免错误的发生,但是客观上还是有一些瑕疵不定时冒出来。人无完人,但我觉得犯下这些低级错误会让我良心过意不去,虽然我也没什么好后悔的。

要彻底避免这个问题,我得挖出自己确切的病根。

2024-01
22

删不掉的健康数据

By xrspook @ 14:40:48 归类于: 烂日记

收到闲鱼的FR255以后我就去了收货地点旁边的KFC,找个位置坐下慢慢研究。根据我对佳明的了解,我知道运动数据是一定可以清空的,因为我觉得之前的卖家某些设定也挺符合我的习惯,所以我就不打算做一个恢复出厂设置,因为如果那样做的话,一些我俩都觉得很方便,但又不是默认设置的东西就得全部重来。但是到了周日,当我折腾Garmin Connect的时候,发现上面有一些健康监测的数据显然不是我的。因为上周我只在周二跑了个10K,其它时候FR235的健康监测都是处在关闭状态,但是1月18日却有好几条数据,唯一的解释就是那是之前那个卖家的。我在把FR255跟我的手机绑定之前,肯定已经手动删除了手表上所有的运动数据。那些运动数据是从去年12月初到1月18日的,数据量挺大,我没有仔细看到底怎么样,反正跑的距离很多。

FR235的健康监测是可以关闭的,绝大多数情况之下我都不会开启那个功能。因为开了那个东西就意味着随时测我的心跳,测我的步数,然后还会提醒我久坐了,要起来运动一下。FR235健康监测的步数是比较乱来的,比如有次去珠海,我坐在中巴车的最后一排,那台车又比较颠,单程下来,我在那台车上颠了6000多步。如果要日常监测,我用的是小米手环,佳明FR235只是跑步使用。但是研究了一轮又一轮以后,我发现我无论如何都无法关闭FR255的健康监测功能。某些功能可以一项一项禁止掉,比如睡眠、血氧,但是爬楼、步数、压力之类的那些东西好像根本就没办法关掉。运动数据在历史记录那里可以全部删除,但是健康记录到底在什么地方呢?起码在手表的界面是,没办法像运动记录那般轻而易举找到。我不知道恢复出厂设置的时候有没有单独删除运动数据和健康数据的选项,但显然我根本就没想过要用那个功能,所以我就没有研究过。理论上如果运动数据和健康数据都删除了,那么手表跟完全恢复出厂设置就只差一个手表的各种功能设定不一样。当我发现这个健康数据让我很囧的时候,我就开始各种尝试能不能删掉,在手机APP上午睡的数据是可以删掉的,只有一条午睡的数据。我没有研究那条午睡的数据到底是些什么东西,反正就是有很多东西在里面,但是其它的那些心率、压力之类的数据,好像我根本就没找到可以删除的地方。手机APP上找不到,于是我就去佳明的网站找,同样找不到,只能找到导出的地方,却无论如何找不到删除的按钮。为什么居然会这样呢?既然运动数据能一条一条分开,健康数据理论上也可以按天一天一天存储起来。我觉得的确也是这样的,因为周日的上午,当我把手表拿去充电的时候,发现里面的activity文件夹里有好多个零碎的小文件。最后两个小文件是1月20日,从文件的命名,我可以看出那是我两条步行的数据,其它数据是什么呢?全部都很小,而且几乎每天都有。如果之前我的确已经把卖家的运动数据全部都删除了,那么这些我看到的小文件估计就是卖家的健康数据,于是我赶紧把那些数据剪切到一个新文件夹,以防卖家自己没有存档,所以就传了一个临时的网盘给他发过去。

健康数据估计到现在为止,佳明都仍然没有一个可以删除的方案,唯一真的能把那个删掉的方法只有把账号给注销掉,但显然这对我来说绝对是不可能的,我宁愿自己的数据里混进别人的数据,也不可能删掉自己10年来的全部。我已经不记得一开始我有没有把还没用佳明之前的那些运动数据导入到佳明里面了,如果有的话,那里真的有10年的数据。拿到手表以后没有直接恢复出厂设置是因为我懒,我想继续保持一下卖家的风格,结果给自己制造了这样一个麻烦,算是一个教训吧。

2022-11
22

我想用Python

By xrspook @ 10:24:39 归类于: 烂日记

几天前我开始看关于把Python跟Excel结合的书。其实那些书一年多前我已经已经买了,只是一直都放在那里,甚至还没开封。因为同期购买的还有一大堆Power BI的书,所以Python跟SQL我都还没有开封。现在之所以开封是因为突然想到想抓取一下网上的官方新冠疫情数据。之前我没想过要自己抓取,后来发现各大门户网站的看板都只有几个月的数据。顶多只能看到今年8月,之前的就没有办法了,要怎么抓取那些数据,然后以我想要的方式展示出来,显然依靠看板是不行的。那个东西不是给我这种较真的人去看的,只是给大伙看一下今天的情况怎么样,近期的情况怎么样,而且都只是了解个大概而已。新冠疫情的数据应该是官方的,当然是找国家卫计委和各省的卫健委。国家卫健委的东西我感觉我暂时用不上,原因是颗粒度就只是到省份而已。我之所以要收集这些新冠疫情的数据,是因为我想看一下新冠疫情和我单位的业务到底有没有关系,是否因为新冠疫情的零星散发导致广东省又或者是东莞市周边的各种防疫政策突然严格起来,甚至出现区域封控,最终导致我库的业务量大受影响。因为总的来说,和我库发生业务的那些单位大都是拉到周边,跨省的偶尔也会有,但不多。相对于之前来说,今年的装卸船都没有那么繁忙,所以新冠疫情数据主要看广东省,尤其是深圳、广州、惠州、佛山这几个地方大概就差不多了。因为从东莞疾控发布的消息来看,东莞是非常看重跟它接壤的那些地市的疫情情况的。我的真实感受是广州卫健委那边还没官方宣布消息,东莞卫健委这边就已经在官方公众号上发布要对广州采取加码防控。

广东卫健委的网站,我感觉挺漂亮,没什么多余的东西,开的速度也很快。我研究了一番那个网站的源代码,好像没找出是基于什么做出来,但我总感觉从那个网址的展示形式看来非常有可能是基于WordPress的网站。从网站的头部信息看来,写脚本的那个人很用心,因为他把信息整理得非常整齐,不同类别的还会特意用个空行分隔开,css也是整理得很漂亮。那个网站如果在不同的终端查看,估计会是不一样的效果,会有针对平板或者手机之类的版本。网站做得这么细致,里面也有不少的javascript,所以会不会有反爬技术还真很难说。最终发现如果我用最初级的爬虫去抓取数据,仅仅能爬到网页头的搜索,然后就戛然而止了。或许用上一些高端的手段能把网站爬下来。但我需要的不过是其中一段少则百余字,多则几百字的东西而已。尝试太凶猛,卫健委把我的IP给封了,我连看都看不了,问题更大。所以最终我采取的措施是在Firefox浏览器上安装一个叫download them all的插件,批量下载他们的网页。在做这些事之前,我已经试过手动下载其中一个网页,然后用Python正则提取我想要的东西。事实证明批量下载网页是可行的,Python正则抓取信息也是可行的。最终问题就归结为抓取到了某些信息以后,怎么才可以让那些信息以我想要的方式表达出来。最终我要什么效果,要什么样的颗粒度,实际上我没想好,但起码离线的网页已经在手,就没什么好纠结了。

于是这也带出了我翻出那些Python跟Excel结合的书,找一下灵感。

© 2004 - 2026 我的天 | Theme by xrspook | Power by WordPress