2021-06
26

喜欢搜索

By xrspook @ 13:15:16 归类于: 烂日记

我到底有多么喜欢搜集资料呢?这个东西连我自己都不知道,反正一定程度上我觉得在这个问题上我会上瘾,无论是什么话题。在八卦的问题上我会上瘾,在学术的问题上我同样会上瘾。

我一直都很喜欢大学的文献检索课。那门课程教会了我们做使用查找专业文献的中文的搜索引擎以及外文的搜索引擎。这种优势大概只有在综合性大学才能有。因为如果学校不够大,估计买不起那么多个数据库的查询权限。虽然华农买了很多,但是华农的人也很多,所以我们还是会塞车。不过塞车通常只会出现在中文期刊引擎,外文引擎极少人去蹲坑。相对于中文搜索引擎来说,其实外文的那些逻辑性更强,关键词搞对了,正中目标的概率更高,而且如果找对了一篇,你就可以从那一篇引出非常多其它东西。这个是拉一个出来就引出一串的节奏,非常好玩,但在中国的文献里面拉出来的那些有可能就像我自己投机取巧那样,只是用某个案例提一下凑一下数。这种事情在综述里面最为常见,实际上当我要搜索资料的时候,绝大多数情况之下,我想要的不是这种,而是某些确切的案例,想知道某些实在的现象。

专业搜索都是有套路可言的,但是在八卦搜索方面完全要发挥你的想象力。当然如果你不通过搜索,而只通过蹲点的方式就没有这种烦恼,但是搜索出来的东西可能会更加有趣,因为你说不准什么时候就会遇到一些让你很惊喜的内容。之所以会这样,大概是因为蹲点的那些发布的模式基本上都已经固定下来,无论是内容还是编排方式。人人都从那个渠道去获取信息的话,就没什么惊喜可言,而且当你习惯的那个发布的频率以后,你还会莫名着急等待,某一次等不到的时候可能会大发脾气。之所以要在八卦搜索的时候花心思,是因为我们在国内,外国的很多东西我们都无法直接看到。倒不是因为内容真的有什么问题,而是因为某些平台早就被一枪打死了。对我们而言,我们自己也很习惯在我们熟悉的平台发布我们的信息,在中国,我们用得最多的肯定是微信微博抖音快手之类的东西,当然也会有人用一些小众的平台,又或者像我这样喜欢独立建自己的网站,写自己的blog。多年以后我觉得要保留资料的话,其实最安全的方式还是自己说了算,不把东西发在平台上,哪怕你现在觉得那是一棵大树,肯定不会倒,但是“肯定”这两个字是不存在的。yahoo这棵树够大了吧,但是还是倒了。就更不用说其它平台上面的各种非主流的,那通常只是用来试一下水。这么多年观察下来,全世界范围之内依然能够撑下去的博客系统大概只有 Google属下的blogger,以及可以在平台玩,也可以自搭的WordPress,其他的东西都是浮云。图片可以找不到,视频可以找不着,但是当文字和数据文档找不到的时候真的让人很抓狂。比如前天晚上我找不到一个Excel文件,我觉得大概是因为我没有把它命名好,所以不知道为什么就删除掉了,但幸好我在我的坚果云的回收站里把它找到并存了回来。理论上那个文件应该不存在了,但是坚果云不知道为什么仍然留着。那个文件是我2019年就删掉了的。文件里的信息很重要,因为我在那个文件里记录了Dangal在中国上映61天的全部票房信息,里面也有我自己编排的Tabata,同时也有当年我为了备战广马半程马拉松给自己制定的跑步训练计划。这些关键的信息找不到那可是天大的可惜啊,因为全部都是精心记录编排出来的。我不知道坚果云是因为什么原因,居然还可以把我那些文件存回来,因为理论上他们只有1个月/3个月的后悔药(免费用户1个月,付费用户3个月)。这是非常伟大的功能,但问题是也让人觉得有些心寒。万一我某次不小心放了一些不该放的东西进去了呢?

找回来就好,总比找不回来活在记忆的纠结中强。

2020-07
29

垃圾表格

By xrspook @ 10:49:22 归类于: 烂日记

昨天我看到一张单,上面的东西几乎没有一样是对的。表格的设置一团糟,里面的数据牛头不对马嘴,简直不知道那些人是如何填表的。他们到底是如何从一个路人甲,长进到知道该如何填那些表格的呢?为什么他们填那些表的时候不觉得那个表有问题呢?收表格的人看到表格里信息乱七八糟,对不上的他们也没有上心。明明知道错的,也不叫填表的人去改。真的没办法改吗?如果没办法改的话,为什么没有多一个审核人呢?让我觉得最郁闷的是,那个表上面居然没有一个制表人!没有打印出来的名字,也没有手签的名字。要找人负责,应该找谁呢?是因为没有制表人的签名,找人负责的时候不知道找谁,所以谁的脸都不丢吗?!自己的脸不丢,单位的脸丢光了,为什么这种事情居然会发生呢?外面的审计单位,如果真的翻到这些东西。他们肯定会觉得我们极端好笑。一张这么简单的表上面都错漏百出,其它地方出现幺蛾子太正常了。表里面的数据前后对不上,就更加不用说这张表跟那张表,今年的表跟去年的表能不能衔接,能不能对上。如果这一套东西毫无逻辑可言,这套东西想不出错实在太难了,而且也是根本不可能不出错的,而且出错的东西简直是随机播放,挑战你脑洞的极限。上周我去检查别的单位,同一个数据用在三个地方,三个不同的结果,已经让我很震惊了。一直以来,我们都用昨天我看到的那套莫名其妙的表,要不出错根本是不可能的,出错的效果可能会比上周我去检查的那个单位还要夸张、还要严重。做毫无逻辑可言的事情,即便你再勤快,也是没有用的,因为你的勤快都不得用在考虑非标上面。没有规则,所有东西都是特例,这工作还怎么进行得了!

在进行blog数据转换的时候,我更加明白到执行标准的重要性。blog是一篇一篇的写出来的,但是,要让一个blog真的体现出价值,必须积累到一定程度。这个积累必须有一定的规则,内容可以天马行空,但是组织方式得有一个套路。哪些元素是一个模式的,哪些地方不能用奇形怪状的符号,这些都是规则,只有把这些规则都严格遵守了,一篇一篇的blog加起来才是一个知识体系。只有每篇blog的内容都符合系统的识别要求,不让系统有歧义处理错误,这些文章叠加起来才能真的起到作用,而不会在往后的使用过程中导致各种瘫痪。我是个标签狂人,我会用你想到想不到的东西做标签。从前我的标签非常五花八门,各种稀奇古怪的符号都有。这让我在数据转换过程中尝尽苦头。如果我单纯地只用中文或外文的组合没有问题,因为在数据转换过程中,不会让系统产生歧义。但如果我用了一些我觉得很普通的标点符号,问题就会很大,制造出来的麻烦超乎我想象。这就是规则的重要性,如果当初我知道这些规则,我绝对不会用那些符号作为标题、分类或者标签。我知道了这些东西的危险性,所以我不用了,但我的那些同事,根本不知道他们那个非标表格的危险性,还继续一直套用。作为一个旁观者,我瑟瑟发抖啊!

不是每个人都会在工作问题上斤斤计较。随大流是绝大多数人的做法。没有进行拿来主义的经验做法是害人害己的,用之前想一想,就那么难吗?

2020-05
22

写blog与做人

By xrspook @ 8:41:02 归类于: 烂日记

2004年开始写blog,很快就要到我的周年日。不知不觉间,已经快16年了。一个习惯坚持16年,是个比较神奇的存在。貌似我的其它习惯从来都没有坚持这么长时间,通常5年是一个坎。每天都写日志,写16年,这是一个什么概念呢?在我慢吞吞的时候,一篇日志一个小时搞不定,但现在我越来越有效率了,尤其当我的初稿变成用语记语音输入,然后用PC做后期的校对以后。语音输入大概需要15分钟,校对也需要大概15分钟。外加杂七杂八的东西,大概一天下来,理论上35分钟就可以了。某些时候某些话题可能我得想很久很久,修改很多遍,那另当别论了。还记得从前我还在乎过自己写了多少篇日志,别人写了多少个评论,又或者去搜索引擎看一下自己的点击率和浏览量到底是多少,但现在,我已经彻底无欲无求了。

天天都写,我会不会遇到没有话题呢?这种事情经常会发生,尤其是周末在家里,什么都没去,一天到晚就只是在那里吃饭看电视睡觉的时候。但话题这种东西,挤挤总会有的。看电视,看一些普通到不能再普通的东西,也会可能引发一些让你喋喋不休的话题。所以有没有话题不在于你真的接触了多少东西,而在于当你接触到那些东西的时候你有没有用心去想。一些跟自己非常遥远的东西,当然无法想象,比如说你要我谈谈宇宙恒星又或者物理定律之/类的东西,我只能把那个定理抄下来给你,或者甚至我抄下来的东西也是不对的。你叫我谈感受,我只能说你不要逼迫我做那些我完全没兴趣且不懂的东西。

同样的话题,在不同的时候,可能我会有不同的感受。今天我觉得没必要谈这个,但明天我会突然想起,我在这个问题上有点看法。

写blog和做人我觉得有点类似。没人可以逼迫你一辈子都去做你不愿意去做的事。如果有件事你一直都不愿意,但你一直都得去做,这不能怪别人,只能怪为什么被逼迫了这么长时间,你居然会对那件事依然没感觉,你应该痛恨它或者对它有点喜欢。要不改变那件事,要不改变你自己。光是吐槽没有用,尤其是当你吐槽的对象只是一些无关紧要的路人甲。

在工作的时候,我经常会不知不觉地不得不帮我的猪队友擦屁股。的确,那个屁股我是可以想想办法,看怎么擦会好一点。但实际上,我非常讨厌擦屁股这种事,但是我却非常有兴趣研究那些人屁股为什么脏了,为什么他们不会自己擦。或许你会觉得我这是多管闲事,毕竟别人是在迫不得已的某些时候才找你擦屁股,你为什么要费心思全盘考虑别人的屁股用什么方法可以尽量不脏呢?教会别人不把屁股弄脏,如果弄脏是不可避免的话,教会别人擦屁股,就意味着我不需要再帮他们做这种事。让别人解脱,也是一个解脱自己的方法。多管闲事其实是为了让自己不被麻烦缠身。为别人想一大通,别人会不会感激你呢?有时他们会憎恨你!我无所谓,他们不在我脑洞大开的时候过来打搅我,我觉得就是最大的奖赏。如果人人都只是盯着自己那一亩三分地,甚至自己的事情都不做好,要让别人去帮你做,这个世界将充满麻烦。

我是个很懒惰的人,所以我要在我稍微勤快的时候多做一些,那么接下来我就可以懒惰了。

2020-03
22

折腾不同版本的WXR

By xrspook @ 22:09:44 归类于: 烂日记

我只是想把自己从前的东西重新拿出来,原来这也会很难,这是我完全没想到的。要找回那些尘封10年的文档,并不算太难,翻一下电脑也就找到了,虽然有点坎坷,因为当时备份的时候,我没有标注是哪个网站的,xml都放在一起,我以为那都是我主站的,后来,同一个日期不同的文件大小才让我觉得有蹊跷。xml文档找到了,接着要把它转化为WordPress的格式。当年用来转换文档的脚本找不到了,翻遍家里电脑的各个盘都没找到。之所以在家的电脑找不到,是因为当时干这事我是在单位完成的。所以理论上单位的电脑应该有,但是因为换过电脑,我也清理过同步盘,所以会不会也因此清理掉呢?这个我不确定。我觉得,在我转格式的时候,我仍然在用Dropbox,里面的很多东西我的确已经清理了,于是这也很好解释,为什么我家里电脑的Dropbox文件夹里找不到那个脚本。家里的电脑没有,单位的电脑可能有,但还有一种可能性,我把那上传到网盘,于是就把那同步软件里撤掉了。我只会上传到两个地方,一个是百度,一个是115。115打开很麻烦,我也懒得下载打开它的工具。百度上果然就有我要找的东西,但当我想把整个文件夹下载回来的时候,问题严重了,那里居然有4000多个文件。下大文件的时候度娘就很慢,下小文件的时候度量更慢,那是直接10KB以下的速度。我直接去网页版的度娘找到我要的东西,不在客户端里等它慢慢下载了。

东西下载回来以后,我再翻查我的日志,我需要安装一个Python。我默认安装的是现在最新的版本3.7.7,但运行脚本以后却发现才刚刚开始读取脚本,就马上报错。查找原因,原来是版本之间的语法差异。才刚刚开始就错,要运行完整个脚本,我真不知道还得修改我根本不懂的语法。所以,我把最新的Python卸载掉了,重新安装当时我就在那个版本下转换的2.6.5。2.6.5是一个什么概念?这意味着时光倒流10年。

出乎我意料,软件装好以后,我几乎没遇到困难就可以把BlogBus的文档成功转为了WordPress的格式。在下载Python的时候,我顺便下载了XAMPP,同样下载的是最新的版本。前段时间我才刚用过,觉得挺爽。我也下载了最新版的WordPress的5.3.2。同时把导入插件也装。当我试图上传,已经转过格式的xml是,上传报错。原来这才是噩梦的开始!不同版本的WordPress里的xml格式各不相同,几乎可以这么说,越往后越严格越来越严格了。于是我又安装了WordPress 3.9和2.8。3.9的WordPress在PHP 7之下马马虎虎可以运行,2.8是直接连数据库都连不上…… 于是我甚至不能从通过低版本的WordPress N轮导入导出拯救世界……

没办法,我只能研究我手头上的xml,看看和现在的标准版差多少。首先,必备填写一个WXR的版本号。在旧版本里,这条规则是这是不存在的,所以要手动加入。同样需要手动加入的就是,即文件类型,因为现在的WordPress把文章分成了post和page。把这些搞定以后,基本上正文就可以导进去了,但是分类和标签还是不行。因为现在的分类和标签,WordPress使用的是一个叫做nice name的东西,你必须在分类和标签那里,加上这个标注0才能识别的出来。评论那里,当年就试过在2.8的版本里面评论正常,但是在2.9里面,有评论的话会只剩下一条评论。研究发现,那是因为评论有了一个id号。BlogBus转码过来的东西没有id号,所以大概东西就自动覆盖了。除了这些BlogBus和WordPress之间的格式问题以外。我的文章里还有格式的=问题,因为有些东西,不完全是我自己的东西,好些是我从网络上搜集回来的。当时我保存了网页,在BlogBus发布的时候直接复制到可视化编辑器,所以格式也带入了。如果当时我懂得先把东西贴到记事本,然后再剪切粘贴一次,就不会存在这种问题。除了格式以外,从前的blog里还有图片,但经过这么多年,图片都已经失效了,链接摆在那里只会浪费加载时间和访客的期待,所以我要把图片链接也尽可能去掉。有些图片链接是我没办法去掉的,因为用正则筛选的时候会遇到一些很屌丝的句子,到了某个点,就卡住了,但实际上那并不是这个标签的结束。

搞清那些规则,总结出我的对策。一次又一次查找替换,一次又一次导入删除再导入。花了一整个下午加半个晚上的时间,我总算搞定了从前BlogBus上的BLF!文章238篇齐全,评论56条也齐全!!!其中可能会有一些小格式上毛病,但是那并不是共性的问题,后续还得靠运气慢慢修改。

非常有必要记录一下我在Notepad++上做的WordPress不同版本xml转换操作

/*操作开始*/

普通替换《channel》为《channel》《wp:wxr_version》1.1《/wp:wxr_version》 /*WP XML共性问题*/
普通替换《category domain=”category”》为《category domain=”tag”》
普通替换《dc:creator》《/dc:creator》
为《dc:creator》《![CDATA[xrspook]]》《/dc:creator》《wp:post_type》《![CDATA[post]]》《/wp:post_type》《category domain=”category”》《![CDATA[回到过去——Betty迷的独白]]》《/category》 /*《/wp:post_type》前是WP XML共性问题*/
普通替换《BR》《BR》为《BR》
普通替换《!–msnavigation–》为无
普通替换[summary_of_BLF]为[summary_of_BLF(from_rincondebetty)]
普通替换[summary_of_EcoModa]为[summary_of_EcoModa(from_rincondebetty)]
普通替换《category domain=”tag”》《![CDATA[(from_rincondebetty)]]》《/category》为无
普通替换[Yo soy Betty, la Fea]为[Yo_soy_Betty,_la_fea]
普通替换[JEA’s Writting]为[JEA’s_Writting]
普通替换”博主”为”xrspook”
普通替换《i》为无
普通替换《/i》为无

正则替换category\”》《\!\[CDATA\[(.*?)\]为category\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换tag\”》《\!\[CDATA\[(.*?)\]为post_tag\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换《[TDSFHI].*?》为无
正则替换《/[TDSFHI].*?》为无
正则替换《P.*?》为《P》
正则替换《(table|tbody|tr|td|div|span|img|script|font|hr).*?》为无
正则替换《/(table|tbody|tr|td|div|span|img|script|font).*?》为无

《wp:comment》《/wp:comment》中增加《wp:comment_id》1《/wp:comment_id》,id数字递增 /*WP XML共性问题*/

/*操作结束*/

注:请自行替换《》为<>,用尖括号那是全部都挂掉无法显示的节奏啊啊啊

这个是一次死去活来的经历啊啊啊啊啊啊啊啊啊啊啊啊!奇怪的知识又增长了不少……

2020-03
20

偶遇VSCode

By xrspook @ 9:27:33 归类于: 烂日记

昨天晚上但我吃完饭回到宿舍,拖完地要去办公室之前,我跟书桌上的外婆说,今晚总算没那么多板上的任务,我会早点回来。结果我还是很晚才回宿舍,甚至比平时还要晚,因为我洗完澡的时候已经超过了晚上11点。昨天跟之前几天不一样,因为昨天单位有卸船作业,所以我还得在手提电脑上忙一阵单位的事情。我很痛恨自己的拖延症,跟之前几晚相比,昨晚我的确是很闲的,但正是因为我很闲,所以我就去看了一下自己订阅的东西,结果就发现一个,很好玩的跨平台,出自微软,轻量级的编程软件。之前基本上可以这么说,我没用过编程软件,一直用的最多的是Notepad++,但那只是个代替Windows记事本的工具。的确很便携,而且在处理代码的时候也有高亮显示,字体大小和格式很自由,体积很小,我已经用了很多年,一直觉得很爽,因为用那个东西,有后悔药。即便我按了保存,还是可以后退很多步,至于一共能后退多少,我还真没研究过,装上插件以后,可以有跟多形式的自动保存,比如当光标离开软件以后,东西就自动保存了。又或者我可以设置,多少时间就保存一次。写代码这种东西,最慌的就是改完以后才发现,没改之前更好,但是软件不能后退,没有后悔药。跟Office软件比起来,Notepad++的后悔药好用多了。因为Office软件一旦按了保存,之前的东西就后退不了了。而且Notepadd++打开文件的速度非常快,即便是很大的数据文件也没有问题,比如说,几十MB的XML文件。为什么会有那种东西?其实那个就是我WordPress导出的数据,是我10多年来blog的日志数据。我不知道如果那些东西拿去出书的话,那本书得有多少页。其实我还真有想过会不会有一天无聊地把自己的blog拿去出书。但为什么要出纸质版的书呢?电子书其实也行。把我的blog静态打包下来,就是一本电子书。

回到Notepad++加上,虽然那个东西可以用来写代码,但跟专业的写码软件比起来,还是挺不方便的。虽然其实Notepadd++也有不少插件,但是跟别人的插件比起来,好像还是欠缺点什么。如果纯粹是文字,不是代码的话,我觉得它非常优秀了。比如说我经常用来核对字幕哪里修改了。之前我并不觉得Notepad++不适合用来写代码,直到昨天我看到了那个VSCode以后。在那里保存一个后缀为HTML的文件以后,你只需在那里输入一个东西,之前之后的那些格式全部都自动生成了,而且全部都已经标记好颜色,做好了缩进。那个东西自带了emmet功能,快速写码变得易如反掌,因为只需要写一点点东西,一大串成对的代码就出来了,于是,妈妈再也不用担心我丢三落四,因为成对的代码会自动出来,代码可以出来,我觉得自动缩进不会有啥状况。一直我都在搞blog,我一直都只是在做前端的设计,看到这些功能以后,我简直震惊了,用这个东西写码,只要你有思路。只要你有灵感,写一个网页相当快捷简单。不过绝大多数时候,我觉得前端设计还是需要一些脑洞的,比如说你根本没想到可以那样做的话,你怎么可能写得出来。

因为看到那个让我兴奋的软件,而且还是便携的,直接解压使用,无需安装(但是很大,解压后200多MB),所以洗澡的时候我考虑过要不要再写一个WordPress模板,那个blog用来存放我从前做过的那些blog。那些不是我主站的blog,比如说BLF的、JEA的、以及ADR的。那里的东西有些不是我的,但是很大一部分都是我磨出来的。曾经,我在那里倾注了非常多心血。那是我曾经的兴趣所在。那些东西是我人生的一部分,但是,他们以前的家已经消失了。BlogBus没有了,点点也没有了……我觉得我应该让他们重生。

写一个网站的前端需要灵感,但网站的核心是内容。首先,我要考虑怎么把BlogBus和点点导出来的数据转化为WordPress可以理解的内容。

© 2004 - 2021 我的天 | Theme by xrspook | Power by WordPress