2022-11
11

语音录入blog

By xrspook @ 8:39:29 归类于: 烂日记

我已经不记得连续多少回我都是前一天没说完,天天都要用下回分解。这样的好处是第二天我不需要再考虑今天要有什么话题。之所以要把一个故事拆分那么多段,是因为一年之中99%以上我都是用语记去完成语音转写录入。这个东西转写的时候会显示字数,所以我就很容易控制了。就段落文字来说,经常不知道自己到底说了多少,但是总字数这种东西还是很容易分辨的。对我来说,每天blog的字数不少于1000字,所以当我正在开展一个话题,还没说到重点就已经七八百字的时候显然我就不能一次性把事情说完,于是这也就有了把一个故事分开很多天的这种事。当然,实际上说完并不需要耗费太多时间,但问题是第二天对这件事内的容进行校对的时候会比较烦恼。说一篇blog,其实花费不了多少时间,如果灵感畅通,可能5分钟就完事了,但是校对一篇blog。虽然实际上绝大多数情况之下,我只会过一遍,除非那片东西我是打算要给某些人看,又或者是投稿到某些地方,我才会一遍又一遍的校对。即便只校对一次,1000字的东西我也起码得用10分钟甚至以上的时间。通常来说这种东西我会在电脑上完成,当我不想开电脑的时候,我也会在语记上完成,但那个时候就是用手机的虚拟键盘纠错了,显然我很不喜欢这种操作。我还是比较喜欢实体的物理键盘,而且我还不喜欢笔记本式的迷你键盘,我喜欢全键盘,虽然按数字键的几率不高,但不排除某些很长的文章、有些教程里的文章里面会有不少1234。有时,在校对的时候,我会把阿拉伯数字的123是转为汉字的,有时反过来。更多时候校对之所以耗费时间,是因为说到某些专业术语,又或者是某些名词的时候,语记不能很好识别出来。比如说当你要具体说某个手机型号的时候大概差不多是有的,但什么是大写,什么是小写显然这就不可能识别得非常到位了。那种识别又有可能有时识别成这样,有时识别成那样,一篇文章里如果多次出现那种东西,光是固定搭配就得替换好多。当然,如果一开始就知道肯定会发生这种事的话,改完第一个就做好复制,余下的那些粘贴就好。虽然我在写这篇的时候,我想到可以用这种方法,但实际上绝大多数情况之下,当我进行校对的时候,我都不是这么干,每次遇到那个词我都是重新修改,重新手工录入一遍,这样就很费时间。当我在聊某些编程、手机或者电脑相关话题的时候,经常会出现这种事情。除非那些东西完全是敲键盘出来的,否则就不能避免。如果是教程类的东西,我可能会选择敲键盘,因为实在有太多那种情况,其次是因为教程那个东西里面可能我还得引用一些别人的东西。一边写一边复制粘贴会比较顺畅。语音录入有一个东西是没办法做到的,就是当我要在某些名词上加上超链接,超链接这个东西是无法语音录入的,所以也就只能在我校对的时候,在发表之前最后加上。最后加上之前,我得先把那个网址收藏下来。

有些时候我没办法做语音录入,比如说当我要到某个地方学习或者出差,住的那个房间是双人标间,一天到晚我都得跟其他人在一起,我就找不到时间和空间做这个语音录入,在这种情况之下,我就只能敲键盘了。

2021-06
26

喜欢搜索

By xrspook @ 13:15:16 归类于: 烂日记

我到底有多么喜欢搜集资料呢?这个东西连我自己都不知道,反正一定程度上我觉得在这个问题上我会上瘾,无论是什么话题。在八卦的问题上我会上瘾,在学术的问题上我同样会上瘾。

我一直都很喜欢大学的文献检索课。那门课程教会了我们做使用查找专业文献的中文的搜索引擎以及外文的搜索引擎。这种优势大概只有在综合性大学才能有。因为如果学校不够大,估计买不起那么多个数据库的查询权限。虽然华农买了很多,但是华农的人也很多,所以我们还是会塞车。不过塞车通常只会出现在中文期刊引擎,外文引擎极少人去蹲坑。相对于中文搜索引擎来说,其实外文的那些逻辑性更强,关键词搞对了,正中目标的概率更高,而且如果找对了一篇,你就可以从那一篇引出非常多其它东西。这个是拉一个出来就引出一串的节奏,非常好玩,但在中国的文献里面拉出来的那些有可能就像我自己投机取巧那样,只是用某个案例提一下凑一下数。这种事情在综述里面最为常见,实际上当我要搜索资料的时候,绝大多数情况之下,我想要的不是这种,而是某些确切的案例,想知道某些实在的现象。

专业搜索都是有套路可言的,但是在八卦搜索方面完全要发挥你的想象力。当然如果你不通过搜索,而只通过蹲点的方式就没有这种烦恼,但是搜索出来的东西可能会更加有趣,因为你说不准什么时候就会遇到一些让你很惊喜的内容。之所以会这样,大概是因为蹲点的那些发布的模式基本上都已经固定下来,无论是内容还是编排方式。人人都从那个渠道去获取信息的话,就没什么惊喜可言,而且当你习惯的那个发布的频率以后,你还会莫名着急等待,某一次等不到的时候可能会大发脾气。之所以要在八卦搜索的时候花心思,是因为我们在国内,外国的很多东西我们都无法直接看到。倒不是因为内容真的有什么问题,而是因为某些平台早就被一枪打死了。对我们而言,我们自己也很习惯在我们熟悉的平台发布我们的信息,在中国,我们用得最多的肯定是微信微博抖音快手之类的东西,当然也会有人用一些小众的平台,又或者像我这样喜欢独立建自己的网站,写自己的blog。多年以后我觉得要保留资料的话,其实最安全的方式还是自己说了算,不把东西发在平台上,哪怕你现在觉得那是一棵大树,肯定不会倒,但是“肯定”这两个字是不存在的。yahoo这棵树够大了吧,但是还是倒了。就更不用说其它平台上面的各种非主流的,那通常只是用来试一下水。这么多年观察下来,全世界范围之内依然能够撑下去的博客系统大概只有 Google属下的blogger,以及可以在平台玩,也可以自搭的WordPress,其他的东西都是浮云。图片可以找不到,视频可以找不着,但是当文字和数据文档找不到的时候真的让人很抓狂。比如前天晚上我找不到一个Excel文件,我觉得大概是因为我没有把它命名好,所以不知道为什么就删除掉了,但幸好我在我的坚果云的回收站里把它找到并存了回来。理论上那个文件应该不存在了,但是坚果云不知道为什么仍然留着。那个文件是我2019年就删掉了的。文件里的信息很重要,因为我在那个文件里记录了Dangal在中国上映61天的全部票房信息,里面也有我自己编排的Tabata,同时也有当年我为了备战广马半程马拉松给自己制定的跑步训练计划。这些关键的信息找不到那可是天大的可惜啊,因为全部都是精心记录编排出来的。我不知道坚果云是因为什么原因,居然还可以把我那些文件存回来,因为理论上他们只有1个月/3个月的后悔药(免费用户1个月,付费用户3个月)。这是非常伟大的功能,但问题是也让人觉得有些心寒。万一我某次不小心放了一些不该放的东西进去了呢?

找回来就好,总比找不回来活在记忆的纠结中强。

2020-07
29

垃圾表格

By xrspook @ 10:49:22 归类于: 烂日记

昨天我看到一张单,上面的东西几乎没有一样是对的。表格的设置一团糟,里面的数据牛头不对马嘴,简直不知道那些人是如何填表的。他们到底是如何从一个路人甲,长进到知道该如何填那些表格的呢?为什么他们填那些表的时候不觉得那个表有问题呢?收表格的人看到表格里信息乱七八糟,对不上的他们也没有上心。明明知道错的,也不叫填表的人去改。真的没办法改吗?如果没办法改的话,为什么没有多一个审核人呢?让我觉得最郁闷的是,那个表上面居然没有一个制表人!没有打印出来的名字,也没有手签的名字。要找人负责,应该找谁呢?是因为没有制表人的签名,找人负责的时候不知道找谁,所以谁的脸都不丢吗?!自己的脸不丢,单位的脸丢光了,为什么这种事情居然会发生呢?外面的审计单位,如果真的翻到这些东西。他们肯定会觉得我们极端好笑。一张这么简单的表上面都错漏百出,其它地方出现幺蛾子太正常了。表里面的数据前后对不上,就更加不用说这张表跟那张表,今年的表跟去年的表能不能衔接,能不能对上。如果这一套东西毫无逻辑可言,这套东西想不出错实在太难了,而且也是根本不可能不出错的,而且出错的东西简直是随机播放,挑战你脑洞的极限。上周我去检查别的单位,同一个数据用在三个地方,三个不同的结果,已经让我很震惊了。一直以来,我们都用昨天我看到的那套莫名其妙的表,要不出错根本是不可能的,出错的效果可能会比上周我去检查的那个单位还要夸张、还要严重。做毫无逻辑可言的事情,即便你再勤快,也是没有用的,因为你的勤快都不得用在考虑非标上面。没有规则,所有东西都是特例,这工作还怎么进行得了!

在进行blog数据转换的时候,我更加明白到执行标准的重要性。blog是一篇一篇的写出来的,但是,要让一个blog真的体现出价值,必须积累到一定程度。这个积累必须有一定的规则,内容可以天马行空,但是组织方式得有一个套路。哪些元素是一个模式的,哪些地方不能用奇形怪状的符号,这些都是规则,只有把这些规则都严格遵守了,一篇一篇的blog加起来才是一个知识体系。只有每篇blog的内容都符合系统的识别要求,不让系统有歧义处理错误,这些文章叠加起来才能真的起到作用,而不会在往后的使用过程中导致各种瘫痪。我是个标签狂人,我会用你想到想不到的东西做标签。从前我的标签非常五花八门,各种稀奇古怪的符号都有。这让我在数据转换过程中尝尽苦头。如果我单纯地只用中文或外文的组合没有问题,因为在数据转换过程中,不会让系统产生歧义。但如果我用了一些我觉得很普通的标点符号,问题就会很大,制造出来的麻烦超乎我想象。这就是规则的重要性,如果当初我知道这些规则,我绝对不会用那些符号作为标题、分类或者标签。我知道了这些东西的危险性,所以我不用了,但我的那些同事,根本不知道他们那个非标表格的危险性,还继续一直套用。作为一个旁观者,我瑟瑟发抖啊!

不是每个人都会在工作问题上斤斤计较。随大流是绝大多数人的做法。没有进行拿来主义的经验做法是害人害己的,用之前想一想,就那么难吗?

2020-05
22

写blog与做人

By xrspook @ 8:41:02 归类于: 烂日记

2004年开始写blog,很快就要到我的周年日。不知不觉间,已经快16年了。一个习惯坚持16年,是个比较神奇的存在。貌似我的其它习惯从来都没有坚持这么长时间,通常5年是一个坎。每天都写日志,写16年,这是一个什么概念呢?在我慢吞吞的时候,一篇日志一个小时搞不定,但现在我越来越有效率了,尤其当我的初稿变成用语记语音输入,然后用PC做后期的校对以后。语音输入大概需要15分钟,校对也需要大概15分钟。外加杂七杂八的东西,大概一天下来,理论上35分钟就可以了。某些时候某些话题可能我得想很久很久,修改很多遍,那另当别论了。还记得从前我还在乎过自己写了多少篇日志,别人写了多少个评论,又或者去搜索引擎看一下自己的点击率和浏览量到底是多少,但现在,我已经彻底无欲无求了。

天天都写,我会不会遇到没有话题呢?这种事情经常会发生,尤其是周末在家里,什么都没去,一天到晚就只是在那里吃饭看电视睡觉的时候。但话题这种东西,挤挤总会有的。看电视,看一些普通到不能再普通的东西,也会可能引发一些让你喋喋不休的话题。所以有没有话题不在于你真的接触了多少东西,而在于当你接触到那些东西的时候你有没有用心去想。一些跟自己非常遥远的东西,当然无法想象,比如说你要我谈谈宇宙恒星又或者物理定律之/类的东西,我只能把那个定理抄下来给你,或者甚至我抄下来的东西也是不对的。你叫我谈感受,我只能说你不要逼迫我做那些我完全没兴趣且不懂的东西。

同样的话题,在不同的时候,可能我会有不同的感受。今天我觉得没必要谈这个,但明天我会突然想起,我在这个问题上有点看法。

写blog和做人我觉得有点类似。没人可以逼迫你一辈子都去做你不愿意去做的事。如果有件事你一直都不愿意,但你一直都得去做,这不能怪别人,只能怪为什么被逼迫了这么长时间,你居然会对那件事依然没感觉,你应该痛恨它或者对它有点喜欢。要不改变那件事,要不改变你自己。光是吐槽没有用,尤其是当你吐槽的对象只是一些无关紧要的路人甲。

在工作的时候,我经常会不知不觉地不得不帮我的猪队友擦屁股。的确,那个屁股我是可以想想办法,看怎么擦会好一点。但实际上,我非常讨厌擦屁股这种事,但是我却非常有兴趣研究那些人屁股为什么脏了,为什么他们不会自己擦。或许你会觉得我这是多管闲事,毕竟别人是在迫不得已的某些时候才找你擦屁股,你为什么要费心思全盘考虑别人的屁股用什么方法可以尽量不脏呢?教会别人不把屁股弄脏,如果弄脏是不可避免的话,教会别人擦屁股,就意味着我不需要再帮他们做这种事。让别人解脱,也是一个解脱自己的方法。多管闲事其实是为了让自己不被麻烦缠身。为别人想一大通,别人会不会感激你呢?有时他们会憎恨你!我无所谓,他们不在我脑洞大开的时候过来打搅我,我觉得就是最大的奖赏。如果人人都只是盯着自己那一亩三分地,甚至自己的事情都不做好,要让别人去帮你做,这个世界将充满麻烦。

我是个很懒惰的人,所以我要在我稍微勤快的时候多做一些,那么接下来我就可以懒惰了。

2020-03
22

折腾不同版本的WXR

By xrspook @ 22:09:44 归类于: 烂日记

我只是想把自己从前的东西重新拿出来,原来这也会很难,这是我完全没想到的。要找回那些尘封10年的文档,并不算太难,翻一下电脑也就找到了,虽然有点坎坷,因为当时备份的时候,我没有标注是哪个网站的,xml都放在一起,我以为那都是我主站的,后来,同一个日期不同的文件大小才让我觉得有蹊跷。xml文档找到了,接着要把它转化为WordPress的格式。当年用来转换文档的脚本找不到了,翻遍家里电脑的各个盘都没找到。之所以在家的电脑找不到,是因为当时干这事我是在单位完成的。所以理论上单位的电脑应该有,但是因为换过电脑,我也清理过同步盘,所以会不会也因此清理掉呢?这个我不确定。我觉得,在我转格式的时候,我仍然在用Dropbox,里面的很多东西我的确已经清理了,于是这也很好解释,为什么我家里电脑的Dropbox文件夹里找不到那个脚本。家里的电脑没有,单位的电脑可能有,但还有一种可能性,我把那上传到网盘,于是就把那同步软件里撤掉了。我只会上传到两个地方,一个是百度,一个是115。115打开很麻烦,我也懒得下载打开它的工具。百度上果然就有我要找的东西,但当我想把整个文件夹下载回来的时候,问题严重了,那里居然有4000多个文件。下大文件的时候度娘就很慢,下小文件的时候度量更慢,那是直接10KB以下的速度。我直接去网页版的度娘找到我要的东西,不在客户端里等它慢慢下载了。

东西下载回来以后,我再翻查我的日志,我需要安装一个Python。我默认安装的是现在最新的版本3.7.7,但运行脚本以后却发现才刚刚开始读取脚本,就马上报错。查找原因,原来是版本之间的语法差异。才刚刚开始就错,要运行完整个脚本,我真不知道还得修改我根本不懂的语法。所以,我把最新的Python卸载掉了,重新安装当时我就在那个版本下转换的2.6.5。2.6.5是一个什么概念?这意味着时光倒流10年。

出乎我意料,软件装好以后,我几乎没遇到困难就可以把BlogBus的文档成功转为了WordPress的格式。在下载Python的时候,我顺便下载了XAMPP,同样下载的是最新的版本。前段时间我才刚用过,觉得挺爽。我也下载了最新版的WordPress的5.3.2。同时把导入插件也装。当我试图上传,已经转过格式的xml是,上传报错。原来这才是噩梦的开始!不同版本的WordPress里的xml格式各不相同,几乎可以这么说,越往后越严格越来越严格了。于是我又安装了WordPress 3.9和2.8。3.9的WordPress在PHP 7之下马马虎虎可以运行,2.8是直接连数据库都连不上…… 于是我甚至不能从通过低版本的WordPress N轮导入导出拯救世界……

没办法,我只能研究我手头上的xml,看看和现在的标准版差多少。首先,必备填写一个WXR的版本号。在旧版本里,这条规则是这是不存在的,所以要手动加入。同样需要手动加入的就是,即文件类型,因为现在的WordPress把文章分成了post和page。把这些搞定以后,基本上正文就可以导进去了,但是分类和标签还是不行。因为现在的分类和标签,WordPress使用的是一个叫做nice name的东西,你必须在分类和标签那里,加上这个标注0才能识别的出来。评论那里,当年就试过在2.8的版本里面评论正常,但是在2.9里面,有评论的话会只剩下一条评论。研究发现,那是因为评论有了一个id号。BlogBus转码过来的东西没有id号,所以大概东西就自动覆盖了。除了这些BlogBus和WordPress之间的格式问题以外。我的文章里还有格式的=问题,因为有些东西,不完全是我自己的东西,好些是我从网络上搜集回来的。当时我保存了网页,在BlogBus发布的时候直接复制到可视化编辑器,所以格式也带入了。如果当时我懂得先把东西贴到记事本,然后再剪切粘贴一次,就不会存在这种问题。除了格式以外,从前的blog里还有图片,但经过这么多年,图片都已经失效了,链接摆在那里只会浪费加载时间和访客的期待,所以我要把图片链接也尽可能去掉。有些图片链接是我没办法去掉的,因为用正则筛选的时候会遇到一些很屌丝的句子,到了某个点,就卡住了,但实际上那并不是这个标签的结束。

搞清那些规则,总结出我的对策。一次又一次查找替换,一次又一次导入删除再导入。花了一整个下午加半个晚上的时间,我总算搞定了从前BlogBus上的BLF!文章238篇齐全,评论56条也齐全!!!其中可能会有一些小格式上毛病,但是那并不是共性的问题,后续还得靠运气慢慢修改。

非常有必要记录一下我在Notepad++上做的WordPress不同版本xml转换操作

/*操作开始*/

普通替换《channel》为《channel》《wp:wxr_version》1.1《/wp:wxr_version》 /*WP XML共性问题*/
普通替换《category domain=”category”》为《category domain=”tag”》
普通替换《dc:creator》《/dc:creator》
为《dc:creator》《![CDATA[xrspook]]》《/dc:creator》《wp:post_type》《![CDATA[post]]》《/wp:post_type》《category domain=”category”》《![CDATA[回到过去——Betty迷的独白]]》《/category》 /*《/wp:post_type》前是WP XML共性问题*/
普通替换《BR》《BR》为《BR》
普通替换《!–msnavigation–》为无
普通替换[summary_of_BLF]为[summary_of_BLF(from_rincondebetty)]
普通替换[summary_of_EcoModa]为[summary_of_EcoModa(from_rincondebetty)]
普通替换《category domain=”tag”》《![CDATA[(from_rincondebetty)]]》《/category》为无
普通替换[Yo soy Betty, la Fea]为[Yo_soy_Betty,_la_fea]
普通替换[JEA’s Writting]为[JEA’s_Writting]
普通替换”博主”为”xrspook”
普通替换《i》为无
普通替换《/i》为无

正则替换category\”》《\!\[CDATA\[(.*?)\]为category\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换tag\”》《\!\[CDATA\[(.*?)\]为post_tag\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换《[TDSFHI].*?》为无
正则替换《/[TDSFHI].*?》为无
正则替换《P.*?》为《P》
正则替换《(table|tbody|tr|td|div|span|img|script|font|hr).*?》为无
正则替换《/(table|tbody|tr|td|div|span|img|script|font).*?》为无

《wp:comment》《/wp:comment》中增加《wp:comment_id》1《/wp:comment_id》,id数字递增 /*WP XML共性问题*/

/*操作结束*/

注:请自行替换《》为<>,用尖括号那是全部都挂掉无法显示的节奏啊啊啊

这个是一次死去活来的经历啊啊啊啊啊啊啊啊啊啊啊啊!奇怪的知识又增长了不少……

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress