2020-03
22

折腾不同版本的WXR

By xrspook @ 22:09:44 归类于: 烂日记

我只是想把自己从前的东西重新拿出来,原来这也会很难,这是我完全没想到的。要找回那些尘封10年的文档,并不算太难,翻一下电脑也就找到了,虽然有点坎坷,因为当时备份的时候,我没有标注是哪个网站的,xml都放在一起,我以为那都是我主站的,后来,同一个日期不同的文件大小才让我觉得有蹊跷。xml文档找到了,接着要把它转化为WordPress的格式。当年用来转换文档的脚本找不到了,翻遍家里电脑的各个盘都没找到。之所以在家的电脑找不到,是因为当时干这事我是在单位完成的。所以理论上单位的电脑应该有,但是因为换过电脑,我也清理过同步盘,所以会不会也因此清理掉呢?这个我不确定。我觉得,在我转格式的时候,我仍然在用Dropbox,里面的很多东西我的确已经清理了,于是这也很好解释,为什么我家里电脑的Dropbox文件夹里找不到那个脚本。家里的电脑没有,单位的电脑可能有,但还有一种可能性,我把那上传到网盘,于是就把那同步软件里撤掉了。我只会上传到两个地方,一个是百度,一个是115。115打开很麻烦,我也懒得下载打开它的工具。百度上果然就有我要找的东西,但当我想把整个文件夹下载回来的时候,问题严重了,那里居然有4000多个文件。下大文件的时候度娘就很慢,下小文件的时候度量更慢,那是直接10KB以下的速度。我直接去网页版的度娘找到我要的东西,不在客户端里等它慢慢下载了。

东西下载回来以后,我再翻查我的日志,我需要安装一个Python。我默认安装的是现在最新的版本3.7.7,但运行脚本以后却发现才刚刚开始读取脚本,就马上报错。查找原因,原来是版本之间的语法差异。才刚刚开始就错,要运行完整个脚本,我真不知道还得修改我根本不懂的语法。所以,我把最新的Python卸载掉了,重新安装当时我就在那个版本下转换的2.6.5。2.6.5是一个什么概念?这意味着时光倒流10年。

出乎我意料,软件装好以后,我几乎没遇到困难就可以把BlogBus的文档成功转为了WordPress的格式。在下载Python的时候,我顺便下载了XAMPP,同样下载的是最新的版本。前段时间我才刚用过,觉得挺爽。我也下载了最新版的WordPress的5.3.2。同时把导入插件也装。当我试图上传,已经转过格式的xml是,上传报错。原来这才是噩梦的开始!不同版本的WordPress里的xml格式各不相同,几乎可以这么说,越往后越严格越来越严格了。于是我又安装了WordPress 3.9和2.8。3.9的WordPress在PHP 7之下马马虎虎可以运行,2.8是直接连数据库都连不上…… 于是我甚至不能从通过低版本的WordPress N轮导入导出拯救世界……

没办法,我只能研究我手头上的xml,看看和现在的标准版差多少。首先,必备填写一个WXR的版本号。在旧版本里,这条规则是这是不存在的,所以要手动加入。同样需要手动加入的就是,即文件类型,因为现在的WordPress把文章分成了post和page。把这些搞定以后,基本上正文就可以导进去了,但是分类和标签还是不行。因为现在的分类和标签,WordPress使用的是一个叫做nice name的东西,你必须在分类和标签那里,加上这个标注0才能识别的出来。评论那里,当年就试过在2.8的版本里面评论正常,但是在2.9里面,有评论的话会只剩下一条评论。研究发现,那是因为评论有了一个id号。BlogBus转码过来的东西没有id号,所以大概东西就自动覆盖了。除了这些BlogBus和WordPress之间的格式问题以外。我的文章里还有格式的=问题,因为有些东西,不完全是我自己的东西,好些是我从网络上搜集回来的。当时我保存了网页,在BlogBus发布的时候直接复制到可视化编辑器,所以格式也带入了。如果当时我懂得先把东西贴到记事本,然后再剪切粘贴一次,就不会存在这种问题。除了格式以外,从前的blog里还有图片,但经过这么多年,图片都已经失效了,链接摆在那里只会浪费加载时间和访客的期待,所以我要把图片链接也尽可能去掉。有些图片链接是我没办法去掉的,因为用正则筛选的时候会遇到一些很屌丝的句子,到了某个点,就卡住了,但实际上那并不是这个标签的结束。

搞清那些规则,总结出我的对策。一次又一次查找替换,一次又一次导入删除再导入。花了一整个下午加半个晚上的时间,我总算搞定了从前BlogBus上的BLF!文章238篇齐全,评论56条也齐全!!!其中可能会有一些小格式上毛病,但是那并不是共性的问题,后续还得靠运气慢慢修改。

非常有必要记录一下我在Notepad++上做的WordPress不同版本xml转换操作

/*操作开始*/

普通替换《channel》为《channel》《wp:wxr_version》1.1《/wp:wxr_version》 /*WP XML共性问题*/
普通替换《category domain=”category”》为《category domain=”tag”》
普通替换《dc:creator》《/dc:creator》
为《dc:creator》《![CDATA[xrspook]]》《/dc:creator》《wp:post_type》《![CDATA[post]]》《/wp:post_type》《category domain=”category”》《![CDATA[回到过去——Betty迷的独白]]》《/category》 /*《/wp:post_type》前是WP XML共性问题*/
普通替换《BR》《BR》为《BR》
普通替换《!–msnavigation–》为无
普通替换[summary_of_BLF]为[summary_of_BLF(from_rincondebetty)]
普通替换[summary_of_EcoModa]为[summary_of_EcoModa(from_rincondebetty)]
普通替换《category domain=”tag”》《![CDATA[(from_rincondebetty)]]》《/category》为无
普通替换[Yo soy Betty, la Fea]为[Yo_soy_Betty,_la_fea]
普通替换[JEA’s Writting]为[JEA’s_Writting]
普通替换”博主”为”xrspook”
普通替换《i》为无
普通替换《/i》为无

正则替换category\”》《\!\[CDATA\[(.*?)\]为category\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换tag\”》《\!\[CDATA\[(.*?)\]为post_tag\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换《[TDSFHI].*?》为无
正则替换《/[TDSFHI].*?》为无
正则替换《P.*?》为《P》
正则替换《(table|tbody|tr|td|div|span|img|script|font|hr).*?》为无
正则替换《/(table|tbody|tr|td|div|span|img|script|font).*?》为无

《wp:comment》《/wp:comment》中增加《wp:comment_id》1《/wp:comment_id》,id数字递增 /*WP XML共性问题*/

/*操作结束*/

注:请自行替换《》为<>,用尖括号那是全部都挂掉无法显示的节奏啊啊啊

这个是一次死去活来的经历啊啊啊啊啊啊啊啊啊啊啊啊!奇怪的知识又增长了不少……

2019-07
19

请与时俱进好吗!!!

By xrspook @ 8:42:04 归类于: 烂日记

当现在的人都喜欢把东西外包给别人解决的时候,我倒是在选择自己去亲身体会那一切。虽然这听上去有点神经病,但实际上我觉得这挺好玩的。明明有现成的Excel VBA的脚本实现某些汇总的功能,我却偏偏要先看完一本书,然后凭借自己仅有的知识写一些出来。明明展板这种东西我们只需要提供资料,接下来的就由广告公司去完成,但实际上最后由我提供数据的那三个板块的展板上面的所有图表我都不得不全部都亲自整一遍。因为广告公司做出来的东西瑕疵实在太多,多得让人无法接受,一些一眼看过去觉得没有问题的东西实际上危机四伏。有可能出现错别字了,有可能坐标轴完全错了,也有可能一个版面里同一类型的东西有N种字体大小。做那份工作的人肯定是个学美术的,一定不是理科生,更加不可能是完美主义者,否则他无法接受坐标对不上,字体大小不一致,就更不用说绝对不能接受字体瘦的胖的都有。之所以会发生这种事,是因为他们在输入的时候直接使用了鼠标点击,使用的是美工字体,输入完毕以后有可能错手拉扯过字体的方向。如果他们要改变字体的大小,拉对角没有问题,但如果拉上下或者左右,就会出状况。出了状况以后,他们也没打算过要补救回来,他们只是把字体拉到跟其他看上去差不多大而已。美术字体有拉来拉去变形的问题,但使用文本框就没有这毛病。因为文本框里的东西,无论你怎么拉扯,字体的大小都是标准的,不会随着文本框的变化而变形。

那三个版面的东西一共出现了22次东莞库,直到前天,领导才终于要把称呼统一为东莞市直属库。这是多么神经病的一个决定!如果一开始在开始排版之前就在文本里统一修改,那是非常容易的事。毕竟大家的电脑都能打开普通的Office文件,但CorelDraw这种专业软件肯定不是人人都有,即便有了,也未必会用,即便会用了,也未必一定懂得某些功能。

昨天上午,幸好我没有和单位的人一起去广告公司,而选择继续校对我那三个版面,然后把完工的cdr文件发给他们。我们的人是9:40从单位出发过去的,我大概10:30把校对完成的cdr文件发到微信群里,但是直到下午16:30,单位的同事才告诉我广告公司打不开我的文件。因为我用的是X5,而他们用的是X4。这到底是什么鬼?!现在是2019年了!前几天我在电脑上安装X5的时候就发现注册机不能用了,准确来说是那个注册机只是用于2016年以前。CorelDraw很贵,而天朝里使用的人通常用的是破解,所以某一年以后,官方就进行了多次清理。CorelDraw在X5以后还有X6、X7、2018以及现在的2019。X5是我2012年下载回来使用过的,当时我的电脑是XP,内存只有2GB,CPU是双核的,硬盘只有80GB,在那种条件下,我尚且可以正常运行,而现在广告公司用的居然是X4(2008年的软件),这简直太让人震惊了!!!同事让我保存一个低一点的版本,我问她要什么版本。她跟我说要9.0,当我保存了9.0版本以后,发现三个版面里面的东西很多都乱套了,因为有三种字体识别不了。再次询问之后,她告诉我试一下保存14.0。幸好14.0以后一切正常,他们也能打开了。其实如果用脑子想一下就会明白,“X”就是罗马数字10的意思。我用的X5默认保存的版本是15.0,他们用的X4,理论上当然应该是14.0就可以了。广告公司居然在用X4,情况就像是2019年大家还在用Office 2003那样。虽然就一般的使用而言,没什么问题,而且还很爽,但问题是当接收到一些新的软件创建的文件的时候,可能会遇到非常严重的问题。见识过他们还在用X4以后,我明白为什么这个广告公司给我的感觉那么的糟糕了。情况就好像对Office软件有很高使用要求的人不可能忍受得了广告满天飞、而且功能诸多阉割的WPS。

还是那句老话“自己动手,丰衣足食”。完全依赖别人造成的麻烦,不比自己硬碰硬去研究少。

2018-06
8

把痛留给自己

By xrspook @ 11:08:13 归类于: 烂日记

经历过多少伤痛只有你自己知道”在45分钟的Dangal幕后花絮制作特辑里米叔对折磨中的Fatima说了这么一句话,然后他举了小李子拍《铁达尼号》冰水镜头的例子。

之前我是那种不怎么喜欢把自己伤痛或折磨故意告知/展示给别人的人,看到Dangal里米叔的话以后,更加坚定了我。别人没必要知道你是怎么辛苦得来的,他们要的是结果,为什么你要把那些都炫出来呢?那些该拿来炫吗?如果那是别人看到的,是别人拿去吹的,我们阻止不了,但起码我不应该主动这么干。别人因为一点点事大惊小怪的时候,我内心非常无语。比如昨天下午开会的时候坐我旁边的女生说她抓破了个痘痘,流血了,居然还能引发紧张,居然还得用双飞人去消毒一下,居然还要像发生了什么大事一样告诉她旁边的同事。这到底是什么鬼?!我不把我的痛主动拿给别人看,不等于别人就不会主动让我拿出来展示给他们,比如说我妈,她非看不可,幸好有些不是暴露在外的,所以她看不到。只要我不吭声,只要我藏得好,她不会知道,之所以要这样是因为我不想让她过分担心。有时,伤口那种事本来就比较血腥不堪入目,为什么还要强迫别人去感受你的痛呢!当然,我去医院找医生的时候例外,我不把问题暴露出来,医生就没办法帮我。有些时候,我必须把痛告诉别人,比如我的大腿因为某次篮球训练拉伤了,的确走路慢跑都没问题,但只要剧烈爆发启动股直肌马上就剧痛,如果我不顾这个继续发力,天知道会不会夸张到拉断。在这种情况下,难道你们还要把篮球比赛所有女生的期望都放在我的耐力超好、突然爆发的快攻上?!必须改变策略了,有没有!因为天知道这种不知道什么程度的拉伤自然恢复要什么时候才能痊愈,而且我是那种坐不住的人,我没办法一直都只是坐着躺着养着,我一旦动起来,谁知道我又会什么时候什么情况下落井下石。

痛这种东西不是炫给别人看的,但不能就这么让那过去了,我们自己应该好好记录,引以为戒。痛的过程是怎样的?为什么会造成?如何避免?真碰上了以后要怎么处理?除了之前的处理方法以外还有没有更好的选择?因为要得到这些信息,所以我可能会在blog里、围脖上、朋友圈里详细记录下来。不是为了给别人看,而是为了做好记录自己翻查。至于其他人看不看,那是他们的事。

昨天在压制《古拉姆》第二首蓝光原盘歌曲共游肯达拉(Aati Kya Khandala)时我就很痛,但那种不是生理上的痛,那是持续作战的心累。可能是剪片的原因,按照传统压制的方法出来的东西前18秒都会卡在同一个画面。字幕在变化,但视频的其它画面一动不动。一开始我觉得是关键帧缺失的问题,至于为什么会缺失我显然不知道。MeGUI怎么压怎么不对,小丸也是,电脑里再没有其它压制软件。用potplayer、kmpplayer,MPC-HC播放m2ts没问题,但把视频放在Aegisub里播有问题,那个问题和压制出来的效果一样,网友说之所以视频软件没问题是因为那都默认自带纠错功能,但压片的软件没有。我试过用HD Remuxer,也试过用TSmuxerGUI,无效。按照从前压DVD时间轴错乱的经验,我觉得在上MeGUI之前应该先用软件索引一下。dgindex的系列软件只有dgavcindex能用,在dgavcindex里m2ts可以正常播放,所以理论上用索引出来的dga文件放在MeGUI里压制应该没问题。但28**版本的MeGUI不支持dga输入,27**版本的MeGUI能输入dga,但马上跳出DirectShowSource滤镜不支持。DirectShowSource滤镜的问题在新版的MeGUI以及64位的电脑上经常性习惯性地困扰我。我能怎么办呢?我应该去修复m2tv文件,但怎么修复?最后,最后,最后,我遇到了Smart Cutter for DV and DVB。据说这是个无损、可以精确到帧剪切的软件。虽然说是无损但也听说在剪切点的位置会重新编码,可能会出现花屏。Smart Cutter for DV and DVB这个软件的界面有点神奇,以至于我不打开他们的说明页面居然会找不到需要找的东西在哪里。这个有点奇葩的软件最终拯救了我!我把m2ts文件开头和结尾的几帧剪掉,然后呢,居然就好了!18秒的问题解决了!的确剪出来的m2ts文件一开头有花屏,但和字幕放一起经过MeGUI的压制以后,顺滑流畅!18秒的问题完美解决!但共游肯达拉(Aati Kya Khandala)这个m2ts文件还有个音频视频不同步的问题,dgavcindex读取出来是-117ms延迟,TSmuxerGUI出来是DTS-38ms和AC3-17ms的延迟。最终我用了-117ms的延迟设置。理论上我应该把字幕前移0.11s,但实际上我得移0.3秒才和我一开始设置的字幕轴对上,好奇怪。我以为搞定这些后总算可以了,但今天早上才发现字幕里面某个“搞怪”和“宝贝”之间我居然漏了个空格!补空格后压制,封装好全部以后才发现还是不对,虽然我的ass文件里的确已经空格了,那个问题在于其它词语之间我用的是中文空格,最后补上去的那个空格是英文空格…… 所以在B站已经上传到了一半的时候,我又把文件撤了回来,重新压。这些事情从昨天到今天困扰了我接近8个小时,这还只算坐在电脑前的,吃饭洗澡睡觉时的琢磨还不计算在内。理论上这是很简单的东西,但实际上,期间经历的磨难只有我和被我骚扰的少数几个朋友知道。在观众眼里,清晰到流眼泪的画面、靠谱的歌词翻译、恰到好处的时间轴就是他们知道的全部,他们不需要知道更多,再多的罪都是我一个遭就好,当然,折腾换来的经验也唯有我最清楚,但既然我已经把这些都写出来了,大家也就没必要在遇到这种事的时候再彷徨了。

痛并快乐着。

http://www.bilibili.com/video/av24529296/

2017-09
18

自己埋单

By xrspook @ 11:56:16 归类于: 烂日记

今天不知为何老是做错事,打计算器打错,搬字过纸搬错,能被搞错的几乎都搞错过了。但实际上我觉得自己的心态又很平静,没什么起伏,也没什么一直牵挂的,为什么会这样呢?之前也发生过这种事,是因为我心里在想着很多东西,不平静,所以犯错误,这次是为何我没想明白。跟平时有差别的还有今天我写在纸上的字很丑,数字丑到在难以辨别的边缘了。自感没问题,但反映出来的状况有问题,这是为什么呢???

昨天我还在考虑要不要跟领导说把我要买的3本Excel教程单位报销,实际上今天在我再三思考过以后觉得如果书买回来他们愿意埋单那就报,如果他们不愿意我觉得更心安理得。我喜欢看自己的书而不喜欢借别人的书,尤其是教科书。虽然通常我不喜欢在书上面涂改,但如果那书不是我的,看的时候会有些奇怪的感觉。所以通常来说我不会去借书看,而会选择自己买书。大三大四的时候我的确从学校图书馆借了很多书来看,那是因为我觉得那些书有的我已经不可能买到(老版本的马尔克斯系列),有的看完就看完,就像过眼云烟一样,之所以选择那些书纯粹是因为觉得做事要做全套,完成任务而已。我自己喜欢的、我觉得有用的书无论第一次看的是什么版本,最终我还是会入手纸质图书,有时甚至不只入手一个版本,中文版、外文版、中文新版…… 之所以这样大概是因为从前粉JEA的时候他曾经说过他很喜欢看书,从很小开始就一头扎在书堆里不能自拔,还是个孩子的时候他总幻想自己是那些魔幻故事里的骑士,在和怪兽战斗,长大了以后他娶了老婆(准确来说是第一任,有没有第二任我不知道,反正这个老婆已经是过去式了)也是很爱书的。所以他们家的书房很大,两人不只喜欢看书,还喜欢收集各种版本的同一本书。后来,连我自己也这么干了。收集同一本书的多个版本与其说是在乎书内容本身不如说是一种收藏癖,一种情结的追求。每本书都有每本书的回忆,什么时候入手,在什么情况下阅读,哪个版本让我印象深刻……《百年孤独》最终成为正版书的时候我入手了第一版第一次印刷的其中一本。那一本的装帧跟现在还在热卖的看上去没有区别,但对我来说“第一版第一次印刷”和“第一版第N次印刷”不是一回事。

Excel是我自己想去深究琢磨的,和单位支持不支持没关系。如果单位报销了,有天我要离开,他们会让我把书也带走吗?既然我学习各种编程语言都是自己买书,为什么这个我要例外呢?虽然到那个时候估计没人会记得这本书的归属,而且除了我以外估计其他人会觉得这几本书和废纸没啥区别。武功秘籍用在恰当的人身上,那必将会发扬光大,但如果被目不识丁的捡到,估计只能用来烧个火做个饭或者取个暖。

技术上面投入的时间、精力、金钱一个都不能少。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress