xml « 我的天

2020-04

转换时间戳

By xrspook @ 15:18:47 归类于: 扮IT

脑袋实在转不过来，不知道怎么把1W多天转化为月份，长短月怎么处理？？？？？所以直接暴力地使用本来就内置的time.localtime()以及time.strftime()格式化当前时间。我完全可以把逝去的时间也这么整，但逝去时间我是有认真人肉计算过的，所以同一个时间戳，用了两种方式转化。

经过这个以后，我完全明白点点导出数据里那一串标记着的数字是什么鬼，也不能说他们这样不好，因为转化为实在人肉可读的时间格式以后万一要用其它表达方式呢？一开始就用最原始的东西，前端表达用内置的函数格式化也就可以了。所以，大概看懂的人会会心微笑，看不懂的人会骂街。作为理论上应该可读的XML文件，他们这般“原始输出”实在够姜！

import time
def now(num):
    mytime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(num))
    return(str(mytime))
num = int(time.time())
sec = num % 60
min = (num // 60) % 60
hour = (num // (60 * 60)) % 24 + 8 # 万恶的东八区！！！！！！！！！！
day = num // (60 * 60 * 24)
print('Time is', now(num))
print('since the epoch, ' + str(day) + ' days ' + str(hour) + ' hours ' + str(min) + ' minutes ' + str(sec) + ' seconds has gone')
# Time is 2020-04-09 15:03:41
# since the epoch, 18361 days 15 hours 3 minutes 41 seconds has gone

标签：Think Python, xml, 习题, 导出数据, 扮IT, 时间戳, 点点网, 脚本

2 条评论

2020-03

我只是想把自己从前的东西重新拿出来，原来这也会很难，这是我完全没想到的。要找回那些尘封10年的文档，并不算太难，翻一下电脑也就找到了，虽然有点坎坷，因为当时备份的时候，我没有标注是哪个网站的，xml都放在一起，我以为那都是我主站的，后来，同一个日期不同的文件大小才让我觉得有蹊跷。xml文档找到了，接着要把它转化为WordPress的格式。当年用来转换文档的脚本找不到了，翻遍家里电脑的各个盘都没找到。之所以在家的电脑找不到，是因为当时干这事我是在单位完成的。所以理论上单位的电脑应该有，但是因为换过电脑，我也清理过同步盘，所以会不会也因此清理掉呢？这个我不确定。我觉得，在我转格式的时候，我仍然在用Dropbox，里面的很多东西我的确已经清理了，于是这也很好解释，为什么我家里电脑的Dropbox文件夹里找不到那个脚本。家里的电脑没有，单位的电脑可能有，但还有一种可能性，我把那上传到网盘，于是就把那同步软件里撤掉了。我只会上传到两个地方，一个是百度，一个是115。115打开很麻烦，我也懒得下载打开它的工具。百度上果然就有我要找的东西，但当我想把整个文件夹下载回来的时候，问题严重了，那里居然有4000多个文件。下大文件的时候度娘就很慢，下小文件的时候度量更慢，那是直接10KB以下的速度。我直接去网页版的度娘找到我要的东西，不在客户端里等它慢慢下载了。

东西下载回来以后，我再翻查我的日志，我需要安装一个Python。我默认安装的是现在最新的版本3.7.7，但运行脚本以后却发现才刚刚开始读取脚本，就马上报错。查找原因，原来是版本之间的语法差异。才刚刚开始就错，要运行完整个脚本，我真不知道还得修改我根本不懂的语法。所以，我把最新的Python卸载掉了，重新安装当时我就在那个版本下转换的2.6.5。2.6.5是一个什么概念？这意味着时光倒流10年。

出乎我意料，软件装好以后，我几乎没遇到困难就可以把BlogBus的文档成功转为了WordPress的格式。在下载Python的时候，我顺便下载了XAMPP，同样下载的是最新的版本。前段时间我才刚用过，觉得挺爽。我也下载了最新版的WordPress的5.3.2。同时把导入插件也装。当我试图上传，已经转过格式的xml是，上传报错。原来这才是噩梦的开始！不同版本的WordPress里的xml格式各不相同，几乎可以这么说，越往后越严格越来越严格了。于是我又安装了WordPress 3.9和2.8。3.9的WordPress在PHP 7之下马马虎虎可以运行，2.8是直接连数据库都连不上…… 于是我甚至不能从通过低版本的WordPress N轮导入导出拯救世界……

没办法，我只能研究我手头上的xml，看看和现在的标准版差多少。首先，必备填写一个WXR的版本号。在旧版本里，这条规则是这是不存在的，所以要手动加入。同样需要手动加入的就是，即文件类型，因为现在的WordPress把文章分成了post和page。把这些搞定以后，基本上正文就可以导进去了，但是分类和标签还是不行。因为现在的分类和标签，WordPress使用的是一个叫做nice name的东西，你必须在分类和标签那里，加上这个标注0才能识别的出来。评论那里，当年就试过在2.8的版本里面评论正常，但是在2.9里面，有评论的话会只剩下一条评论。研究发现，那是因为评论有了一个id号。BlogBus转码过来的东西没有id号，所以大概东西就自动覆盖了。除了这些BlogBus和WordPress之间的格式问题以外。我的文章里还有格式的=问题，因为有些东西，不完全是我自己的东西，好些是我从网络上搜集回来的。当时我保存了网页，在BlogBus发布的时候直接复制到可视化编辑器，所以格式也带入了。如果当时我懂得先把东西贴到记事本，然后再剪切粘贴一次，就不会存在这种问题。除了格式以外，从前的blog里还有图片，但经过这么多年，图片都已经失效了，链接摆在那里只会浪费加载时间和访客的期待，所以我要把图片链接也尽可能去掉。有些图片链接是我没办法去掉的，因为用正则筛选的时候会遇到一些很屌丝的句子，到了某个点，就卡住了，但实际上那并不是这个标签的结束。

搞清那些规则，总结出我的对策。一次又一次查找替换，一次又一次导入删除再导入。花了一整个下午加半个晚上的时间，我总算搞定了从前BlogBus上的BLF！文章238篇齐全，评论56条也齐全！！！其中可能会有一些小格式上毛病，但是那并不是共性的问题，后续还得靠运气慢慢修改。

非常有必要记录一下我在Notepad++上做的WordPress不同版本xml转换操作

/*操作开始*/

普通替换《channel》为《channel》《wp:wxr_version》1.1《/wp:wxr_version》 /*WP XML共性问题*/
普通替换《category domain=”category”》为《category domain=”tag”》
普通替换《dc:creator》《/dc:creator》
为《dc:creator》《![CDATA[xrspook]]》《/dc:creator》《wp:post_type》《![CDATA[post]]》《/wp:post_type》《category domain=”category”》《![CDATA[回到过去——Betty迷的独白]]》《/category》 /*《/wp:post_type》前是WP XML共性问题*/
普通替换《BR》《BR》为《BR》
普通替换《!–msnavigation–》为无
普通替换[summary_of_BLF]为[summary_of_BLF(from_rincondebetty)]
普通替换[summary_of_EcoModa]为[summary_of_EcoModa(from_rincondebetty)]
普通替换《category domain=”tag”》《![CDATA[(from_rincondebetty)]]》《/category》为无
普通替换[Yo soy Betty, la Fea]为[Yo_soy_Betty,_la_fea]
普通替换[JEA’s Writting]为[JEA’s_Writting]
普通替换”博主”为”xrspook”
普通替换《i》为无
普通替换《/i》为无

正则替换category\”》《\!\[CDATA\[(.*?)\]为category\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换tag\”》《\!\[CDATA\[(.*?)\]为post_tag\” nicename=\”\1\”》《\!\[CDATA\[\1\] /*WP XML共性问题*/
正则替换《[TDSFHI].*?》为无
正则替换《/[TDSFHI].*?》为无
正则替换《P.*?》为《P》
正则替换《(table|tbody|tr|td|div|span|img|script|font|hr).*?》为无
正则替换《/(table|tbody|tr|td|div|span|img|script|font).*?》为无

《wp:comment》《/wp:comment》中增加《wp:comment_id》1《/wp:comment_id》，id数字递增 /*WP XML共性问题*/

/*操作结束*/

注：请自行替换《》为<>，用尖括号那是全部都挂掉无法显示的节奏啊啊啊

这个是一次死去活来的经历啊啊啊啊啊啊啊啊啊啊啊啊！奇怪的知识又增长了不少……

标签：blog, blogbus, Notepad++, python, wordpress, xml, YSBLF, 回忆录, 扮IT, 烂日记, 版本, 转换

评论关闭

2013-03

GR把我们给飞了

By xrspook @ 17:42:33 归类于: 烂日记

今天收到消息，Google Reader要在2013-07-01关闭，我顿时震惊了。是GR让我认识什么是rss，怎么才可以快捷方便订阅阅读，一直以来我都有GR吸收信息的习惯（论坛除外），rss可以节省大量浏览博客、新闻网站的时间。对我来说RSS = Google Reader，当GR离我而去，我可以怎么办？！！！！！！

还记得我参加的第一个拿到奖品的互联网活动是Feedsky的拼博到底，已经过去5年有多了。从前我是用Feedburner的，后来也用Feedsky，但现在GR没了，所有这些feed还有什么意义？！！！！而Google要关闭GR的一个很重要的原因是GR让读者无需走遍网站就能获取信息，这跟他们的主流广告价值观相违背，这不能让有Google广告的网站盈利，GR伤害了网站主人的感情，Google自己的利益也间接受到伤害。于是GR现在仿佛变成了美丽的传说！

其实如果网站主人要客人必须网页访问他们完全可以禁止输出网站的rss，但现在，基本所有网站，所有框架靠谱的网站都会有rss，没有了把他们统一起来的GR，rss也只会沦为美丽的传说。

到底我们哪里错了？！我们哪里都没错！我们只是想更快捷干净纯粹地阅读而已！

已经忘记了我是什么时候开始用GR的了，但今天从Takeout导出的.zip数据刚好10MB，那是纯粹字符来的啊！多少的积累才会达到10MB？！

今天据说是白色情人节，但今天对xrspook来说就像被GR这个多年的情人突然抛弃，万分无奈。

我希望Google能逆转这个全世界人民都会为之发狂的噩耗，但如果真的不能，我觉得应该会有仿GR的Chrome插件、Firefox插件涌出。GR是个神话，他击倒了无数免费/收费的RSS阅读器，所以，当GR金盆洗手，或许是另一个厉害东西诞生之时。虽然，做RSS阅读器纯粹是为人民服务基本无任何盈利可言的RP产品。

从前我不知道XML是什么，不知道RSS是什么，好不容易我知道了，爱上了，现在解读这些东西的机器却停产，情何以堪？！我拒绝当纯粹浮夸的的围脖人！！！！！！

标签：feedburner, FeedSky, Google Reader, rss, xml, 广告, 扮IT, 烂日记, 订阅, 阅读器

评论关闭

2011-07

抓头 – 嵌套div的正则提取

By xrspook @ 17:50:04 归类于: 烂日记

很傻很天真的以为用正则可以轻易提取出div里的层层嵌套div，结果囧得厉害。div的开头通常都带有class或id，唯一，且容易辨认，但div的结尾，清一色的“/div”，真会搞死人。网络上流传的提取div版本貌似都不太可行。在一坨里提取一堆只是第一步，第二部还得把提取到的内容xml数组化。

其实呢，我也有想过一开始就对所有内容xml数组化，不过，信不信由你，从最开始那层<>到我要提取的那些内容少说也有15层，而且如果那些网页设计者好心加一层或减一层，我又得慢慢摸到底哪里出问题了。所以，用xml数组化是个思路，但“解剖”源数据的工作量不少且维护困难。毕竟，这不是5层，这是15层+啊！怨念那些穿那么多层衣服的网页。

正则难提取嵌套div，xml太郁闷，咋办呢？

我还有一个很天真的办法，手动选取要提取部分的代码然后贴到程序里提取。这么一来就解决了难提取困难的问题，当然啦，都手动干了，还有什么难不难的，这个办法很低级，但一定可行。

怎么办呢，怎么办呢？！

应该是我想得还不够深入，再花点时间动动脑筋好好琢磨琢磨吧。

今天很坏地想到用正则提取，table输出，然后直接Excel粘贴保存，早上还在兴奋这个伟大思路，下午就发现正则把我卡死，生活真是个悲喜剧。

别囧，我有的是时间，一定可以的！

标签：div, regex, xml, 嵌套, 扮IT, 提取, 烂日记

7 条评论

2010-11

建立YARK日志

By xrspook @ 21:29:21 归类于: 烂日记

发觉很有必要建立一个YARK的日志，记录其成长，因为自己每天都有新发现，每天都在改进，不一一记录下来实在可惜，这可是很重要的版本信息哦！

******************* YARK专栏 *******************
2010-11-17
update
* 合并WWE和TNA生成功能，其实就是简单地用选择语法把2个页面的功能合并起来，操作起来很简单。其实一个开始为什么会分开呢？因为我懒，直接“另存为”就开始修改编写了。
* 增加了几句自动说明，比如说什么都没有的时候提醒要输入；输入了完全不搭调东西的时候提醒错误。
bug
* 突然发现TNA的自动rss只输出了25组信息，可恶！昨晚太兴奋，只看到有信息输出，却没有留意数量，rss的数量肯定是可以由TNA自己控制的，所以如果我完全依赖自动rss输出会很被动。
plan
* 要不寻找XHTML转XML的，要不直接直接提取XHTML为己用，对TNA的这种网页，我只能动作更多更主动了。
* 很懒的TNA用的是ZenPhoto RSS Generator的系统贴图和生成图片的RSS，噢～～～开源的哦，可以研究一下ZenPhoto然后再作对策。
******************* YARK专栏 *******************

与天斗、与地斗都不如与人斗有趣。

标签：rss, TNA, xhtml, xml, YARK, 烂日记

评论关闭

« 1 2 3 »

我的天

转换时间戳

折腾不同版本的WXR

GR把我们给飞了

抓头 – 嵌套div的正则提取

建立YARK日志

戳这只鬼

随机日志

我的天

转换时间戳

折腾不同版本的WXR

GR把我们给飞了

抓头 – 嵌套div的正则提取

建立YARK日志

戳这只鬼

标签云了

随机日志