转换 « 我的天

2024-08

进一步优化和debug

By xrspook @ 8:17:44 归类于: 烂日记

又花了整整一天的时间去改进之前的两个转换程序，一个是用PQ写的，另外一个是用VBA写的。之前以现有的数据进行测试，没有发现问题，但实际上今天再去纠结，还是有个问题，就是当业务类别为轮换，出库的时候损耗的计算方式。损耗应该放在商品粮的账本，这个没有问题，之前也是这么处理的，但是商品粮的账本还有一个。储备粮油转入，这个东西就应该包含损耗和销售两方面的数据。之前只包含了销售的数据，忽略了损耗的那一部分。同样，在储备粮的账本，在转作商品粮油的数据那里也应该包含商品粮账本里面的损耗数据。这个东西平时做的时候一定会记得，因为单仓数据如果处理不到位无法清零，但是当要考虑的事情有很多的时候，就忘记了。在做这个程序的时候，我就已经考虑到这种损耗是一个很特殊的情况，但是我却没有进一步的考虑到这个东西特殊到要一变成三，通常情况下，一变二就可以了。

除了这个问题，以我现有的数据，基本上那两个程序都能运行出我想要的效果，但实际上，今年到现在为止，单位产生的那些数据还有一些业务类型没有包含进去，那些业务类型有些我可能会用到的，有些我是几乎用不到，但我用不到，不代表其他人也一定不会用到，所以从大的层面考虑，我还要把那些东西都考虑进去。

之前无论是在PQ还是VBA，某些字段的生成实际上是条件筛选，有可能是一个条件，也有可能是多个条件，那些条件里面会有很多个情况。在PQ里做条件筛选，还有个填写界面，但是在VBA里就纯粹靠iif的不断套叠。首先你得知道怎么套叠，然后当你套到一定程度的时候，自己也会被套进去，比如数着数着括号就对不上了，什么逗号双引号之类的偶尔也会制造幺蛾子。使用这种套叠可以实现我想要的效果，但是真的非常虐，而且一旦要进行数据维护，那简直就是个深渊，所以首先我想到的是要不要做另外一个索引的表，通过左外连接的方式指定某些字段必须匹配，然后就能获得我想要的新增字段。从可维护性来说，这样非常好，从代码的实现来说，这也很方便，但是后来我还是决定不在VBA里面实现这种左外的索引和直接在原始的表格里面就索引数据得出一个大表，然后再用大表进行后续的整理，因为要处理的大表其实数据不多，一年肯定不超2000条。之所以要这么干，首先是因为我考虑到可能使用这套方案的人会更容易接受这种直观生成的大表，他们可以直接核对数据，如果觉得不对，可以进行手动更改，但如果我把那个东西做在了VBA层面，程序运行不出来，或者运行出来的效果不是大家想要的，那么需要结果的那个人肯定不知道该怎么办。这种直接通过Excel的索引，先得出一个大表的方式，同样也会让PQ的程序不那么复杂，不需要搞那么多条件筛选。虽然PQ的条件筛选有界面，可以下拉选择，但需要选择的东西多了，很容易就会选错。

最后，事实证明我的这个做法是合理的，我把需要考虑的因素全部都考虑进去用全面的测试数据都模拟过以后，发现两个程序都能满足我的要求。当然了，在最终成功之前，我经历了不知道多少debug。你永远都不知道你会被什么卡住，又或者在什么地方被卡住，但被卡的次数多了，你就会觉得这很正常，继续死磕就行。

标签：Excel, Power Query, VBA, 工作, 扮IT, 条件筛选, 烂日记, 索引, 转换

评论关闭

2022-08

黑屏是什么鬼

By xrspook @ 17:19:02 归类于: 烂日记

上周的某个晚上，当我打开野小兽的健身往期课，发现黑屏了，音频是正常的，屏幕正中央有一个暂停的标志，但问题是整个屏幕都是黑的。我的第一反应是网络不好，因为的确那个时间段单位的网速都很糟糕。这个视频没有缓存的标志，但音频一直都很正常，其它按钮也都很正常，但视频无论如何都加载不出来。健身的课程我点了好几个都这样，但是单车的课程无论是直播课还是往期课都没有问题。然后我换了个瑜伽的课程，跟健身课程基本一样，同样是黑屏。当发现手机黑屏，而且也是也野小兽的时候，我曾慌了几秒钟，因为之前那个红米Note7就是在进行野小兽健身课程的时候突然卡顿，然后重启。于是我马上拿出我的旧手机小米4c下载了个野小兽，然后登录上账号。结果发现同样一个课程，在小米civi 1S的机子上会黑屏卡住进不了，但是在小米4c上一点问题都没有。那时我也不去考虑到底这到底是什么情况了，先把那个课程上完再说。

上完了那个以后，我又回到小米civi 1S的手机上折腾一番，发现上面有一个选择视频画质的按钮，打开以后我随便点了一下其它画质，居然就出来了，最后即便我再切换回自动也可以正常播放，所以这到底是什么问题呢？在尝试切换画质之前，我已经在野小兽客服的微信上留言。之前我没有遇到过这种事情。如果我进入不了某个课程，通常是因为网速太高糟糕了，缓存没有反应过来，又或者是我的手机出现的状况。如果网速实在太烂的话，通常会弹出一个提示框，但不是黑屏，音频也不会继续。最后我把那个切换画质就能解决黑屏这个问题也给客服说了。第二天他给我的回复是，遇到这样的话就先选别的画质，然后再切回去，所以这到底是什么毛病呢？为什么在一个比较烂的手机上反而没有问题，在一个比较好的手机上却出现了这种状况。我感觉这是一个自动判断手机性能以及网速的功能缺陷。我感觉其实根本不需要判断用户的是什么手机，按照连接的网速进行分辨率切换就可以了。甚至可以直接默认给用户720的画质，如果你需要更高，可以手动调节，但是如果你的网络很糟糕，你可以手动选择480。这个自动鬼知道他到底切到什么地方去了，万一录制的时候根本没有1080或者以上，比如说2K甚至4K的画质，但是如果根据这个用户的手机性能以及网络情况去判断，他应该匹配2K或者4K画质。视频又怎么可能打得开呢？当然，2K和4K的画质有点夸张，尤其是4K的画质，估计那得标配非常高的网速才能做到，对我们这些国内的普通人来说。通过连接无线网络上网不可能接收到流畅的4K画质，因为我的网络根本不满足那个要求。虽然实际上我们的手机具有那样的能力。有些健身课程那天晚上我撞彩发现可以打开，不黑屏，从我肉眼判断看来那个视频的画质比较差。野小兽自己的视频录制，到底用什么样的设备难道他们自己心里就不清楚吗？在切换什么画质这个问题上，为什么居然可以放下这样低级的错误呢？我是一个比较喜欢自己折腾的用户，所以误打误撞之下，我居然发现了问题所在，但如果那些客户根本什么都不懂，而他们那天理论上又必须打卡的话，估计就会错过了。

直到这篇发布的今天，野小兽的黑屏问题依旧。

标签：YESOUL, 吐槽, 烂日记, 画质, 转换, 黑屏

评论关闭

2020-07

改进

By xrspook @ 9:18:56 归类于: 烂日记

当我把电子书的列表从800多KB改成几个以后，整个静态网站的生成速度就从之前的120秒降为20多秒。20多秒的生成速度跟生成markdown文件没什么区别了。准确来说，生成速度更快了，因为少了一个markdown转换的过程，我猜可能是这样吧。虽然我已经绕了一个大圈又重新做了一个判断，如果我直接从点点转换成静态网站，而不是先格式化为wordpress标准的XML格式，估计速度会更快，但可以肯定的是，如果那样的话，我还是得做不少的判断，因为点点的文件里面不同类型的核心内容是不一样的。其实最简单的方法，是我生成wordpress格式文件的时候把分类继续放在分类，不把博客的名字放在分类，不把分类作为其中一个标签，相对来说这样的改动是最简单的。其实现在我绕了一个圈再回去，也没麻烦多少，因为那个标签是第1个，而我的判断是，如果找到了某个标签，就马上停止循环，所以虽然每篇日志的标签有n个，但判断第1个以后就结束了。就循环来说，没耗多少时间，只是代码会显得又长又臭。

近段时间我一直在纠结如何把手动输入的字典搞得好看些。除了好看，也要容易维护。最明白的方式当然是自己写键值对，但是那么多的引号，那么多的冒号，那么多的逗号，想想都觉得好疯狂。最整齐最不容易出错的方式是一行一个，但那样的话，好像有点奢侈了。所以有时我也搞不懂自己，到底是想节省空间，还是维护容易。

昨天晚上，我纠结一个问题，如果某个单词被我用作变量，在字典里那个单词又是一个key，同时这个单词也是个文本。有没有某个函数能把某个变量只当作是某个名字的字符串呢？如果这样，我的某句话就可以写得很简洁。否则的话，当我调用函数的时候，我就要把这个单词写一遍，当作字符串再写一遍。或者你会说，我直接把这个变量等于这个字符串不就好了吗？显然，我之所以把那个单词当作变量，肯定是因为其内涵跟字符串不一样。所以我试试是不是自己挖了个坑给自己跳呢？我明明不应该把这两个东西命名成一样。

有些时候我会问一些很弱智的问题，明明我是知道的，但是一下子就是想不起来。归根到底，我觉得是我的基础还不够扎实。在完成了静态博客的部署以后。我还没想好我是继续把Think Python那本书从我中断的地方继续看下去，还是应该从头开始，复习一遍，加深印象，因为那些很基础的东西在用着用着的时候，我觉得自己已经忘光了。所以到用的时候，我又得翻箱倒柜。那些东西，我明明应该已经掌握的。

现在的静态网站转换，我是用很低端的字符串连接整出来的。有些字符串是一成不变的，有些字符串是变量。我就在变量的之前之后把静态字符串断开，储存在某个文件里。最后就像穿珠子一样，把动态和静态的东西连在一起，最终合成一个网页。实际上，这是一种模板的思路。接下来，我要利用python的模板引擎，把静态的东西写在模板里，把动态的东西放在某些参数中。这才是我的网页转化应有的方式，但我不确定，这样的转化效率会不会比我现在的低端做法还要低。对我来说，那是一个未知的世界，我非常想，立马通过实践得出答案。

人在求知的路上会越发明白到自己的无知。

标签：python, 基础, 字典, 扮IT, 模板, 烂日记, 转换, 静态网站

评论关闭

2020-06

做到了

By xrspook @ 10:27:38 归类于: 烂日记

昨天我终于用python写出了把点点转化为WordPress的脚本。这个东西我确信是可行的，因为python的转换过程中没有出错，这就证明没有遇到奇怪的事情。用别人脚本的时候，把转换好的文件上传到WordPress，我总会担心不成功，但我自己写的脚本，我知道该注意些什么，哪些参数是现在的WordPress必须要求有的，所以只要python的转换不出错，我的WordPress导入就不会有问题。因为点点的文章有9000多篇，要从后台管理界面导入到WordPress，会非常耗时间。如果一篇文章需要两秒，完全导入就需要5个多小时，所以我没有做这种事。我挑选出22篇，各个类型都有的，试验导入，结果非常成功，网页的效果也很好，完全按照我的意思生成了。我觉得如果要快速解决问题，估计我得在数据库端导入。之前把文章导入到WordPress，因为要尝试不同的版本，我得不断地导入删除，但删除的文章太多的时候，速度很慢。后来我暴力地在数据库那里直接写删除语句，结果秒杀就完成了。现在我发现了一个更干净的方法。直接把关联WordPress的数据库里的内容全部删掉，这也是一个秒杀的过程，而且绝对不会留下任何的手尾，比如文章删除了，但是分类和标签仍然在那里。可能某些东西已经不存在了，但是计数还停留在一个很大数值，之所以这样，肯定是因为我删除文章的时候不够艺术。与其让里面留那么多乱七八糟的东西，还不如直接把数据库清空。因为我这是单机上的WordPress，我纯粹只是用来测试。这样的删除是最快捷的。大概我从上周，才突然领悟出可以这样。别人之所以要在数据库里写语句删除文章或者标签，是因为不能删掉一些不应该删掉的东西，但我没有这个顾虑。既然在数据库层面可以快速的删除，那么理论上也应该可以从数据库层面快速的导入。之所以有这个想法，是因为我发现WordPress的插件有些是针对数据库的，有些是针对WordPress自带函数的，数据库层面的查询要自带函数快非常多。现在我已经学会了转换适配后台界面导入的文件格式转换。下一步大概我得学习一下如何在数据库层面进行导入。这么高端的做法，貌似之前我还没有听说过。在网站迁移的时候，的确是把数据库打包，然后重新放到别的地方的，但那个数据库是本来就已经存在的。从一个地方挪到另外一个地方，原封不动地，但是我却要把大量的数据以快速的方式导入到数据库，并且还得按照WordPress的脾性建立各种关联，显然这貌是非常不简单，但理论上应该可以做到。

我不知道我的python到底学成怎样了，但起码我可以用那个东西实现我自己的愿望。相比于书本的习题，我觉得实现自己的愿望更有成就感，虽然其中有很多问题完全只能靠自己，没有参考答案。虽然总的来说，脚本不是我一个人写的，我是站在巨人的肩膀上修改而成，但BlogBus和点点的结构还是有差异的。最幸运的是某些我不知道该用什么手段实现的东西前人已经给我指明了方向。昨天我只是把脚本写出来了，接下来我要把脚本优化，一些老是翻来覆去说的句子完全可以把那作为自定义函数。到底什么东西应该泛化，应该泛化到什么程度，这个我还没有想好。昨天之所以可以这么迅速地完成任务，大概是因为在我开始之前先做了个思维导图，明确了我到底要做些什么。基础数据有哪些，应该在哪里取数，需要判断的参数有哪些，各自的参数有什么特性，能不能合并同类项。之前我就写过类似的东西，但是跟思维导图比起来，之前我写的那个真的很水。有思维导图、有专业的思维导图软件，人的思路可以非常快地展开。整体定下来，下面的事情就只剩下一步一步地实现。我做梦也没想到，自己这次居然这么高效。某些我没有把握能快速解决好的问题，昨天不知道为什么很多都迎刃而解了。转换一个30多MB的XML文件，我用了16秒。转换出来的文件大小为22MB。我觉得应该可以更快，但怎么才能更快呢？文件里的数据结构是我没有考虑过的，我是不是应该从那里入手？一些相同的判断，大概我应该做一些合并。

追求更好是没有尽头的。

标签：blogbus, python, XAMPP, xml, 单机, 后台, 导入, 扮IT, 数据库, 测试, 点点, 烂日记, 转换

评论关闭

2020-06

BlogBus 2 WordPress – by xrspook

By xrspook @ 19:50:07 归类于: 扮IT

为什么要学习python？因为我见识过python有多牛逼，简单一个脚本文件，轻量级的东西实现强大的功能。因为要做XML文件的格式转换，所以我觉得我要学好python。Think Python 2看到第14章，我就转向去研究10年多以前网友写的BlogBus转WordPress的python脚本。之所以要研究，因为当时的WordPress格式和现在不一样，用以前的脚本转换出来的东西已经没办法直接导入到现在的WordPress里了。再去找写代码的那些人，有些网站还在，但有些已经消失了。我不能等待别人拯救我，我只能自己拯救自己。

我需要转换格式的是“回到过去——Betty迷的独白”和“Mi Internacional Cielo”，这两个旧BlogBus站点和我的主站“我的天”不一样，虽然里面有不少我原创的东西，但我从四面八方搜集回来的内容也不少。当时的BlogBus默认编辑界面是富文本，我看上去觉得格式没问题大概就可以了，但实际上格式是有问题的。从五湖四海搜集回来的文字里面怎么可能不夹杂各种格式，那些东西在富文本编辑下可能看不出来，但在源代码界面一团糟。如果当年我复制粘贴的时候有先去记事本过渡一下就不会有那么多的问题。所以除了要转换BlogBus和WordPress的标签以外我还要筛选删除那些坏事的源代码。

经过接近一周的努力，我终于整出来了。运行下面的python3脚本，如果能顺利完成，自动生成出新的XML文件，用官方途径导入WordPress 5.4.2是完全没有问题的，但我只测试了我自己的两个blog，是不是兼容其它我不知道。因为转换blog我是有自己的想法的，所以脚本中有一些个性化的东西，比如我把blog的标题变成了分类，把原来的分类变成了标签。脚本中有大量的反转义替换，主要是为了人去看CDATA的时候不太头晕迷糊，因为我那两个旧blog里有大量的西班牙语字符，不同的编码下，BlogBus的导出文件里有些被转义了有些没有。那些转义了的放到WordPress里不知道WordPress会不会转回来，我试过标题被BlogBus转义之后WordPress不会转回来，看得我云里雾里。因为转义很头痛，所以除了少数几个内容，有可能被转义的文字都被我用CDATA包裹了起来。

脚本不是我一个人的功劳，我只是在当年网友脚本的基础上做了调整，使之适配python3和WordPress 5.4.2。

我的脚本：xbus2wp.py （PS:下面脚本330行的《/p》是什么鬼怪！WordPress的脚本插件在搞什么！）

'''
***使用说明***
终端界面输入xbus2wp.py bus.xml xrspook。其中：
xbus2wp.py为脚本名字，bus.xml为BlogBus导出文件，xrspook为博主名字，3个参数以空格分开
若运行无误，输出的文件名为[原文件名_xbus2wp.xml]
脚本基于python3，适配WordPress 5.4.2（2020-06-18）
'''
 
import re, sys, getopt, datetime
from xml.dom import minidom
from time import time
 
def convert(inputFileName, owner, order='asc'):
    """"""
    try:
        xmldoc = minidom.parse(inputFileName)
    except Exception as e:
        print ('Fail.')
        print (e)
        print ('Please repair or delete invalid token like "& < >" there.')
        sys.exit(1)
 
    bus = xmldoc.documentElement
    logs = bus.getElementsByTagName('Log')
 
    dom = minidom.Document()
    rss = dom.createElement('rss') # rss是root，根元素
    dom.appendChild(rss)      
    rss.setAttribute('version', '2.0')
    rss.setAttribute('xmlns:content', 'http://purl.org/rss/1.0/modules/content/')
    rss.setAttribute('xmlns:wfw', 'http://wellformedweb.org/CommentAPI/')
    rss.setAttribute('xmlns:dc', 'http://purl.org/dc/elements/1.1/')
    rss.setAttribute('xmlns:wp', 'http://wordpress.org/export/1.0/')
    channel = dom.createElement('channel')
    rss.appendChild(channel)
    wxr_version = dom.createElement('wp:wxr_version') # 加入wxr戳，无戳无法进行WordPress导入
    channel.appendChild(wxr_version)
    wxr_version_node = dom.createTextNode('1.1')
    wxr_version.appendChild(wxr_version_node)
 
    busname = bus.getElementsByTagName('BlogName')[0] # 提取原BlogBus名字
    busname_text = getElementData(busname).replace(' ', '_')
 
    # create a list to contain items instead of appending them to
    # channel directly in order to sort them of lately according to order.
    if order == 'desc':
        item_list = []
    else:
        item_list = None
 
    for log in logs:
        title = log.getElementsByTagName('Title')[0]
        title_text = getElementData(title)
        content = log.getElementsByTagName('Content')[0]
        content_text = getElementData(content)
        logdate = log.getElementsByTagName('LogDate')[0]
        pubdate = getElementData(logdate)
        writer = log.getElementsByTagName('Writer')[0]
        creator = owner # BlogBus的writer根本没包含元素！
        category = getElementData(log.getElementsByTagName('Sort')[0])
        tagi = log.getElementsByTagName('Tags')[0]
        tags = getElementData(tagi).split(' ')
        new_tags = unique_tag(category, tags) # 新的wp标签里包含了原BlogBus里的分类与标签
        comments = log.getElementsByTagName('Comment')
 
        #-----
        item = dom.createElement('item')
 
        # handle title
        title_element = createElement(dom, 'title', title_text, 'cdata')
        item.appendChild(title_element)
 
        # handle type
        type_element = createElement(dom, 'wp:post_type', 'post', 'cdata')
        item.appendChild(type_element)
 
        # handle pubdate
        pubdate_element = createElement(dom, 'pubDate', convertPubDate(pubdate))
        item.appendChild(pubdate_element)
 
        # handle creator
        creator_element = createElement(dom, 'dc:creator', creator, 'cdata')
        item.appendChild(creator_element)
 
        # handle categories with domain
        category_element = createElement(dom, 'category', busname_text, 'cdata') # 把BlogBus标题设置为分类，因为我要合并多个旧blog
        category_element.setAttribute('domain','category')
        category_element.setAttribute('nicename', busname_text)
        item.appendChild(category_element)
 
        # handle tags
        for tag in new_tags:
            tag = tag.replace('&ntilde;', 'n')
            tag = tag.replace('summary_of_BLF', 'summary_of_BLF(from_rincondebetty)')
            tag = tag.replace('summary_of_EcoModa', 'summary_of_EcoModa(from_rincondebetty)')
            category_element = createElement(dom, 'category', tag, 'cdata')
            category_element.setAttribute('domain','post_tag')
            category_element.setAttribute('nicename', tag)
            item.appendChild(category_element)
 
        # handle content
        content_element = createElement(dom, "content:encoded", content_text, 'cdata')        
        item.appendChild(content_element)
 
        # handle post_date
        post_date_element = createElement(dom, "wp:post_date", pubdate)
        item.appendChild(post_date_element)
 
        # handle status
        status_element = createElement(dom, "wp:status", 'publish')
        item.appendChild(status_element)
 
        # handle comments
        if comments:
            commentElements = createComments(dom, comments)
            for commentElement in commentElements:
                item.appendChild(commentElement)
 
        if item_list != None:
            item_list.append(item)
        else:
            channel.appendChild(item)
 
    if item_list:
        item_list.reverse()
        for m in item_list:
            channel.appendChild(m)
 
    global filename # 输出设置
    output = filename + '_xbus2wp.xml'
    f = open(output ,'wb+')
    import codecs
    writer = codecs.lookup('utf-8')[3](f)
    dom.writexml(writer, '', ' ' * 4, '\n', encoding='utf-8')
    writer.close()
 
def unique_tag(category,tags): # 只保留唯一的标签
    category = category.replace(' ', '_')
    l = category.split() + tags
    new_l = []
    for item in l:
        if item not in new_l and item != '(from_rincondebetty)':
            new_l.append(item.replace(' ', '_')) # 替换空格为下划线
    return new_l
 
def getElementData(element): # 获取节点数据
    """"""
    data = ''
    for node in element.childNodes:
        if node.nodeType in (node.TEXT_NODE, node.CDATA_SECTION_NODE):
            data += node.data
    return data
 
def createComments(dom, comments):
    """"""
    l = []
    count = 0
    for comment in comments:
        count += 1 # 每篇文章的评论序号，没有序号，评论只能导入每篇最后一条
        email = comment.getElementsByTagName('Email')[0]
        homepage = comment.getElementsByTagName('HomePage')[0]
        name = comment.getElementsByTagName('NiceName')[0]
        content = comment.getElementsByTagName('CommentText')[0]
        date = comment.getElementsByTagName('CreateTime')[0]
        comment_element = createCommentElement(count, dom, email, homepage, name, content, date)
        l.append(comment_element)
    return l
 
def createCommentElement(count, dom, email, homepage, name, content, date):
    """"""
    comment_author = getElementData(name)
    comment_author_email = getElementData(email)
    comment_author_url = getElementData(homepage)
    comment_date = getElementData(date)
    comment_content = getElementData(content)
 
    comment_id_element = createElement(dom, 'wp:comment_id', str(count))
    comment_author_element = createElement(dom, 'wp:comment_author', comment_author)
    comment_author_email_element = createElement(dom, 'wp:comment_author_email', comment_author_email)
    comment_author_url_element = createElement(dom, 'wp:comment_author_url', comment_author_url)
    comment_date_element = createElement(dom, 'wp:comment_date', comment_date)
    comment_date_gmt_element = createElement(dom, 'wp:comment_date_gmt', comment_date)
    comment_content_element = createElement(dom, 'wp:comment_content', comment_content, 'cdata')
    comment_approved_element = createElement(dom, 'wp:comment_approved', '1')
 
    # make the comment element
    comment_element = dom.createElement('wp:comment')
    comment_element.appendChild(comment_id_element)
    comment_element.appendChild(comment_author_element)
 
    # validate email and url
    validEmail = validateEmail(comment_author_email)
    if (validEmail):
        comment_element.appendChild(comment_author_email_element)
 
    validUrl = validateUrl(comment_author_url)
    if (validUrl):
        comment_element.appendChild(comment_author_url_element)    
 
    comment_element.appendChild(comment_date_element)
    comment_element.appendChild(comment_date_gmt_element)
    comment_element.appendChild(comment_content_element)
    comment_element.appendChild(comment_approved_element)
 
    return comment_element
 
def createElement(dom, elementName, elementValue, type='text'): #建立节点标签和节点
    """"""
    global owner
    tag = dom.createElement(elementName)
    if elementValue.find(']]>') > -1:
        type = 'text'
    if type == 'text':
        text = dom.createTextNode(elementValue)
    elif type == 'cdata':
        elementValue = elementValue.replace('&amp;', '&')
        elementValue = elementValue.replace('&lt;', '<')
        elementValue = elementValue.replace('&gt;', '>')
        elementValue = elementValue.replace('&apos;', '\'')
        elementValue = elementValue.replace('&quot;', '"')
 
        # 大量替换与我的旧blog有各种编码的西班牙语字符有关
        elementValue = elementValue.replace('&copy;', '') # 版权标志
        elementValue = elementValue.replace('&nbsp;', '') # 空格
        elementValue = elementValue.replace('&ldquo;', '“') # 左双引号
        elementValue = elementValue.replace('&rdquo;', '”') # 右双引号
        elementValue = elementValue.replace('&lsquo;', '‘') # 左单引号
        elementValue = elementValue.replace('&rsquo;', '’') # 右单引号
        elementValue = elementValue.replace('&acute;', '´') # 单引号
        elementValue = elementValue.replace('&hellip;', '...') # 省略号
        elementValue = elementValue.replace('&mdash;', '—') # 破折号
        elementValue = elementValue.replace('&middot;', '·') # 分隔号
        elementValue = elementValue.replace('&deg;', '°') # 单位度
        elementValue = elementValue.replace('&iexcl;', '¡') # 西班牙语反叹号
        elementValue = elementValue.replace('&iquest;', '¿') # 西班牙语反问号
        elementValue = elementValue.replace('&ntilde;', 'ñ') # 西班牙语n
        elementValue = elementValue.replace('&Ntilde;', 'Ñ') # 西班牙语N
        elementValue = elementValue.replace('&aacute;', 'á') # 西班牙语a
        elementValue = elementValue.replace('&eacute;', 'é') # 西班牙语e
        elementValue = elementValue.replace('&iacute;', 'í') # 西班牙语i
        elementValue = elementValue.replace('&oacute;', 'ó') # 西班牙语o
        elementValue = elementValue.replace('&uacute;', 'ú') # 西班牙语u
        elementValue = elementValue.replace('&Aacute;', 'Á') # 西班牙语A
        elementValue = elementValue.replace('&Eacute;', 'É') # 西班牙语E
        elementValue = elementValue.replace('&Iacute;', 'Í') # 西班牙语I
        elementValue = elementValue.replace('&Oacute;', 'Ó') # 西班牙语O
        elementValue = elementValue.replace('&Uacute;', 'Ú') # 西班牙语U
        elementValue = elementValue.replace('&Atilde;', 'Ã') # 西班牙语A~
        elementValue = elementValue.replace('&ordf;', 'ª') # 西班牙语上标a
        elementValue = elementValue.replace('&ordm;', 'º') # 西班牙语上标o
 
        elementValue = elementValue.replace('<!--msnavigation-->', '')
        elementValue = elementValue.replace('博主', owner)
        elementValue = elementValue.replace('<i>', '')
        elementValue = elementValue.replace('</i>', '')
        elementValue = elementValue.replace('<br /><br />', '<br />')
 
        elementValue = re.sub(r"(?:<\?xml.*?>)", "", elementValue)
        elementValue = re.sub(r"(?:<[TDSFHI].*?>)", "", elementValue)
        elementValue = re.sub(r"(?:<\/[TDSFHI].*?>)", "", elementValue)
        elementValue = re.sub(r"(?:<P.*?>)", "<p>", elementValue)
        elementValue = re.sub(r"(?:<(table|tbody|tr|td|div|span|img|script|font|hr|object|param).*?>)", "", elementValue)
        elementValue = re.sub(r"(?:<\/(table|tbody|tr|td|div|span|img|script|font|object).*?>)", "", elementValue)
        elementValue = re.sub(r"\n", "", elementValue) # 把替换造成的空行删除
 
        text = dom.createCDATASection(elementValue)
    tag.appendChild(text)
    return tag
 
def convertPubDate(date, timediff='+0000'):
    """
    convert 2003-08-22 16:01:56
    to Thu, 23 Aug 2007 05:47:54 +0000
    """
    year, mon, day = int(date[:4]), int(date[5:7]), int(date[8:10])
    time = date[11:]
    aday = datetime.datetime(year, mon, day)
    d = {'1':'Mon', '2':'Tus', '3':'Wen', '4':'Thur', '5':'Fri', '6':'Sat', '7':'Sun'}
    m = {'1':'Jan', '2':'Feb', '3':'Mar', '4':'Apr', '5':'May', '6':'Jun',
         '7':'Jul', '8':'Aug', '9':'Sep', '10':'Oct', '11':'Nov', '12':'Dec'}
    weekday = d[str(aday.isoweekday())]
    month = m[str(mon)]
    pubdate = "%s, %d %s %s %s %s" % (weekday, day, month, year, time, timediff)
    return pubdate
 
def validateEmail(email):
    '''
    '''
    pattern = r'^[0-9a-z][_.0-9a-z-]{0,31}@([0-9a-z][0-9a-z-]{0,30}[0-9a-z]\.){1,4}[a-z]{2,4}$'
    p = re.compile(pattern)
    m = p.match(email)
    if m:
        return True
    else:
        return False
 
def validateUrl(url):
    '''
    '''
    pattern = r'^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$'
    p = re.compile(pattern)
    m = p.match(url)
    if m:
        return True
    else:
        return False
 
def main(argv=None):    
    global filename
    global owner
 
    if argv is None:
        argv = sys.argv
    # parse command line options
 
    args = sys.argv[1:]
    order='asc'
    if (len(args) == 2):
        print ('Converting...'),
        sys.stdout.flush()
        start = time()
        filename = args[0].replace('.xml', '')
        owner = args[1] # BlogBus没把博主名字输出，只能手动
        convert(args[0], args[1], order)
        end = time()
        print ('Done. Elapse %g seconds.' % (end - start))
 
if __name__ == "__main__":
    sys.exit(main())
</p>

''' ***使用说明*** 终端界面输入xbus2wp.py bus.xml xrspook。其中： xbus2wp.py为脚本名字，bus.xml为BlogBus导出文件，xrspook为博主名字，3个参数以空格分开若运行无误，输出的文件名为[原文件名_xbus2wp.xml] 脚本基于python3，适配WordPress 5.4.2（2020-06-18） ''' import re, sys, getopt, datetime from xml.dom import minidom from time import time def convert(inputFileName, owner, order='asc'): """""" try: xmldoc = minidom.parse(inputFileName) except Exception as e: print ('Fail.') print (e) print ('Please repair or delete invalid token like "& < >" there.') sys.exit(1) bus = xmldoc.documentElement logs = bus.getElementsByTagName('Log') dom = minidom.Document() rss = dom.createElement('rss') # rss是root，根元素 dom.appendChild(rss) rss.setAttribute('version', '2.0') rss.setAttribute('xmlns:content', 'http://purl.org/rss/1.0/modules/content/') rss.setAttribute('xmlns:wfw', 'http://wellformedweb.org/CommentAPI/') rss.setAttribute('xmlns:dc', 'http://purl.org/dc/elements/1.1/') rss.setAttribute('xmlns:wp', 'http://wordpress.org/export/1.0/') channel = dom.createElement('channel') rss.appendChild(channel) wxr_version = dom.createElement('wp:wxr_version') # 加入wxr戳，无戳无法进行WordPress导入 channel.appendChild(wxr_version) wxr_version_node = dom.createTextNode('1.1') wxr_version.appendChild(wxr_version_node) busname = bus.getElementsByTagName('BlogName')[0] # 提取原BlogBus名字 busname_text = getElementData(busname).replace(' ', '_') # create a list to contain items instead of appending them to # channel directly in order to sort them of lately according to order. if order == 'desc': item_list = [] else: item_list = None for log in logs: title = log.getElementsByTagName('Title')[0] title_text = getElementData(title) content = log.getElementsByTagName('Content')[0] content_text = getElementData(content) logdate = log.getElementsByTagName('LogDate')[0] pubdate = getElementData(logdate) writer = log.getElementsByTagName('Writer')[0] creator = owner # BlogBus的writer根本没包含元素！ category = getElementData(log.getElementsByTagName('Sort')[0]) tagi = log.getElementsByTagName('Tags')[0] tags = getElementData(tagi).split(' ') new_tags = unique_tag(category, tags) # 新的wp标签里包含了原BlogBus里的分类与标签 comments = log.getElementsByTagName('Comment') #----- item = dom.createElement('item') # handle title title_element = createElement(dom, 'title', title_text, 'cdata') item.appendChild(title_element) # handle type type_element = createElement(dom, 'wp:post_type', 'post', 'cdata') item.appendChild(type_element) # handle pubdate pubdate_element = createElement(dom, 'pubDate', convertPubDate(pubdate)) item.appendChild(pubdate_element) # handle creator creator_element = createElement(dom, 'dc:creator', creator, 'cdata') item.appendChild(creator_element) # handle categories with domain category_element = createElement(dom, 'category', busname_text, 'cdata') # 把BlogBus标题设置为分类，因为我要合并多个旧blog category_element.setAttribute('domain','category') category_element.setAttribute('nicename', busname_text) item.appendChild(category_element) # handle tags for tag in new_tags: tag = tag.replace('ñ', 'n') tag = tag.replace('summary_of_BLF', 'summary_of_BLF(from_rincondebetty)') tag = tag.replace('summary_of_EcoModa', 'summary_of_EcoModa(from_rincondebetty)') category_element = createElement(dom, 'category', tag, 'cdata') category_element.setAttribute('domain','post_tag') category_element.setAttribute('nicename', tag) item.appendChild(category_element) # handle content content_element = createElement(dom, "content:encoded", content_text, 'cdata') item.appendChild(content_element) # handle post_date post_date_element = createElement(dom, "wp:post_date", pubdate) item.appendChild(post_date_element) # handle status status_element = createElement(dom, "wp:status", 'publish') item.appendChild(status_element) # handle comments if comments: commentElements = createComments(dom, comments) for commentElement in commentElements: item.appendChild(commentElement) if item_list != None: item_list.append(item) else: channel.appendChild(item) if item_list: item_list.reverse() for m in item_list: channel.appendChild(m) global filename # 输出设置 output = filename + '_xbus2wp.xml' f = open(output ,'wb+') import codecs writer = codecs.lookup('utf-8')[3](f) dom.writexml(writer, '', ' ' * 4, '\n', encoding='utf-8') writer.close() def unique_tag(category,tags): # 只保留唯一的标签 category = category.replace(' ', '_') l = category.split() + tags new_l = [] for item in l: if item not in new_l and item != '(from_rincondebetty)': new_l.append(item.replace(' ', '_')) # 替换空格为下划线 return new_l def getElementData(element): # 获取节点数据 """""" data = '' for node in element.childNodes: if node.nodeType in (node.TEXT_NODE, node.CDATA_SECTION_NODE): data += node.data return data def createComments(dom, comments): """""" l = [] count = 0 for comment in comments: count += 1 # 每篇文章的评论序号，没有序号，评论只能导入每篇最后一条 email = comment.getElementsByTagName('Email')[0] homepage = comment.getElementsByTagName('HomePage')[0] name = comment.getElementsByTagName('NiceName')[0] content = comment.getElementsByTagName('CommentText')[0] date = comment.getElementsByTagName('CreateTime')[0] comment_element = createCommentElement(count, dom, email, homepage, name, content, date) l.append(comment_element) return l def createCommentElement(count, dom, email, homepage, name, content, date): """""" comment_author = getElementData(name) comment_author_email = getElementData(email) comment_author_url = getElementData(homepage) comment_date = getElementData(date) comment_content = getElementData(content) comment_id_element = createElement(dom, 'wp:comment_id', str(count)) comment_author_element = createElement(dom, 'wp:comment_author', comment_author) comment_author_email_element = createElement(dom, 'wp:comment_author_email', comment_author_email) comment_author_url_element = createElement(dom, 'wp:comment_author_url', comment_author_url) comment_date_element = createElement(dom, 'wp:comment_date', comment_date) comment_date_gmt_element = createElement(dom, 'wp:comment_date_gmt', comment_date) comment_content_element = createElement(dom, 'wp:comment_content', comment_content, 'cdata') comment_approved_element = createElement(dom, 'wp:comment_approved', '1') # make the comment element comment_element = dom.createElement('wp:comment') comment_element.appendChild(comment_id_element) comment_element.appendChild(comment_author_element) # validate email and url validEmail = validateEmail(comment_author_email) if (validEmail): comment_element.appendChild(comment_author_email_element) validUrl = validateUrl(comment_author_url) if (validUrl): comment_element.appendChild(comment_author_url_element) comment_element.appendChild(comment_date_element) comment_element.appendChild(comment_date_gmt_element) comment_element.appendChild(comment_content_element) comment_element.appendChild(comment_approved_element) return comment_element def createElement(dom, elementName, elementValue, type='text'): #建立节点标签和节点 """""" global owner tag = dom.createElement(elementName) if elementValue.find(']]>') > -1: type = 'text' if type == 'text': text = dom.createTextNode(elementValue) elif type == 'cdata': elementValue = elementValue.replace('&', '&') elementValue = elementValue.replace('<', '<') elementValue = elementValue.replace('>', '>') elementValue = elementValue.replace(''', '\'') elementValue = elementValue.replace('"', '"') # 大量替换与我的旧blog有各种编码的西班牙语字符有关 elementValue = elementValue.replace('©', '') # 版权标志 elementValue = elementValue.replace(' ', '') # 空格 elementValue = elementValue.replace('“', '“') # 左双引号 elementValue = elementValue.replace('”', '”') # 右双引号 elementValue = elementValue.replace('‘', '‘') # 左单引号 elementValue = elementValue.replace('’', '’') # 右单引号 elementValue = elementValue.replace('´', '´') # 单引号 elementValue = elementValue.replace('…', '...') # 省略号 elementValue = elementValue.replace('—', '—') # 破折号 elementValue = elementValue.replace('·', '·') # 分隔号 elementValue = elementValue.replace('°', '°') # 单位度 elementValue = elementValue.replace('¡', '¡') # 西班牙语反叹号 elementValue = elementValue.replace('¿', '¿') # 西班牙语反问号 elementValue = elementValue.replace('ñ', 'ñ') # 西班牙语n elementValue = elementValue.replace('Ñ', 'Ñ') # 西班牙语N elementValue = elementValue.replace('á', 'á') # 西班牙语a elementValue = elementValue.replace('é', 'é') # 西班牙语e elementValue = elementValue.replace('í', 'í') # 西班牙语i elementValue = elementValue.replace('ó', 'ó') # 西班牙语o elementValue = elementValue.replace('ú', 'ú') # 西班牙语u elementValue = elementValue.replace('Á', 'Á') # 西班牙语A elementValue = elementValue.replace('É', 'É') # 西班牙语E elementValue = elementValue.replace('Í', 'Í') # 西班牙语I elementValue = elementValue.replace('Ó', 'Ó') # 西班牙语O elementValue = elementValue.replace('Ú', 'Ú') # 西班牙语U elementValue = elementValue.replace('Ã', 'Ã') # 西班牙语A~ elementValue = elementValue.replace('ª', 'ª') # 西班牙语上标a elementValue = elementValue.replace('º', 'º') # 西班牙语上标o elementValue = elementValue.replace('', '') elementValue = elementValue.replace('博主', owner) elementValue = elementValue.replace('', '') elementValue = elementValue.replace('', '') elementValue = elementValue.replace(' ', ' ') elementValue = re.sub(r"(?:<\?xml.*?>)", "", elementValue) elementValue = re.sub(r"(?:<[TDSFHI].*?>)", "", elementValue) elementValue = re.sub(r"(?:<\/[TDSFHI].*?>)", "", elementValue) elementValue = re.sub(r"(?:<P.*?>)", "", elementValue) elementValue = re.sub(r"(?:<(table|tbody|tr|td|div|span|img|script|font|hr|object|param).*?>)", "", elementValue) elementValue = re.sub(r"(?:<\/(table|tbody|tr|td|div|span|img|script|font|object).*?>)", "", elementValue) elementValue = re.sub(r"\n", "", elementValue) # 把替换造成的空行删除 text = dom.createCDATASection(elementValue) tag.appendChild(text) return tag def convertPubDate(date, timediff='+0000'): """ convert 2003-08-22 16:01:56 to Thu, 23 Aug 2007 05:47:54 +0000 """ year, mon, day = int(date[:4]), int(date[5:7]), int(date[8:10]) time = date[11:] aday = datetime.datetime(year, mon, day) d = {'1':'Mon', '2':'Tus', '3':'Wen', '4':'Thur', '5':'Fri', '6':'Sat', '7':'Sun'} m = {'1':'Jan', '2':'Feb', '3':'Mar', '4':'Apr', '5':'May', '6':'Jun', '7':'Jul', '8':'Aug', '9':'Sep', '10':'Oct', '11':'Nov', '12':'Dec'} weekday = d[str(aday.isoweekday())] month = m[str(mon)] pubdate = "%s, %d %s %s %s %s" % (weekday, day, month, year, time, timediff) return pubdate def validateEmail(email): ''' ''' pattern = r'^[0-9a-z][_.0-9a-z-]{0,31}@([0-9a-z][0-9a-z-]{0,30}[0-9a-z]\.){1,4}[a-z]{2,4}$' p = re.compile(pattern) m = p.match(email) if m: return True else: return False def validateUrl(url): ''' ''' pattern = r'^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$' p = re.compile(pattern) m = p.match(url) if m: return True else: return False def main(argv=None): global filename global owner if argv is None: argv = sys.argv # parse command line options args = sys.argv[1:] order='asc' if (len(args) == 2): print ('Converting...'), sys.stdout.flush() start = time() filename = args[0].replace('.xml', '') owner = args[1] # BlogBus没把博主名字输出，只能手动 convert(args[0], args[1], order) end = time() print ('Done. Elapse %g seconds.' % (end - start)) if __name__ == "__main__": sys.exit(main())

标签：blogbus, python3, wordpress, xml, 扮IT, 脚本, 转换

评论关闭

1 2 »

我的天

进一步优化和debug

黑屏是什么鬼

改进

做到了

BlogBus 2 WordPress – by xrspook

戳这只鬼

随机日志

我的天

进一步优化和debug

黑屏是什么鬼

改进

做到了

BlogBus 2 WordPress – by xrspook

戳这只鬼

标签云了

随机日志