2018-06
12

图片文字识别

By xrspook @ 8:59:18 归类于:烂日记

因为很懒,不想把小说里面的东西一页一页地通过键盘输入。所以我想找一个可以拍照然后转化为数字格式文字的软件。其实文字识别这种东西,很久以前在PDF里已经可以,但问题是识别的效果有时真的很糟糕。尤其是遇到纯图片的PDF,从前的识别软件几乎无解。即便某些文献里不是图片的文字有时也会识别错误。十几年过去了,这些技术难道就没有发展吗?手机上安装了个Google Translate,他们有一个很屌丝的功能:当你把要翻译的东西放在他们镜头底下某个区域,他们就可以把那里的文字直接翻译成你需要的语言,毫无PS痕迹。这种效果是动态的,虽然很炫酷,但只对词语有效,而且我觉得只能停留在玩一年玩的水平。我需要的东西不是翻译,而是直接把汉字给我识别为汉字就可以了。

据说小米的系统MIUI 8扫一扫就隐藏了这个功能,我迫不及待了试了一下,结果让人很失望,因为识别出来的东西简直就是乱码一般狗屁不通。WPS也有这个功能,但他们识别出来的效果也不好,虽然那个功能,对非VIP来说只能用几次,但即便是这种VIP的功能其实也不好。我不想在手机里再安装其它软件,于是继续搜索,结果发现原来QQ的扫一扫也有这个功能。既然QQ扫一扫可以,所以我觉得微信的扫一扫应该也差不多吧,然后呢,我发现微信的扫一扫貌似只对二维码感兴趣,对文字识别无感。但是QQ的扫一扫就很强大,可以识别文字,也可以识别图片里那个是谁。这很方便,突然看到某个人的照片,尤其是明星类的,想不起他叫什么名字,拿QQ过去扫一扫就可以了。虽然他们说可以这样,但是我没试过拿QQ对着明星扫一扫。我的确拿QQ往书上扫一扫了,结果实在让人太惊喜,QQ识别的速度很快,而且只要你拍照恰当,光源合适,出来的效果相当好。有了这个神器,基本上遇到纸质的书本我们就不用烦了,但是因为这种扫一扫需要配合一定的条件,得出的文字才会准确。如果只是一两页纸扫一扫那是相当的爽,但如果你得想搞一本书,那就真的很痛苦了,不如在网上找一找有没有电子版的比较快捷。我想到的是既然他们可以通过这样的扫一扫识别文字,估计也有软件可以针对PDF里的图片识别出文字,而且速度要比这个快很多,之前我也的确干过这种事,因为当时要把PDF版本的东西放到kindle里阅读。虽然用kindle直接打开PDF也可以,但是阅读会非常辛苦,所以我通过某个软件把PDF转化为kindle专用的mobi。PDF里像图片一样的文字被识别为数字格式,但问题是那是本英语书。有些单词被分在两行,识别会把那当作两个东西,于是阅读的时候你就头大了。你必须具备神一般的单词合并能力进行脑补。既然英语可以识别,中文估计也没问题,但中文的复杂程度要比英语高很多。前晚本打算十点多就睡觉,结果因为这个扫一扫,扫了十几页纸,于是折腾到了11点多才睡觉。

科技进步,人活得越来越爽。

2015-07
23

初次读完《我行我素》

By xrspook @ 13:28:10 归类于:烂日记

2015-06-28知道曾经有名叫Christina Daniels的人为Aamir Khan写过一本叫做《I’LL DO IT MY WAY》(我行我素)的书。知道有这本书的那天,我就轻易地找到了PDF版,并把那上传到了我的kindle阅读器。我的kindle上有2个版本,一个是PDF版,一个是经过P2K转换的MOBI版(MOBI版看不到插图,但PDF版可以,虽然打开/放大很慢)。网上流传的PDF版是扫描货,可想而知在6寸kindle上阅读效果有多么的糟糕,别说6寸的kindle,即便是7.9寸的小米平板阅读也很艰难。我至今都觉得纯粹扫描的东西在随身电子平板上看很困难。至于那本书的MOBI版本,是从PDF版本那里进行过字母识别转换的。大多数内容你都可以看懂,但不习惯的时候会感到比较吃力,因为有些字母会识别错误,比如说“h”变成了“b”,“i”变成了“l”等等,不是每个字母都会发生这种事,概率我也不知道算不算是随机的了,反正“Aamir”明明里面有“i”却从未被识别为“Aamlr”。具备人脑纠错字母功能是必须的。让我觉得最不习惯的当数神一般的断词。PDF是图片,MOBI是文本,MOBI里经常性习惯性会有些你看着熟悉但觉得怪怪的词,实际上那一点都没问题,很多时候不过是单词的前半和后半之间有莫名其妙的空格而已(可能因为PDF的单词断行?)。一开始,那简直让我抓狂死了~ 那种阅读节奏经常被无端端的暂停打乱,挺让人恼怒。但后来,我居然习惯了,就像别人不理解我怎么可以忍受单位的检验搭档一样,当你无计可施、非如此不可的时候,自然会有路。

2015-07-04(星期六),我在万国奥特莱斯的KFC开看I’LL DO IT MY WAY。我用了一次看书大概1个多小时的时间就已经习惯了字符识别错误和断词有问题。just enjoy the book就好,书里说到的故事比那些什么规则上的硬伤重要多了,只要我入戏,一切都难不倒我。到昨天(2015-07-22)为止,我用了20天不到的时间把200多页的书看完鸟。我在KFC看,在家里看,在车上看,在单位看,在上课的时候看,坐着看,躺着看…… 我最喜欢的看书地点是万国KFC的随便某个座位或者检验室的某个角落。吵杂也好,安静也好,明亮也好,昏暗也好,对我来说有个场所,有不让我感到压迫着急的时间慢慢看我就心满意足。一边看我还一边用手机截图发围脖分享我看书的感受。kindle有选择语句的分享功能,但很多时候我有感而发的是一大段话甚至是连续几页,当然那般分享是不行的,所以,照相来得更暴力直接。一开始,我总是觉得右下角显示的看书进度(百分比)怎么老是那么慢,但后来,尤其到了这周,我在默默祈祷着别这么快结束好吗?!昨天我是大概从90%开始的,但没看几页就没了,因为书的后面是编者说以及一些AK的作品目录及获奖情况。在看到80%多的时候我已经在想我要不要看完后再看一次?因为我觉得前面的东西我有些模糊了,尤其是谈到AK早期电影的时候,编剧导演制片演员还有片名都是陌生的,那些东西我都没有接触过完全不了解,而且由于那些东西当时并不很有名,所以篇幅不长也没有特吸引人注意力的故事。现在,AK早期的电影我已经看过了一些,所以重读那些部分我应该会不同的感触。

今天,我刚在淘宝上入手买下I’LL DO IT MY WAY的纸质书。那本书定价是好像接近500卢比,我的入手价是接近190元。美亚最便宜的价格是大概10美金,10美金的书,加上10-15美金的运费,也就大概150元左右的样子,但问题是我在淘宝上那已经是印度直接带回来放在天朝的现货了,几天就到,美亚没有直营那本书,而只是一些个人在经营,所以,还是多给些钱给天朝朋友吧。印度到天朝明明不远,印度和天朝国内的运费应该都不贵,但有些东西不是理所当然那么简单。说来也好笑,卖书的那家淘宝店居然标题是“自传”卧槽!AK写过blog,但不曾写过自传好吗!那本书是别人给他写的传记!!!

I’LL DO IT MY WAY,挺客观的,作者用她的思路把AK的成长历程展示出来,有她自己的观点,但不多。这本书最有价值的部分是里面有大量和AK合作过的电影导演制片之类的采访,所以可以这么说,这是一本从其他人评价的角度来反映AK进化的书。里面除了那些以外还会引用AK自己在各种公开场合下说过的话,以及一些媒体在各种媒介上发表的评价。这些都很重要,不过呢,这些东西用多了,感觉会让人觉得那是在网上搜索东拼西凑,虽然仍可以按照作者的思路去开展,但感觉会很零碎很让人着急。我看过加西亚·马尔克斯的传记,也看过Rey Mysterio的传记,那两本书完全是按照时间顺序去写的,所以一路下来都很顺畅。但这本I’LL DO IT MY WAY的某些章节会让我感到突兀。比如说好不容易谈电影从80年代到了90年代中期,突然就不继续下去了,而是插入了那段时间不同影人的采访,谈他们对他们的电影和对AK的评价。在这种写法上,我是有点感到诧异的。为什么就不可以完全按照电影的顺序来呢?如果无法按照时间顺序来,可以按照不同合作导演来归类介绍电影啊。米叔是演员,也是影人,要谈他一定得谈他的作品。到底该用什么模式分类叙述故事呢?我显然不大同意作者用的节奏。其实她完全可以以编年的方式把电影一路下来。然后再以分类导演/编剧/制片采访的方式继续。当然了,这般搞可能作者会觉得有点跟她要展现米叔心路历程的初衷偏离得有点远。但显然,如果按照我的方式去表现的话,框架结构会更好,思路会更清晰。我之所以这么觉得,或许是被wiki上的资料影响的吧,不知不觉中,我已经形成那个思维模式了。

今天,如无意外,我应该会开始重读I’LL DO IT MY WAY。

归档:2015-07-23 热血沸腾(下)。

2015-07-23_stamp01

2015-07-23_stamp02

2015-07-23_stamp03

2015-07-23_stamp04

2015-07-23_stamp05

2015-06
12

咸鱼翻生

By xrspook @ 15:09:23 归类于:烂日记

连续喝了2天的黄芪煲水后,我终于觉得自己没有那么神经质地冒汗了。对温度的适应能力感觉好了,是在空调里不觉得冷,在没空调的地方不会狂飙汗的状态。我觉得,夏天的挑战比冬天的还大。冬天室内外有温差你多穿衣服或者说让自己动起来产生热量也就能解决问题了,但夏天的温差,你根本无法逃避,衣服脱掉,即便脱光了也不能解决问题,总不能把皮扒掉吧(皮扒掉了连毛孔散热都没了)。所以呢,夏天真心考验人的自我调节能力,尤其是在广东这种热半死的地方。到底是心理作用还是真的是黄芪起了作用我不知道。反正我的舌头还是那般白得吓人。牙齿印是一直以来都有的,但自从我开始狂冒汗舌头就一直很白很白,马勒隔壁,简直是大白啊啊啊!这一期的大姨妈拖的时间很长,如果不做点什么估计2周都停不下来,停不下来的结果是会让我缺铁,哪怕每天的量都很少。所以阿胶糯米酒鸡或者姜醋之类的要出动了!

还是学生的时候觉得拿对讲机是很帅的事(电视电影之类的看多了),但工作以后,那就不是耍帅那么简单了,拿着开着个对讲机就意味着on call。随时待命,肯定在出勤,可能是在办公室和测温房之间来回跑动,可能是在卸粮现场取样。对讲机变得不再帅,反而那块砖头大的东西是个负担。如果是在办公室你还可以扔在桌面上,但如果在外呢?别在哪里?夹在哪里呢?无论夹在身体的什么衣物上,那都是个累赘。

昨天开始看The Big Book of Endurance Training and Racing,这是某教授MAF训练法的经典大作!很久以前我就想看了,Google图书馆有免费的PDF和EPUB格式,亚马逊中国进口原版纸质书的售价从来都是¥121,湛庐文化有计划要把这本书引进并翻译,但我都等1年了还没等到。趁着我Kindle热的东风,某天我费尽九牛二虎之力把这书转成了适合6寸Kindle的版本。Kindle可以辨认PDF,但Google下载回来的PDF直接放进Kindle看那是想死的节奏,字太小了好吗!我某天之所以折腾是因为我试图把PDF版本的转为MOBI或TXT,要费很多时间,同时也无能。用Adobe的Acrobat 8.0转换出来我推送到自己的Kindle上以后才发现有些非常莫名其妙的错字。然后我下载了大名鼎鼎的Calibre,Calibre的转换比Acrobat快,也没有错字,但问题是换行也太多了吧!仔细观察后发现,尼玛原来PDF文档里每一行的内容都被辨认成自然段了,我那个去!绝望的时候我试着用EPUB的版本去转换,AUV!居然成了!效果还相当的完美!就这样,我第一次成功地DIY整出了适合自己Kindle版本的电子书

通常来说,看外文书的时候我都会囫囵吞枣,从来都不会一边看书一边查字典,也不会把不懂的词抄下来,看完以后再去探究。用Kindle看外文书就很方便,长按单词就能看到翻译,进行一番设置后还能自动把查过字典的单词添加到我们的私人单词本,学习外语不正是需要这么个过程么!我的英语一直都只是凑合着,很大程度是因为我一直懒掉这些步骤。老师要求、得测验考试的单词我会去背,但在其它时候,尤其是在阅读各种资料里看到不懂的我通常都只是直接忽略,联系上下文我的确能估出个大概意思,或者,有些时候我根本不需要猜某个陌生词的意思我也能把阅读题做对。但不好,我其实在投机取巧、侥幸获胜。Kindle简直傻瓜式的查字典并自动记录功能如果我能一直坚持下去说不定外语水平会达到某个新高度呢!昨晚,我把Rosetta Stone的拉丁美洲西班牙语的PDF教科书也放进了Kindle。在PDF上无法用查字典功能,把PDF转成MOBI可以用词典了,但格式却混乱,甚至出现莫名其妙的字符。这是个很两难的抉择,所以我两个版本都留着。

Kindle的加入让我刹那间把从前想读爱读的东西都一下子咸鱼翻生了,感觉太奇妙~

2015-03
6

不畅快地活着

By xrspook @ 13:50:37 归类于:烂日记

已经看那些神马关于食用油/植物油/油脂之类的东西好几天,但至今没有什么我觉得很好玩的点子有blow me的感觉。研究油的那些人都太单一,那种让我着迷的高精尖几乎没有,让人沮丧。看过超过40篇的东西以后我得出结论,与其看文献,不如直接打开《粮油储藏学》开始抄写,很无聊,没进展没新观点,没有一个让人觉得有前途需要继续研究的必要性。找不到必要性就不会有目标,没有目标当然就会很彷徨。

为了打开硕士博士论文的.caj文件于是装了个叫做“易晰CAJ阅读器”的东西,结果噩梦开始了。所有相关的文件都变成了那个该死的关联图标,在我删除了那个阅读器以后还是那样。安装那个破玩意到删除只几分钟,但后续要把东西恢复却耗费了我几小时。最终解决方案是用金山卫士清理注册表,把那些已经滚蛋了程序的注册表信息拔干净。然后在注册表里修改个东西,最后是在文件夹选项里重新选择Adobe阅读器。经过很多很多的折腾我总算把PDF文件恢复了原样!为什么可以这么霸道,在安装的时候就把所有注册表都修改为默认那个阅读器,真恶心!后续我治病过程中修改注册表感觉是重新让系统知道打开那个格式的文件需要重新绑定默认打开方式。最后在文件夹选项里再次确定就彻底确立了Adobe的阅读器才是PDF文件打开的王者。每个都抢着要当默认打开程序,如果Adobe阅读器的选项里本来就有个“设置为默认阅读器”的功能估计就不需要我那么烦恼了,Adobe自己会自行解决注册表被强奸的问题。这种反强奸在浏览器里很普遍,很多浏览器都会非常自觉地一打开就告诉你它不是默认浏览器,建议你把它设定为默认,即便你选择了“下次不要提醒”浏览器更新过后可能还是会提醒你要干那种事。浏览器的“地盘意识”相当强,但可惜Adobe阅读器不是。它是属于我感觉我无敌好寂寞,不需要为了抢占市场份额而做那些多余的防备。

上一次写综述是什么时候?记忆之中那门课好像叫做“食品工业新技术”?具体名字不知道是不是这个,反正就是好几个老师一同组合教学的课程,不同老师负责不同的章节。课程没有教材,纯粹是靠老师的科学触觉以及擅长方向决定教学内容的课程。我被分到的综述内容大概是超临界CO2在萃取方面的应用,但当时我已经完成了毕业实验的前期工作,其中一部分就是折腾超临界CO2杀菌/灭菌的。所以我就弱弱偷换了内容写了那个综述。因为负责我那篇综述的是个我觉得挺烦的女老师,所以在交作业之前我向她确认了我这么干行不行,她说不可以。所以我又整了一篇萃取的,交作业的时候两篇都交了上去。反正我作业做好了,还额外做了一份,你不喜欢扔掉就好。貌似那个课程的最终成绩主要就是靠那篇综述质量确定了,我的得分还不错。当时纯粹是为了气死憋死那个我有点烦的女老师才这么干,但那只是我很幼稚的想法。如果我站在女老师的角度,有个学生居然这么整,我会挺高兴,虽然我不说出来。毕竟超临界CO2这种玩意其实无论是用在哪个方面,就当时而言都是比较新奇好玩的东西。这个学生居然对这项技术运用的两个领域都进行了探索,很好,单是那种主动性就不错了,无论TA到底初探得够不够深入全面。

好吧,大概国内的油脂相关的玩意就这样了,我得开始去外文期刊那里转转找找新灵感。

2013-10
11

PDF提取图片那些事

By xrspook @ 20:08:59 归类于:烂日记

现在,我在考虑今晚要不要换个地方做那9组腹肌运动了。昨天我是右侧躯干至大腿痛,今天,我是脊椎感觉怪怪,所以的话,要在硬板桌面折腾完大概前后耗时20分钟的那9组运动貌似即便我能撑过来对我的身体其实也是有伤害的。我去哪里找适合的场地呢?回宿舍在床上做?在家我就是床上做的,很顺畅无压力,但我哪怕找不到适合的,瑜伽垫在地上做我也不会回宿舍在床上做。

今天感觉有几分无聊,因为昨天傍晚才送过去的几个样品我傍晚就赶完了,今天除了一个客户带过来的样品就没有样品可做,空虚寂寞无聊。

所以的话,上午我就把这周PPV和Raw的720p视频给剪完并上传完了。至于下午,我也不知道我的时间到底是怎么花掉的。反正我从用zinio的网页版打印了我要节选的几页WWE Magazine,用Adoble PDF打印,因为我的电脑里装有Adobe Acrobat 8 Professional,在打印首选项里我选择了高品质打印。为什么要用Adoble Print呢?因为用其他比如说TinyPDF或pdfFactory Pro打印的时候总会有边框,而用Adoble Print的话右边只有1个像素的白线,余下就只有底下部分的空白。打印出PDF后再用Acrobat 8把页面以jpg的形式输出,在PS里看看到底去掉空白边的部分多大以后使用IrfanView批量裁剪。虽然我用的是高质量打印,但导出图片的时候jpg我没设置,把导出的多个PDF合并为一个pdf的时候我也只是选择默认(zinio不允许一次性打印多页,所以我只好苦逼地一页页打印PDF然后再合并为大的PDF,最后才提取图片),裁剪图片的输出质量我也没设置,所以的话,一系列下来肯定图片质量降低很多的。不过呢,杂志上的文字还是妥妥地看得很清晰的,所以的话,还可以吧。

这个WWE Magazine 2013年10月刊节选我除了展示那个杂志以外我也把《肌肉健美训练图解》的一些相关教程也贴上去了。而且还是中文英文版都贴了!英文版的PDF真变态,居然不允许页面提取,于是我又只好苦逼地用PDF打印的方式提取页面。不比不知道,一比吓一跳,那本专业图解里的图、注释、说明完胜WWE Magazine的几个太平洋啊啊啊啊啊啊啊啊啊啊!!!

即便你不是健身控,即便你甚至是那种很讨厌筋肉男的类型,看看我的辛勤劳动也是无妨的。毕竟,今天我在努力探讨的并不是健身本身,而是如何运用PC做电子杂志/电子刊物的编辑与整理,哈哈哈。

到点了,要开始动起来了哦~

Page 1 of 212»
COPYRIGHT @ 我的天 | Theme by xrspook | Power by WordPress | Valid XHTML 1.1 and CSS 3 Go to top