2013-03
14

GR把我们给飞了

By xrspook @ 17:42:33 归类于:烂日记

今天收到消息,Google Reader要在2013-07-01关闭,我顿时震惊了。是GR让我认识什么是rss,怎么才可以快捷方便订阅阅读,一直以来我都有GR吸收信息的习惯(论坛除外),rss可以节省大量浏览博客、新闻网站的时间。对我来说RSS = Google Reader,当GR离我而去,我可以怎么办?!!!!!!

还记得我参加的第一个拿到奖品的互联网活动是Feedsky的拼博到底,已经过去5年有多了。从前我是用Feedburner的,后来也用Feedsky,但现在GR没了,所有这些feed还有什么意义?!!!!而Google要关闭GR的一个很重要的原因是GR让读者无需走遍网站就能获取信息,这跟他们的主流广告价值观相违背,这不能让有Google广告的网站盈利,GR伤害了网站主人的感情,Google自己的利益也间接受到伤害。于是GR现在仿佛变成了美丽的传说!

其实如果网站主人要客人必须网页访问他们完全可以禁止输出网站的rss,但现在,基本所有网站,所有框架靠谱的网站都会有rss,没有了把他们统一起来的GR,rss也只会沦为美丽的传说。

到底我们哪里错了?!我们哪里都没错!我们只是想更快捷干净纯粹地阅读而已!

已经忘记了我是什么时候开始用GR的了,但今天从Takeout导出的.zip数据刚好10MB,那是纯粹字符来的啊!多少的积累才会达到10MB?!

今天据说是白色情人节,但今天对xrspook来说就像被GR这个多年的情人突然抛弃,万分无奈。

我希望Google能逆转这个全世界人民都会为之发狂的噩耗,但如果真的不能,我觉得应该会有仿GR的Chrome插件、Firefox插件涌出。GR是个神话,他击倒了无数免费/收费的RSS阅读器,所以,当GR金盆洗手,或许是另一个厉害东西诞生之时。虽然,做RSS阅读器纯粹是为人民服务基本无任何盈利可言的RP产品。

从前我不知道XML是什么,不知道RSS是什么,好不容易我知道了,爱上了,现在解读这些东西的机器却停产,情何以堪?!我拒绝当纯粹浮夸的的围脖人!!!!!!

2011-07
7

抓头 – 嵌套div的正则提取

By xrspook @ 17:50:04 归类于:烂日记

很傻很天真的以为用正则可以轻易提取出div里的层层嵌套div,结果囧得厉害。div的开头通常都带有class或id,唯一,且容易辨认,但div的结尾,清一色的“/div”,真会搞死人。网络上流传的提取div版本貌似都不太可行。在一坨里提取一堆只是第一步,第二部还得把提取到的内容xml数组化。

其实呢,我也有想过一开始就对所有内容xml数组化,不过,信不信由你,从最开始那层<>到我要提取的那些内容少说也有15层,而且如果那些网页设计者好心加一层或减一层,我又得慢慢摸到底哪里出问题了。所以,用xml数组化是个思路,但“解剖”源数据的工作量不少且维护困难。毕竟,这不是5层,这是15层+啊!怨念那些穿那么多层衣服的网页。

正则难提取嵌套div,xml太郁闷,咋办呢?

我还有一个很天真的办法,手动选取要提取部分的代码然后贴到程序里提取。这么一来就解决了难提取困难的问题,当然啦,都手动干了,还有什么难不难的,这个办法很低级,但一定可行。

怎么办呢,怎么办呢?!

应该是我想得还不够深入,再花点时间动动脑筋好好琢磨琢磨吧。

今天很坏地想到用正则提取,table输出,然后直接Excel粘贴保存,早上还在兴奋这个伟大思路,下午就发现正则把我卡死,生活真是个悲喜剧。

别囧,我有的是时间,一定可以的!

2010-11
17

建立YARK日志

By xrspook @ 21:29:21 归类于:烂日记

发觉很有必要建立一个YARK的日志,记录其成长,因为自己每天都有新发现,每天都在改进,不一一记录下来实在可惜,这可是很重要的版本信息哦!

******************* YARK专栏 *******************
2010-11-17
update
* 合并WWE和TNA生成功能,其实就是简单地用选择语法把2个页面的功能合并起来,操作起来很简单。其实一个开始为什么会分开呢?因为我懒,直接“另存为”就开始修改编写了。
* 增加了几句自动说明,比如说什么都没有的时候提醒要输入;输入了完全不搭调东西的时候提醒错误。
bug
* 突然发现TNA的自动rss只输出了25组信息,可恶!昨晚太兴奋,只看到有信息输出,却没有留意数量,rss的数量肯定是可以由TNA自己控制的,所以如果我完全依赖自动rss输出会很被动。
plan
* 要不寻找XHTML转XML的,要不直接直接提取XHTML为己用,对TNA的这种网页,我只能动作更多更主动了。
* 很懒的TNA用的是ZenPhoto RSS Generator的系统贴图和生成图片的RSS,噢~~~ 开源的哦,可以研究一下ZenPhoto然后再作对策。
******************* YARK专栏 *******************

与天斗、与地斗都不如与人斗有趣。

2010-11
16

激情与神经病

By xrspook @ 23:30:47 归类于:烂日记

昨天19977里有人提出图片区可否增加TNA的官图,其实如果TNA不是BT的话,贴与不贴只是个习惯的问题,但是TNA的图片很BT,右键还不能保存的那种。

首先Photo Galleries使用的是近似框架形式的大概js手段,按链接是看不到网址改变的,不过,我的癖好是“在新标签页中打开”,打开后,网址又见变化了。这是第一个手段,算是很一般。

然后,重头戏,TNA的图片全部采用.php保护,所有图片的格式都被强制变成了***.jpg.php,Firefox下右键还不能保存到图片,保护严密。还记得之前2次PPV都把我害得几近手抽筋。

TNA的图片页面很是邪恶,但它给出了订阅按钮,也就是说页面是标准rss化的。rss意味着什么?rss就意味着XML,而且它的rss还是全部输出的类型,一页的rss就能输出整个系列的全部内容。刚刚熟悉了XML的格式化和信息提取,再次让我碰上新朋友,无比的兴奋。经过不太折腾的尝试后,也居然把从前的大敌TNA的图片给扯下马来了。内牛满面。

再次炫耀一下(WWE + TNA):http://xyark.serw5.com/

今天发现20101115RAW某些页面居然无法输出,研究了一个晚上,SH最后终于得出结论!title信息里有个“&”,格式化XML时受阻,因为“&”这东西太敏感了,是不允许当作“and”的意思出现的,所以会出现输出中断。解决办法如下:

/*$data = str_replace(“\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\t\r\n\r\n\r\n\t\r\n\r\n\r\n\t\r\n\r\n\r\n\r\n< ?xml version=\”1.0\” encoding=\”UTF-8\”?>”, “< ?xml version=\”1.0\” encoding=\”UTF-8\”?>”, $data); 注:第一个版本的YARK是不是很笨,呵呵呵*/
$data = str_replace(“\r\n”, “”, $data);
$data = str_replace(“\t”, “”, $data);
$data = str_replace(“&”, “&amp;”, $data);
// $data = str_replace(“&”, “囧”, $data); 注:对付“&”的一个“好”方法,先囧来
$data = XML_unserialize($data);
// $data = str_replace(“囧”, “&”, $data); 注:对付“&”的一个“好”方法,再囧去

感觉自己处于见人杀人,见鬼抓鬼的状态。这就是激情了,不过正因为这些变态的激情,让我神经病了。昨晚凌晨1点多才上床睡觉,还兴奋得睡不着。今天,也已经不早了,我还在写。

Pasion make me crazy, good or not?

2010-11
13

YOU ALREADY KNOW THAT

By xrspook @ 22:51:02 归类于:烂日记

终于在SH的提醒和帮助下,在已经注册的几个国外免费空间里正常运行起YOU ALREADY KNOW THAT,我见简称YARK,按照首字母缩写应该是YAKT的,但误打误撞,变成YARK了,呵呵,YARK太短,所以注册的二级域名前加了我的戳“X”。正如YARK里的《h1》内容所标示:如果你是我的同伙,你会知道那空荡荡的网页是什么,怎么用;如果你想在这篇日志里直接找到答案,很对不起,在不跳转继续阅读某些链接的前提下,不可能。又或许,你真的很想知道,email我吧。至于我的联系方式,细心的你肯定already know that。

闪亮亮地放出一个YARK的地址:http://xyark.serw5.com/

很高兴地告诉大家,今天的YARK又实现了一个新的功能——直接把页面的title也输出了(并非各自的小title)!哇咔咔,如此一来,可以利用从RSS读到的地址完成某事,再也不用手动敲打某些代码了!

想变得懒惰欲望让我变得勤快。先花费一些时间制定规则,之后就可以拯救一些人的很多时间了。这就是程序的力量!!!!什么规范化管理,什么质量管理,如果你是个程序员,那些道理you already know that了。

说回YARK昨天没成功下海,原因是我完全是个PHP小白,所以碰得一头灰。通常,服务器基于安全考虑PHP的allow_url_fopen选项默认是OFF状态,免费空间通常都只会是OFF。而在PHP中需要使用file()[又或者file_get_contents()]函数获取其它站点的数据时,中招了,OFF状态就会出现一个“Warning: file() [function.file]: URL file-access is disabled in the server configuration in ***”的错误。幸好,我们还有第二招,cURL。在PHP程序里加入一段curl就能解决问题,但,这也是有前提是,curl是PHP的一个扩展库,所以,你的PHP系统的这个扩展功能必须处于enable状态,有些免费空间里curl是处于禁止状态的,那囧啊,不过确实存在,远在天边近在眼前的例子就是默认状态下的XAMPP。

也不管行不行了,把curl代码加进去试试再说,代码引用如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
< ?php
/*
* @return string
* @param string $url
* @desc Return string content from a remote file
* @author Luiz Miguel Axcar (lmaxcar@yahoo.com.br)
*/
 
function get_content($url)
{
	$ch = curl_init();
	curl_setopt ($ch, CURLOPT_URL, $url);
	curl_setopt ($ch, CURLOPT_HEADER, 0);
	ob_start();
	curl_exec ($ch);
	curl_close ($ch);
	$string = ob_get_contents();
	ob_end_clean();
	return $string;
}
 
#usage:
$content = get_content ("http://www.php.net");
var_dump ($content);
?>

实际应用时把http://example.com代替http://www.php.net作为数据输入,然后网址会经过function get_content($url)处理,进去的是一个网址,出来的是一个对网址所代表的网页信息进行处理后的字符串,也就是说,$content是一个包含所有网页信息的字符串,你喜欢怎么折腾就怎么折腾好了。至于那句“var_dump ($content);”是把$content的内容输出打印出来,你或许不会用到。不知为什么可以这么神奇,但就是这么神奇。PHP默认设置下不能实现的功能通过cURL就能实现,但实际上,最终效果是一样的。

再次感谢SH童鞋,也感谢那位写cURL挽救世人的巴西童鞋,是广大程序员让我感觉我是站在巨人肩膀上的。

也愿YARK能在它的用途上发光发亮。

Page 1 of 212»
COPYRIGHT @ 我的天 | Theme by xrspook | Power by WordPress | Valid XHTML 1.1 and CSS 3 Go to top