略懂正则后 « 我的天

2010-11

略懂正则后

By xrspook @ 23:59:55 归类于: 烂日记

花费了好几个小时学习正则表达式（Regular Expression），简称regex。非常非常强大的一个程序员利器，在此，再次感谢SH童鞋的强迫性学习。在多种程序语言里正则都通用，用简单的符号却能组合出任何你需要的结果。看着那堆“\/#$&*^()_+|{}<>?=.”等实在会把人弄疯掉，再加上26个英文字母的大小写组合，宇宙就能编出来！这让我想起了大学时期老师教的文献检索，在说到英文数据库的时候就是这般*来?去的，但和相比，英文数据库的搜索方法只是个非常非常的简化版的正则，小儿科而已。

简单看了几个正则教程，最终觉得还是要自己打开个正则测试工具（如Windows下的Regex Tester）实操。

经过还不算太辛苦的挣扎，对TNA而言，我要提取的信息可以用以下正则实现：

(?<=href=”).*\.jpg.php

说明：“(?<=囧)”，定位在囧后；“href=””，一个字符串，也就相当于囧；“.*”，别以为“.”是连接符“*”是任意字符，恰恰相反，“.”代表除换行符以外的任意字符，“*”代表前面的东西，也就是除换行符以外的任意字符可以重复零次或更多次；“\.”，其实就代表了“.”，在正则里，“.”必须用“\”转义；“jpg.php”我的原意是一个字符串，但在正则里，看来“.”也不会被看作“.”，而代表一个除换行符以外的任意字符，也无伤大雅，毕竟我希望的“.”也在正则“.”包含的范围内。

除了用上面的“(?<=href=”).*\.jpg.php”以外，还能把正则改写为：

(?<=href=”).*\.jpg\.php /*把“.”全部正确转义，不打擦边球*/
(?<=href=”).*\b.jpg.php\b /*把“.jpg.php”看作一个单词，很自然地把其中的“.”一般字符化了，“\b”用于匹配单词的开始或结束*/

具体在YARK的正则是这般写的

preg_match_all('/(?< =href=").*\.jpg.php/', $data, $log);
囧囧囧囧
for($i=0;$i<count($log[0]);$i++) 
{  	
	<?php echo '囧'.$log[0][$i].'囧' ?>			
}

说明：由于我的正则表达式里只有一个未知数，也就是“.*”折腾出来的内容，所以，正则结果在新建的$log将是一个二维数组，具体内容将在[0][囧]里显示。如果，正则里有多个未知数，未知数就会分别出现在[0][囧0]、[1][囧1]、[2][囧2]等等里面了。得打一套“组合拳”才能把它们拼凑在一起。

正则搞定了，YARK的TNA瓶颈当然就没问题了啦！

******************* YARK专栏 *******************
2010-11-19
update
* 改进TNA功能，不再依赖页面提供的rss而是自编正则表达式，提取页面信息，再分析出图片地址
bug
* 暂无新发现
plan
* 留个门，对付任何规则资源（正则是强大的，就看你怎么用了）
******************* YARK专栏 *******************

自觉通过自学又提升一个矮矮的层次了。