regex « 我的天

2012-03

直面它们

By xrspook @ 16:48:13 归类于: 烂日记

今天，不可思议地，我一口气完成了职称英语2012综合类全部15篇的补全短文。补全短文，这是我之前一直很不习惯且做得很烂的题型，特别是一开始接触的时候，我是浑然不知怎么办，发毛。但今天，不可思议地，我用比做阅读理解还要少很多的时间啃掉了全部的补全短文。从一个我害怕的题型变成了现在我比较喜欢的题型，在它面前我不再颤栗。很多技巧，你可以阅读、学习、模仿，但最终还是要靠你自己去实践。

YOU CAN’T RUN, YOU CAN’T HIDE, YOU HAVE TO KNOW HOW TO FACE.

这是一句貌似出自我高中英语课本的句子，简而言之，等于一句古话“越怕黑，越见鬼”。逃避不能真正解决问题，只会让问题扩大化。

所以，当昨天发现WWE.COM改版的时候，我很坦然。作为一个也算玩了网站8年+的人来说，改版再普通不过了，而且，对上一次WWE.COM改版已经是1年多以前的事。我的唯一选择就是见招拆招，遇强越强。无论怎么变，网站都是人写出来的，按照美国人的办事风格，理论上应该新一版比老一版更科学合理，层次更分明更符合现在的网站的编写规则。如果说我觉得难了，非常有可能只是我水平不够而已。我不觉得自己的水平有多高，但起码，我得更跟上网站改版的速度。昨天，我是曾经不淡定过的，因为单位有植树活动，有试验样品要完成，晚上还要出去吃饭，今天就是Raw了，我必须在今天之前完成重写，我没有多少时间。我相信，我能写出来的，但我当时真的不确信我能否及时完成。但最后，我居然做到了，谢天谢地！

网友说，其实我应该广开思路，正则是一个方法，但未必就是最好的。要在一个网页里定位，查找东西，jQuery是个非常好的选择。我尝试过JQ，就如我尝试过Javascript一样，暂时还没有一个项目是让我觉得非如此不可地使用它们，所以在它们的问题上，我长进得很慢。

慢慢来吧，我现在主攻的是西语、职称英语、吉他，当我的外语算是差不多的时候，我会继续找些东西来消磨我的时间强化我的意志的，但现在，不是时候。

我们不是生来就强悍的，但我们可以通过后天的学习变得stronger。

耐心积累，厚积薄发。TIME WILL TELL.

标签：jquery, regex, WWE, 扮IT, 改版, 烂日记, 网站, 职称英语, 补全短文

评论关闭

2012-03

wwe.com改版之后

By xrspook @ 22:38:31 归类于: 烂日记

昨晚一个晚上做了30+个gif，各种不容易啊！我又破了自己的记录了。1个32分钟不到的视频做了30个视频！尽管差不多已经过去1年了，但我还是那么喜欢那个WWE PPV Extreme Rules 2011里面的Alberto Del Rio vs. Christian – Ladder Match for WHC。虽然知道过程也知道结果，但重看还是让我热血沸腾，手心捏汗。那个仍有点嫩但却更真的ADR。如果1天放出一个gif的话，30个gif我可以放一个月了。很多比赛我都觉得没必要去做gif，都那几个动作，看得腻了，差点打瞌睡了，但那场不会。其他人怎么看无所谓，但我是真喜欢那场比赛。

今天是植树节，总公司领导来我单位植树。这也是我这辈子第一次植树，而且是在植树节！

午休后常规浏览19977，有人PM我说我上周贴的Smackdown官图挂了！进去看看，果然！奇怪的是上周的Raw没挂，但Smackdown挂了。马上去wwe.com，我震惊了，改版了！

这就是我的图片挂掉的原因！！！！！！！

这不是第一回了，我有心理准备。wwe.com对上一次改版已经是1年多前的事，那次我学会了正则。也正是因为那次，让我装备上了一种武器，一把万用刀解决往后的很多很多问题。

这次，要用正则抓取图片地址并不难，对我来说难的是如何把图片的描述对应抓取。因为，一组图片里并不是每一张图片都有描述，单独抓取图片容易，单独抓取描述也容易，但随便把他俩放一起分明是不行的。折腾了好多个小时，未果。正当我打算放弃的时候，我突然发现一个万恶的“n”出现在我的正则语句里，这是什么尼玛！！！删掉！THEN，我之前试的很多语句都虽然不成功，但起码能编译了。

最后，最后，最后，我想出了这句：

1	(?< =\/photo_large)(.?)" \/>(.?)(\|caption">(.*?))< \/div>

所有图片和描述都放在一个数组里，问题解决了，世界和谐了！图片是在[1][*]那里描述则在[4][*]那里。

说来也怪哦，我每次都是折磨得不行了就去找人帮忙，但通常别人忙没帮上我就自己KO掉难题了，几乎每次都这样，但如果我不找人吐槽/求助呢，我却很难找到解决方案，够囧的。

今天有3篇新的意语的ADR采访，如果不是新版wwe.com的突然乱入我起码能完成2个的，但现在，没时间没精力了。我会做的，就在这几天内完成，我说到做到。

困了，累了，明天还要开始RS第三级的学习，fight！

标签：ADR, DIY, gif, regex, WWE, 扮IT, 烂日记

评论关闭

2011-07

并或非

By xrspook @ 17:41:40 归类于: 烂日记

1	[\w-\s]*[^(,\|&\|vs.)]

这是一条提取对阵的正则，比如说用来提取下面这堆东西里每个选手的名字。

Edge, John Cena, John Morrison, R-Truth, Randy Orton & Rey Mysterio vs. CM Punk, Dolph Ziggler, Drew McIntyre, Kane, King Sheamus & Wade Barrett

上面12个名字提是能提出来了，但名字的前/后/前后有空格，若正则无法解决，只能用一句replace来解干掉它们，至于那句replace，我没想出来。

Excel对某些单元格的查找功能应该能解决很多问题，但如果查找项不明呢？首先需要在单元格里提取查找项，然后在一堆单元格里找到查找项对应行的某个或某些数据并自动形成新表格。这样有可能实现么？高级筛选能人性化地达到这个目的么？

一直以来，我都默认Excel里的单元格是最小的单位，但如果要在把最小单位继续细分呢？有可能自动实现么？

分与合，到底怎么才是最好，怎么才是最简便，真的需要仔细琢磨。

高一的时候，我的“并或非”学得很是头痛，但现在，我却经常玩必须“并或非”的正则表达式，老天爷真会开玩笑，正所谓越怕死，越见鬼是也。

能认静下心来思考真好。

标签：Excel, regex, 扮IT, 烂日记

评论关闭

2011-07

双龙出海

By xrspook @ 23:59:25 归类于: 烂日记

今天是个伟大的日子，今天我做了两件貌似简单但实际上都不容易的事情：一、用电子琴录制了Realeza（WWE Alberto Del Rio Theme 2010）并用WIDI生成了MIDI版本；二、努力奋战、冥思苦想2天后，我终于达到了我的目标，完成了大名鼎鼎YARK系列的P25 PHP小程序。

所以，对我来说，这是划时代的一天，心情大好！

一、音乐部分

几个月前我就已经挖出家里的古董电子琴（小学时期的产物）来折腾Realeza了。一般熟练，但我只会右手，和弦对我来说是浮云，正如听音乐我只能辨别出主旋律一样。我一直在奢望自己能学会哪怕一点点左手，但电子琴的变压器不行，大号电池的电量也快没了，我得在电子琴还有声音之前赶快完成录制。

以下是xrspook极其简陋的两个自创版Realeza，请凑合着欣赏：

Realeza（WWE Alberto Del Rio Theme 2010）电子琴版[mp3]

Realeza（WWE Alberto Del Rio Theme 2010）WIDI转化MIDI版[midi]

说明：mp3就是拿着个mic对着电子琴录制的，没啥好说，请原谅我的古董电子琴没有跟电脑对接输出的玩意，毕竟那是1998年以前的产物啊，还只是386、486时代呢。midi嘛，不是我自己写的，是用WIDI把mp3转出的，因为是毋庸置疑的“独奏”，所以捕捉到的绝大多数音都是我的意图，但有几个高音电脑识别出来时一个变2个，没搞懂原因，但错有错着，恰逢那是高潮部分，出现这些我意想不到的小变动反而让音乐更丰满。

二、PHP程序部分

从有思路到PHP完全成型，我用了2天，超过15个小时！累着并快乐着！我这个喜欢折磨自己的人……这不能算折磨，这应该说是定下目标然后努力实现，I’m proud of myself.

先说说这个YARK – P25的整体思路，昨天已经说过，也就是“用正则提取，table输出，然后直接Excel粘贴保存”。昨天傍晚说到，我被正则难住了，但昨天晚上，我却突然惊醒地想出了正解。在WWE P25层层div的网页里成功提取出我需要的排名部分。用的是这条正则，针对的是我需要提取信息的开头和结尾部分做筛选。

1	preg_match_all('/< div class="row(.\|\n)*?<div class="clear">/', $data, $log);

这条规则是很有针对性的，可以把WWE P25页面我需要部分嵌套的div全部提取出来，但对其他嵌套div网页无效。这条规则的重点是“(.|\n)”意思是“除换行符以外的任意字符或者换行符”，也就是全包围了。从前提取img的时候“.*?”也就足够了，但提取div不一样，因为换行是习惯性的，之前我正是在换行这个问题上被卡住，看到某个网页的时候被这句很创意的“(.|\n)”激发，最终，琢磨出我的第一次正则。

筛选出的排名部分网页源代码包括神马呢？以下是详细说明：

<div class="row none"> /* WWE P25页面里，一个选手的所有信息的开始，这里的class可能是row none、row fire、row ice或row （注意row后的空格）*/
	<div class="info dir-up"> /*这里的class可能是info dir-up、info dir-dn或info dir-nm，升降平，你懂的*/
		<div class="direction"></div> /*配合升降平的一个说明*/
		<div class="thisweek"></div> /*本周排位，我需要的第一个信息点*/
		<div class="lastweek"></div> /*上周排位，如果我把每周排位都收集了，某一周的上周排位对我来说当然没啥意义*/
	</div> /*info dir-up结束*/
	<div class="thumb"> /*小头像部分，这里没有我需要的信息*/
		<a href="***"></a><a href="***" class="imagecache imagecache-98x105_thumb imagecache-linked imagecache-98x105_thumb_linked"><img src="***" alt="" title=""  width="98" height="105" /></a> /*用了两层超链接，没搞懂为什么，外层没有class，内层有class，核心部分是小头像图片img，注意，有些选手是没有超链接的，比如说那些Tag Team*/
	</div> /*thumb结束*/
	<div class="thumb_none"> /*这里可能是thumb_none、thumb_ice、thumb_fire或thumb_，对应头像无特效、冰、火以及无头像状态*/
	</div> /*thumb_none结束*/
	<div class="details"> /*选手信息*/
		<h2 class="double-arrow-title"> /*二级标题开始*/
			<a href="***">***</a> /*选手名字+超链，选手名字是我需要的第二个信息点*/
		</h2> /*二级标题结束*/
		<div class="text">***</div> /*这周发生了神马事，我需要的第三个信息点*/
	</div> /*details结束*/
	<div class="clear"></div> /*纯粹的网页需要清浮处理 */
</div> /*row none结束*/

这段内容重复25次就是一个P25的完整排名信息。

第一次正则只是个开始，是把偌大一个网页的信息进行初步挖掘。其实也不能算一个网页，自从WWE 2011年头改版后，网页构成发生了巨大变化，比如说到处都有“LOAD MORE”的标志，你必须点击才能看更多内容，以P25的页面为例，我们看到的是：

http://us.wwe.com/inside/power25

但实际上，一共需要载入5个页面才能看到全部25个排名：

http://us.wwe.com/inside/power25
http://us.wwe.com/inside/power25?page=1
http://us.wwe.com/inside/power25?page=2
http://us.wwe.com/inside/power25?page=3
http://us.wwe.com/inside/power25?page=4

每个页面只有5个排名。这也就能解释为什么浏览WWE网页的速度会比从前快了，因为一次性加载的信息减少，信息加载随着浏览进程的推进而逐步增加，对于那些纯粹路过的人来说省事多了。

这5个页面的结构是一样的，对我这个需要提取信息的人来说WWE的这个“改进”完全是件坏事！一开始，我是这样提取页面信息的：

$data0 = get_content($_POST['url'])；
$data1 = get_content($_POST['url']).'?page=1'；
$data2 = get_content($_POST['url']).'?page=2'；
$data3 = get_content($_POST['url']).'?page=3'；
$data4 = get_content($_POST['url']).'?page=4'；
 
/*经历N步操作，N步操作的工作量都是×5，我甚至都在考虑要不要来个for语句来减轻修改数字的压力了*/
 
$data = array_merge($data0[0], $data1[0], $data2[0], $data3[0], $data4[0]);

但后来，我发现完全可以这样嘛：

1	$data = get_content($_POST['url']).get_content($_POST['url'].'?page=1').get_content($_POST['url'].'?page=2').get_content($_POST['url'].'?page=3').get_content($_POST['url'].'?page=4');

如此一来，5个页面的信息也就能一次性地聚合到一起，快、准、狠！

我好像扯远了，回到第一次正则提取的内容。我昨天的思路是对其进行XML数组化，但很遗憾，XHTML网页不是XML，当信息传入外包的XML数组化程序时失败告终。于是，我就只能靠自己继续正则了。

上文已经提到，在第一次正则后的内容里，我有3个需要提取的信息点，它们分别是：

1
2
3

<div class="thisweek"></div> /*本周排名*/
<h2 class="double-arrow-title"><a href="***">***</a></h2> /*选手名字*/
<div class="text">***</div> /*发生事件*/

一次正则后选手名字里有超链，头像里也有超链，“h2”本是选手名字的唯一标记，但由于中间多了个超链，万恶，所以，我也很万恶地一句正则把我不喜欢的东西全部干掉。

1	$log[0] = preg_replace('/< a [^>]>\|< \/a>\|<img [^/>]>\|\t\|\r\|\n/', '', $log[0]);

1
2
3

< a [^>]*>|< \/a> /*干掉所有超链*/
<img [^/> /*干掉所有图片*/
\t|\r|\n /*干掉所有制表符、回车和换行符*/

二次正则过后，提取内容变得简洁。

必须提醒：在PHP里正则针对的都是字符串，所以，如果源数据已经是数组的话，请自行拆解。否则会报错，并且会暴露出当前运行脚本的完整路径，这可是安全性的问题啊，详见这里。

然后呢，因为一次正则我只提取到< div class="clear">显然后面仍应该有< /div>< /div>

才能让这个提取内容闭合完整。所以我加了这么一句：

1	$log[0] = str_replace('< div class="clear">', '<div class="clear"></div>< /div>', $log[0]);

到此为止，经过2次正则，1次字符串替换后，那坨东西符合我要求了，我可以进行第3、4、5次正则完成我的最终提取。

1
2
3

preg_match_all('/< div class="thisweek">([^< ]*)/', $log[0][$i], $rank[$i]);
preg_match_all('/<h2[^>]*>([^< ]*)/', $log[0][$i], $name[$i]);
preg_match_all('/< div class="text">([^< ]*)/', $log[0][$i], $text[$i]);

好吧，到此为止，整个分析、剥离过程完满结束，就只剩下按要求的规范化输出。就是把我提取到的东西table化，略。

整个过程的部分源程序如下：

function get_content($url) /*网址转化为网页内容*/
{
	$ch = curl_init();
	curl_setopt ($ch, CURLOPT_URL, $url);
	curl_setopt ($ch, CURLOPT_HEADER, 0);
	ob_start();
	curl_exec ($ch);
	curl_close ($ch);
	$string = ob_get_contents();
	ob_end_clean();
	return $string;
}
 
/*数据传入开始*/
 
$_POST['url'] = str_replace("www.wwe.com", "us.wwe.com", $_POST['url']);
$data = get_content($_POST['url']).get_content($_POST['url'].'?page=1').get_content($_POST['url'].'?page=2').get_content($_POST['url'].'?page=3').get_content($_POST['url'].'?page=4');
 
/*数据传入结束*/
 
/*正则提取及替换开始*/
 
$data = str_replace("&amp;", '&', $data);
preg_match_all('/<div class="row(.|\n)*?<div class="clear">/', $data, $log);
$log[0] = preg_replace('/< a [^>]*>|< \/a>|<img [^/>]*>|\t|\r|\n/', '', $log[0]);
$log[0] = str_replace('< div class="clear">', '<div class="clear"></div></div>', $log[0]);
 
for($i=0;$i < count($log[0]);$i++)
{
	preg_match_all('/<div class="thisweek">([^< ]*)/', $log[0][$i], $rank[$i]);
	preg_match_all('/<h2[^>]*>([^< ]*)/', $log[0][$i], $name[$i]);
	preg_match_all('/<div class="text">([^< ]*)/', $log[0][$i], $text[$i]);
}
 
/*正则提取及替换结束*/
 
/*table格式化开始*/
 
echo '< table>< col>';
for($i=0;$i < count($log[0]);$i++)
{
	echo '<tr>';
	echo '<td>'.$rank[$i][1][0].'</td>';
	echo '<td>'.$name[$i][1][0].'</td>';
	echo '<td>'.$text[$i][1][0].'</td>';
	echo '';
}
echo '';
 
/*table格式化结束*/

截图是必须的

这就是YARK – P25的威力！你或许会问，就那么一大坨东西有神马用呢？呵呵，真正用法需要把它们贴到Excel。

关于复制那一大坨信息的Excel粘贴也有讲究。

首先，打开Excel，然后选择“编辑 – 选择性粘贴”，然后在“方式”里选择“文本”，按“确定”。最后简单调节表格列距以及单元格格式后，你就能得到如下图的效果：

你一定会问，为神马要如此折腾“粘贴”而不用“Ctrl+V”？呵呵，这和我的用途有关，你完全可以在“选择性粘贴”里用默认的“HTML”方式，结果跟直接用“Ctrl+V”一样，所有粘贴数据都全部挤在1个单元格里，这显然不符合我的设想，如果最后得出这样一个结果的话，我之前所做的事情都白费了。

为什么一定要以现在这个各信息分离的Excel形式呈现呢？因为，我做这么多事情的目的就是能更快更直接地提取我需要的信息，做P25的每周统计。

统计！统计是我的目的！！！！

还记得2天前我做的“ADR前46周的WWE P25”？那可花费了我半天的时间打开一个个网页，一段段信息复制粘贴并最终形成图表。如果，我要对WWE所有选手都这般干的话简直是天方夜谭，但我的确想获取那些信息，知道那个趋势，该怎么办呢？所以我有了弄YARK – P25的念头，并付诸行动，最终华丽地成功了！

YARK – P25在此！聪明的你肯定知道怎么用的。

往后，随着icon化的日益加剧，我真的可能不再看WWE的摔角而转投其他联盟，但我会记住WWE的，不单是因为他们把我引入摔角门，更重要的是为了提取信息，我从他们的网页我自学到了很多，他们的网页严谨规范，虽然可能不是最好的，但我已经从中领会到很多，难道这还不够么？！

哇咔咔，今天的blog很技术，有心人，你们会懂的。

标签：ADR, Excel, music, P25, regex, theme, WWE, YARK, 扮IT, 烂日记, 统计

2 条评论

2011-07

抓头 – 嵌套div的正则提取

By xrspook @ 17:50:04 归类于: 烂日记

很傻很天真的以为用正则可以轻易提取出div里的层层嵌套div，结果囧得厉害。div的开头通常都带有class或id，唯一，且容易辨认，但div的结尾，清一色的“/div”，真会搞死人。网络上流传的提取div版本貌似都不太可行。在一坨里提取一堆只是第一步，第二部还得把提取到的内容xml数组化。

其实呢，我也有想过一开始就对所有内容xml数组化，不过，信不信由你，从最开始那层<>到我要提取的那些内容少说也有15层，而且如果那些网页设计者好心加一层或减一层，我又得慢慢摸到底哪里出问题了。所以，用xml数组化是个思路，但“解剖”源数据的工作量不少且维护困难。毕竟，这不是5层，这是15层+啊！怨念那些穿那么多层衣服的网页。

正则难提取嵌套div，xml太郁闷，咋办呢？

我还有一个很天真的办法，手动选取要提取部分的代码然后贴到程序里提取。这么一来就解决了难提取困难的问题，当然啦，都手动干了，还有什么难不难的，这个办法很低级，但一定可行。

怎么办呢，怎么办呢？！

应该是我想得还不够深入，再花点时间动动脑筋好好琢磨琢磨吧。

今天很坏地想到用正则提取，table输出，然后直接Excel粘贴保存，早上还在兴奋这个伟大思路，下午就发现正则把我卡死，生活真是个悲喜剧。

别囧，我有的是时间，一定可以的！

标签：div, regex, xml, 嵌套, 扮IT, 提取, 烂日记

7 条评论

1 2 »

我的天

直面它们

wwe.com改版之后

并或非

双龙出海

抓头 – 嵌套div的正则提取

戳这只鬼

随机日志

我的天

直面它们

wwe.com改版之后

并或非

双龙出海

抓头 – 嵌套div的正则提取

戳这只鬼

标签云了

随机日志