2011-09
21

Realeza OVE闪亮登场

By xrspook @ 17:16:32 归类于: 烂日记

我们生来不强,但通过后天的努力我们的天空无限宽广。

今天,我学会了用Overture,抄写出了Realeza的乐谱(原作在这里)。抄写,仅仅是抄写而已。要我分开左右手弹,坑坑洼洼还能凑合着,但要我写谱,当下来说,不可能!虽然只是抄,但看着视频截下来的图片抄写也是需要时间和精力的,更何况,在此之前我没有真正上手玩过midi编曲软件。

这就是成果了!(jpg大图1|jpg大图2

才24个小节,却花费了我近3个小时,但我觉得很高兴,无论是过程还是结果。过程嘛,我从完全不知道怎么折腾那些我压根就不知道神马是神马的音符到拼凑出一首完整的曲子:不知道附点在哪里,不知道连线(居然还分同音高连线和不同音高连线,对我来说,不就是一弧线么)怎么弄,不知道怎么把八分音符和十六分音符连在一起,不知道怎么在十六分音符中加入十六分休止符。至今仍然不知道怎么在以完成的小节中插入音符,所以小节里一旦有错误,我只好整个小节修改。完全不知道音符中有连线和没有连线的效果可以相差那么远。

如果我未曾亲身体验过而只是收集别人的劳动成果我不会懂得那么多。起码,现在我终于明白了弹琴的时候为什么有时和弦跟主旋律的音是在一起的,有时则刚好错开,休止符使之然也!

谢谢软件,先进的软件让我事半功倍。自动的纠错让我这个纯粹“抄”的人明白到主旋律和和弦的“对齐”,也正是这一点让我明白到上面说到同步不同步的问题。

多年以来,音乐课貌似在我需要的时候都渣了,但其实上,虽然从前的音乐知识没有让我在这个尝试上有多大的优势,但可以100%地说,没有前面的铺垫,我走的弯路将更多。

一个下午就从无到有地折腾出了点东西,我很满意。

幸福是什么?幸福就是你设定目标,然后实现了!所以,我今天很幸福~~~

分享快乐:

Overture中文版下载

Realeza (Alberto Del Rio WWE Theme)打包下载(其中包括可编辑的ove、ove导出的mid,乐谱pdf,乐谱大图jpg)

2011-07
8

双龙出海

By xrspook @ 23:59:25 归类于: 烂日记

今天是个伟大的日子,今天我做了两件貌似简单但实际上都不容易的事情:一、用电子琴录制了Realeza(WWE Alberto Del Rio Theme 2010)并用WIDI生成了MIDI版本;二、努力奋战、冥思苦想2天后,我终于达到了我的目标,完成了大名鼎鼎YARK系列的P25 PHP小程序。

所以,对我来说,这是划时代的一天,心情大好!

一、音乐部分

几个月前我就已经挖出家里的古董电子琴(小学时期的产物)来折腾Realeza了。一般熟练,但我只会右手,和弦对我来说是浮云,正如听音乐我只能辨别出主旋律一样。我一直在奢望自己能学会哪怕一点点左手,但电子琴的变压器不行,大号电池的电量也快没了,我得在电子琴还有声音之前赶快完成录制。

以下是xrspook极其简陋的两个自创版Realeza,请凑合着欣赏:

Realeza(WWE Alberto Del Rio Theme 2010)电子琴版[mp3]

Realeza(WWE Alberto Del Rio Theme 2010)WIDI转化MIDI版[midi]

说明:mp3就是拿着个mic对着电子琴录制的,没啥好说,请原谅我的古董电子琴没有跟电脑对接输出的玩意,毕竟那是1998年以前的产物啊,还只是386、486时代呢。midi嘛,不是我自己写的,是用WIDI把mp3转出的,因为是毋庸置疑的“独奏”,所以捕捉到的绝大多数音都是我的意图,但有几个高音电脑识别出来时一个变2个,没搞懂原因,但错有错着,恰逢那是高潮部分,出现这些我意想不到的小变动反而让音乐更丰满。

二、PHP程序部分

从有思路到PHP完全成型,我用了2天,超过15个小时!累着并快乐着!我这个喜欢折磨自己的人……这不能算折磨,这应该说是定下目标然后努力实现,I’m proud of myself.

先说说这个YARK – P25的整体思路,昨天已经说过,也就是“用正则提取,table输出,然后直接Excel粘贴保存”。昨天傍晚说到,我被正则难住了,但昨天晚上,我却突然惊醒地想出了正解。在WWE P25层层div的网页里成功提取出我需要的排名部分。用的是这条正则,针对的是我需要提取信息的开头和结尾部分做筛选。

1
preg_match_all('/< div class="row(.|\n)*?<div class="clear">/', $data, $log);

这条规则是很有针对性的,可以把WWE P25页面我需要部分嵌套的div全部提取出来,但对其他嵌套div网页无效。这条规则的重点是“(.|\n)”意思是“除换行符以外的任意字符或者换行符”,也就是全包围了。从前提取img的时候“.*?”也就足够了,但提取div不一样,因为换行是习惯性的,之前我正是在换行这个问题上被卡住,看到某个网页的时候被这句很创意的“(.|\n)”激发,最终,琢磨出我的第一次正则。

筛选出的排名部分网页源代码包括神马呢?以下是详细说明:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
<div class="row none"> /* WWE P25页面里,一个选手的所有信息的开始,这里的class可能是row none、row fire、row ice或row (注意row后的空格)*/
	<div class="info dir-up"> /*这里的class可能是info dir-up、info dir-dn或info dir-nm,升降平,你懂的*/
		<div class="direction"></div> /*配合升降平的一个说明*/
		<div class="thisweek"></div> /*本周排位,我需要的第一个信息点*/
		<div class="lastweek"></div> /*上周排位,如果我把每周排位都收集了,某一周的上周排位对我来说当然没啥意义*/
	</div> /*info dir-up结束*/
	<div class="thumb"> /*小头像部分,这里没有我需要的信息*/
		<a href="***"></a><a href="***" class="imagecache imagecache-98x105_thumb imagecache-linked imagecache-98x105_thumb_linked"><img src="***" alt="" title=""  width="98" height="105" /></a> /*用了两层超链接,没搞懂为什么,外层没有class,内层有class,核心部分是小头像图片img,注意,有些选手是没有超链接的,比如说那些Tag Team*/
	</div> /*thumb结束*/
	<div class="thumb_none"> /*这里可能是thumb_none、thumb_ice、thumb_fire或thumb_,对应头像无特效、冰、火以及无头像状态*/
	</div> /*thumb_none结束*/
	<div class="details"> /*选手信息*/
		<h2 class="double-arrow-title"> /*二级标题开始*/
			<a href="***">***</a> /*选手名字+超链,选手名字是我需要的第二个信息点*/
		</h2> /*二级标题结束*/
		<div class="text">***</div> /*这周发生了神马事,我需要的第三个信息点*/
	</div> /*details结束*/
	<div class="clear"></div> /*纯粹的网页需要清浮处理 */
</div> /*row none结束*/

这段内容重复25次就是一个P25的完整排名信息。

第一次正则只是个开始,是把偌大一个网页的信息进行初步挖掘。其实也不能算一个网页,自从WWE 2011年头改版后,网页构成发生了巨大变化,比如说到处都有“LOAD MORE”的标志,你必须点击才能看更多内容,以P25的页面为例,我们看到的是:

http://us.wwe.com/inside/power25

但实际上,一共需要载入5个页面才能看到全部25个排名:

http://us.wwe.com/inside/power25
http://us.wwe.com/inside/power25?page=1
http://us.wwe.com/inside/power25?page=2
http://us.wwe.com/inside/power25?page=3
http://us.wwe.com/inside/power25?page=4

每个页面只有5个排名。这也就能解释为什么浏览WWE网页的速度会比从前快了,因为一次性加载的信息减少,信息加载随着浏览进程的推进而逐步增加,对于那些纯粹路过的人来说省事多了。

这5个页面的结构是一样的,对我这个需要提取信息的人来说WWE的这个“改进”完全是件坏事!一开始,我是这样提取页面信息的:

1
2
3
4
5
6
7
8
9
$data0 = get_content($_POST['url'])$data1 = get_content($_POST['url']).'?page=1'$data2 = get_content($_POST['url']).'?page=2'$data3 = get_content($_POST['url']).'?page=3'$data4 = get_content($_POST['url']).'?page=4';
 
/*经历N步操作,N步操作的工作量都是×5,我甚至都在考虑要不要来个for语句来减轻修改数字的压力了*/
 
$data = array_merge($data0[0], $data1[0], $data2[0], $data3[0], $data4[0]);

但后来,我发现完全可以这样嘛:

1
$data = get_content($_POST['url']).get_content($_POST['url'].'?page=1').get_content($_POST['url'].'?page=2').get_content($_POST['url'].'?page=3').get_content($_POST['url'].'?page=4');

如此一来,5个页面的信息也就能一次性地聚合到一起,快、准、狠!

我好像扯远了,回到第一次正则提取的内容。我昨天的思路是对其进行XML数组化,但很遗憾,XHTML网页不是XML,当信息传入外包的XML数组化程序时失败告终。于是,我就只能靠自己继续正则了。

上文已经提到,在第一次正则后的内容里,我有3个需要提取的信息点,它们分别是:

1
2
3
<div class="thisweek"></div> /*本周排名*/
<h2 class="double-arrow-title"><a href="***">***</a></h2> /*选手名字*/
<div class="text">***</div> /*发生事件*/

一次正则后选手名字里有超链,头像里也有超链,“h2”本是选手名字的唯一标记,但由于中间多了个超链,万恶,所以,我也很万恶地一句正则把我不喜欢的东西全部干掉。

1
$log[0] = preg_replace('/< a [^>]*>|< \/a>|<img [^/>]*>|\t|\r|\n/', '', $log[0]);
1
2
3
< a [^>]*>|< \/a> /*干掉所有超链*/
<img [^/> /*干掉所有图片*/
\t|\r|\n /*干掉所有制表符、回车和换行符*/

二次正则过后,提取内容变得简洁。

必须提醒:在PHP里正则针对的都是字符串,所以,如果源数据已经是数组的话,请自行拆解。否则会报错,并且会暴露出当前运行脚本的完整路径,这可是安全性的问题啊,详见这里

然后呢,因为一次正则我只提取到< div class="clear">显然后面仍应该有< /div>< /div>

才能让这个提取内容闭合完整。所以我加了这么一句:

1
$log[0] = str_replace('< div class="clear">', '<div class="clear"></div>< /div>', $log[0]);

到此为止,经过2次正则,1次字符串替换后,那坨东西符合我要求了,我可以进行第3、4、5次正则完成我的最终提取。

1
2
3
preg_match_all('/< div class="thisweek">([^< ]*)/', $log[0][$i], $rank[$i]);
preg_match_all('/<h2[^>]*>([^< ]*)/', $log[0][$i], $name[$i]);
preg_match_all('/< div class="text">([^< ]*)/', $log[0][$i], $text[$i]);

好吧,到此为止,整个分析、剥离过程完满结束,就只剩下按要求的规范化输出。就是把我提取到的东西table化,略。

整个过程的部分源程序如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
function get_content($url) /*网址转化为网页内容*/
{
	$ch = curl_init();
	curl_setopt ($ch, CURLOPT_URL, $url);
	curl_setopt ($ch, CURLOPT_HEADER, 0);
	ob_start();
	curl_exec ($ch);
	curl_close ($ch);
	$string = ob_get_contents();
	ob_end_clean();
	return $string;
}
 
/*数据传入开始*/
 
$_POST['url'] = str_replace("www.wwe.com", "us.wwe.com", $_POST['url']);
$data = get_content($_POST['url']).get_content($_POST['url'].'?page=1').get_content($_POST['url'].'?page=2').get_content($_POST['url'].'?page=3').get_content($_POST['url'].'?page=4');
 
/*数据传入结束*/
 
/*正则提取及替换开始*/
 
$data = str_replace("&amp;", '&', $data);
preg_match_all('/<div class="row(.|\n)*?<div class="clear">/', $data, $log);
$log[0] = preg_replace('/< a [^>]*>|< \/a>|<img [^/>]*>|\t|\r|\n/', '', $log[0]);
$log[0] = str_replace('< div class="clear">', '<div class="clear"></div></div>', $log[0]);
 
for($i=0;$i < count($log[0]);$i++)
{
	preg_match_all('/<div class="thisweek">([^< ]*)/', $log[0][$i], $rank[$i]);
	preg_match_all('/<h2[^>]*>([^< ]*)/', $log[0][$i], $name[$i]);
	preg_match_all('/<div class="text">([^< ]*)/', $log[0][$i], $text[$i]);
}
 
/*正则提取及替换结束*/
 
/*table格式化开始*/
 
echo '< table>< col>';
for($i=0;$i < count($log[0]);$i++)
{
	echo '<tr>';
	echo '<td>'.$rank[$i][1][0].'</td>';
	echo '<td>'.$name[$i][1][0].'</td>';
	echo '<td>'.$text[$i][1][0].'</td>';
	echo '';
}
echo '';
 
/*table格式化结束*/

截图是必须的

这就是YARK – P25的威力!你或许会问,就那么一大坨东西有神马用呢?呵呵,真正用法需要把它们贴到Excel。

关于复制那一大坨信息的Excel粘贴也有讲究。

首先,打开Excel,然后选择“编辑 – 选择性粘贴”,然后在“方式”里选择“文本”,按“确定”。最后简单调节表格列距以及单元格格式后,你就能得到如下图的效果:

你一定会问,为神马要如此折腾“粘贴”而不用“Ctrl+V”?呵呵,这和我的用途有关,你完全可以在“选择性粘贴”里用默认的“HTML”方式,结果跟直接用“Ctrl+V”一样,所有粘贴数据都全部挤在1个单元格里,这显然不符合我的设想,如果最后得出这样一个结果的话,我之前所做的事情都白费了。

为什么一定要以现在这个各信息分离的Excel形式呈现呢?因为,我做这么多事情的目的就是能更快更直接地提取我需要的信息,做P25的每周统计。

统计!统计是我的目的!!!!

还记得2天前我做的“ADR前46周的WWE P25”?那可花费了我半天的时间打开一个个网页,一段段信息复制粘贴并最终形成图表。如果,我要对WWE所有选手都这般干的话简直是天方夜谭,但我的确想获取那些信息,知道那个趋势,该怎么办呢?所以我有了弄YARK – P25的念头,并付诸行动,最终华丽地成功了!

YARK – P25在此!聪明的你肯定知道怎么用的。

往后,随着icon化的日益加剧,我真的可能不再看WWE的摔角而转投其他联盟,但我会记住WWE的,不单是因为他们把我引入摔角门,更重要的是为了提取信息,我从他们的网页我自学到了很多,他们的网页严谨规范,虽然可能不是最好的,但我已经从中领会到很多,难道这还不够么?!

哇咔咔,今天的blog很技术,有心人,你们会懂的。

2011-07
6

我们只是在DO OUR BEST

By xrspook @ 20:43:55 归类于: 烂日记

伟人啊!伟人啊!一大早起来就遇到伟人了!!!!

对,没错,你看到的是10张乐谱,完全不知道sunfruitfish老人家是怎么弄出来的。这对一个音乐控来说是一个平常事,但对xrspook来说,这简直就是胜迹!上帝突然间大大地关照我了。

必须说,sunfruitfish我爱你!请受我一拜~~~

而且,必须继续说明,这份乐谱是今天凌晨接近5点发过来的QQ离线文件,我感动得内牛满面啊同志~~~

不可能人人都是完美的全才,于是我们要区分轻重,自己擅长的东西要狠狠地、猛烈地燃烧小宇宙,把自己不擅长的东西留给那些精通的盆友。阴阳搭配,世界就和谐了。

于是今天我把心一横做了件一直都想做但一直没有做的事。

上图展示的数据只有日期和排名,但我想做到的是展示出时间、排名以及导致某排名发生的事情(当指向某点时显示所发生的事情),显然,简单的Excel无能为力,但一定有东西能轻松实现这个效果,因为这是普通calendar应具备的基本功能。虽然暂时实现不了,但数据收集是必须的,因此,今天我一个个网页点进去,对过去46周的数据进行了搜刮。

46周了,已经46周了!52周就是一年,已经过去了88%,时间是魔鬼。看到一个这样的走势图,真让人感慨。

统计工作先得有总体思路,这是保证统计工作质量的前提,专业术语称之为“统计设计”;然后是数据收集,这是统计工作的基础,专业术语称之为“统计调查”;接着是对数据分组、汇总,专业术语称之为“统计整理”;最后是结果的分析汇报,专业术语称之为“统计分析”。简单来说是个从定性到定量再到定性的过程。好吧,我承认这段话我是开着“统计基础知识”教材弄出来的,不过,在过去2年里,我的确就是这么干的,虽然有时并不是干全套。

关于ADR前46周的WWE P25,不知道你有没有发现:

1、从进入main roster第一周开始就上P25。
2、最低排名是21(第1周2010-08-20),最高排名是2(第25周2011-02-04,第26周2011-02-11,赢了Royal Rumble后)
3、只有一次排名在20开外。
4、排名15或以下的次数是8,即17.4%。
5、2010-10-25至2011-04-30,连续29周保持在前十,占63.0%。
6、排名第四、第六、第十五各4周,占26.1%。
7、最后一点,也是最重要的一点,你必须知道的一点,他有11周排名第7,占23.9%,7是频率最高的排名数,且远远抛离其它数字。

最终,得出一个神马结论呢?如果POWER25里前十算是一线和二线顶级的话,他会是一线减二线加的常客,他会登顶,但那只是一个peek,偶然事件。2011年4月底被draft到Raw是一个沉痛打击,他正是从第37周(2011-04-30)后开始跌出前十的,而且之后一直徘徊在15附近,至今已经9个周。要知道,他进入Smackdown日起,仅用了8个周就入围前十了。如果把第37周算在Raw的话,他在Raw的10个周里,只有可怜的1次上前十(10%),但在Smackdown里他上前十的次数是28(77.8%)!

当然了,这都只是数字,数字来源于事实,事实发生在过去,未来会怎样,我们或许可以通过以前的经验获知,但人是万能的,当奇迹要发生时完全不需要知照和理由。奇迹和运气不一样,奇迹发生需要你事先已经准备妥当,当机会碰上TOTAL PACKAGE的你时,奇迹降临是理所当然的。

DO OUR BEST,这是我们唯一可以做且偶尔必须做的。

2011-06
10

8,你们好

By xrspook @ 22:48:21 归类于: 烂日记

哇咔咔,今天终于有时间复习我的统计,感觉比上课的时候好,复习完一部分就拿出2006-2008年的题目来做,感觉非常好,但多选题还是死穴,提醒吊胆地。这需要我继续去啃和习惯。

回到家里,8样东西已经在昨天送到。列队如下:

其中

有4个拉美作家:马里奥·巴尔加斯·略萨[秘鲁]、加西亚·马尔克斯[哥伦比亚]、豪·路·博尔赫斯[阿根廷]、科塔萨尔[阿根廷]。

有6个出版社:上海译文出版社、人民文学出版社、南海出版公司、浙江文艺出版社、花城出版社、山西人民出版社。

好吧,其实这都已经不是我看到他们的第一反应了,我的第一反应是啥?@xrspook有写,自引如下:

《酒吧长谈》是本字典级的书,566页啊老天!信不信由你,这书卓越才卖22.9元 – 今天 20:12 来自微博AIR

2008年原来浙江文艺出了豪尔赫·博尔赫斯的作品系列,浙江文艺的书一直出得很有味道很朴实且价格公道,我喜欢 – 今天 20:09 来自微博AIR

终于买全了上海译文的米兰·昆德拉系列作品,显然,第二版的价钱是第一版(约2003年)的2倍或以上,但纸的质量差了,连书签都坑没了,不厚道 – 今天 20:06 来自微博AIR

《性别战争》真是本Y书,连书页的边都是yellow的 – 今天 20:02 来自微博AIR

感觉,新经典打算或者已经把加西亚·马尔克斯13部主要作品的版权买下来,非常豪爽的一个公司! – 今天 20:01 来自微博AIR

痛恨三世书封皮的胶水!!!!结果,我毁掉了一个封皮才打开了包装…… – 今天 19:59 来自微博AIR

我为什么喜欢浙江文艺?以下图片是《恶棍列传》的书签,太有特色了!

虽然博尔赫斯的书并不让我心动,甚至让我觉得有点难懂,但为了浙江文艺出的这么一套漂亮的书(《恶棍列传》的封皮很有味道,这个出版社通常不会套N层套子,但封面设计给人用心的感觉),我很有冲动把这个系列8本收下。博尔赫斯是拉美文学大师中的大师,我尝试着理解过,但很高深,非常高深……

拥有是兴奋的,分享也应该是兴奋的,很坏地把东山少爷的三世书“克隆”了出来,但u115却不给力,已经上传了一个晚上了,依旧是失败,巨囧!不是一般的折磨人。这有u115的错也有电信的错,因为晚上高峰期,抽风是习惯性真理性的事。看来这个压缩完后93MB的320Kbps共12首歌的CD分享今晚是没戏的了。

每当我疯狂购书的时候妈就会说:“你的书哪有地方放啊~~~” 我已经成了一个有收藏书癖的怪物,既然吃并不能让我痛快,或者说永远都不能胡来了,精神生活是我最后的挥霍之地。虽然,我的房间已经有2个书柜,但还是被塞满了,但那又怎样呢,总会有路的。

昨天自从看了某MV后,不停地在听Chris Medina的What Are Words,虽然很飙音,虽然我不会假音,但昨天听了2次后我情不自禁地跟唱了,即便吼得很恐怖,从Chris Medina开声的那一下,我知道我是迷上这首歌了,毫无疑问地。你不能不为那有点沙沙的声音动容,而音乐的故事更是让人内牛满面。太多的仇恨,太多的吐槽,太多的争斗,被单纯的爱感动一下真好。

Chris Medina – What Are Words(7.15MB 320Kbps,mediafire下载,希望大家能上MF

开心,被感动,其实不难。

2011-05
26

参数确定

By xrspook @ 17:32:21 归类于: 烂日记

昨晚幸福地进行第二次减肥行动,确定了以下参数:

* 原来我听的那些WWE相关曲目(12首,总时长42:55)平均时长才3:35,一半在3:30以下,最长的2首一首是4:00,另一首是4:16,所以,无论我多么努力,还是不能在1首歌的时间内走完一圈,最明显的是那首Realeza,虽然装B用了几秒钟,但全程我都很努力,还是没办法在其时间内走完一圈,离终点大概10-20米处,歌就完了,回来一看,我那个去,这首歌很不人道地只有3:24。如果按照每圈370米计算的话,3:24也就是204秒,我的速度已经达到了1.72米/秒,除非我的速度能去到1.81米/秒以上,否则我就不可能在3:24内走完一圈,泪奔~~~ 还有一个法子,就是在最后几十秒我用跑步取代急行……坑爹的音乐,怎么每首歌都那么的短,害人啊~~~

* 小腿消失酸麻的感觉起码得走上6圈后,而不是昨天估计的“几圈(即3-4圈)”。通常来说出现酸麻正常反应是减慢速度,但原来不减慢症状也会自然消失。45分钟过后轻松无压力地回办公室继续看WWE,但当看完30分钟后起来回去洗澡时,杯具了,机器人般,乳酸作的孽。

* 一次45分钟的急行,绝对能走10圈以上(每圈约370米)。

昨天还很凉爽,今天气温一下子飙升起来,真万恶,但这就是亚热带的夏天,无论你喜欢不喜欢。早上我还加了一件长袖外套,下午我都有冲动开空调了。但弱弱地兴奋一下,其实气温高更有利于我减肥计划的推进。说到气温高,其实昨晚的气温一点都不高,但小昆虫叫得厉害,我甚至都怀疑我耳塞有问题了。

星期四,oh yeah~~~ 平凡单调的Thursday。

© 2004 - 2024 我的天 | Theme by xrspook | Power by WordPress