2011-11
28

死得瞑目了

By xrspook @ 18:04:20 归类于:烂日记

昨天晚上收到Lei的这些回复,彻底死心了……

Lei
告诉你一个处理方法,将最外围的a标签干掉,换成div什么的,让DOM结构正常化。然后在外层的div上绑click事件,阻止浏览器本身的事件,然后用JS将页面跳转到想要的页面。
19小时前

Lei
看到DEMO终于知道怎么回事了。因为你的a标签里面还嵌套着a标签,这用法本身就是错的(看来画廊模板真的很烂),所以浏览器解析出来的DOM结构就是错的。用JS去A标签,也是在错误的DOM树上修改,就不可能正常了。
19小时前

原来我的瞎想一开始就是错的,难怪……所以虽然我已经很努力了,但还是没有实现我的目标,因为我的方向根本就是错的。昨晚看了两个把“span”利用JavaScript当“a”用的例子(例子1例子2),结果发现纯文字链接没问题,加上非文字部分就歇菜了。估计是某些判断句所设定的非空与不是常规字符串有空格回车什么的东西产生矛盾。对JS可算是一窍不通,看来这回,我真的很有理由认真地学学JS了。

HTML、CSS、JavaScript、jQuery浏览器端的神兵利器,外加服务器端的PHP和SQL,哇咔咔。如果当初我读的是网络工程神马的,估计会很神奇,不过如果我的专业真是那个我就不会花那么时间激情澎湃地像现在这样去学习了。

今天没搞懂是怎么回事,库里有一帮人在拍片子,整个下午就耗在当群众演员上,外加早上一回来就说开神马会,结果,一天就这么被浪费掉了,多可惜啊~~~

明天是Raw,是Alberto Del Rio vs. CM Punk的WWEC rematch,对结果,我不存在丝毫的幻想,我只希望他们能给出一场精彩的比赛,足矣。可以没有头衔,但不可以没有血性,哪怕当个跑龙套的jobber!

不知道推迟了1个多月的演讲明晚会不会举行,真讨厌!

2011-07
7

抓头 – 嵌套div的正则提取

By xrspook @ 17:50:04 归类于:烂日记

很傻很天真的以为用正则可以轻易提取出div里的层层嵌套div,结果囧得厉害。div的开头通常都带有class或id,唯一,且容易辨认,但div的结尾,清一色的“/div”,真会搞死人。网络上流传的提取div版本貌似都不太可行。在一坨里提取一堆只是第一步,第二部还得把提取到的内容xml数组化。

其实呢,我也有想过一开始就对所有内容xml数组化,不过,信不信由你,从最开始那层<>到我要提取的那些内容少说也有15层,而且如果那些网页设计者好心加一层或减一层,我又得慢慢摸到底哪里出问题了。所以,用xml数组化是个思路,但“解剖”源数据的工作量不少且维护困难。毕竟,这不是5层,这是15层+啊!怨念那些穿那么多层衣服的网页。

正则难提取嵌套div,xml太郁闷,咋办呢?

我还有一个很天真的办法,手动选取要提取部分的代码然后贴到程序里提取。这么一来就解决了难提取困难的问题,当然啦,都手动干了,还有什么难不难的,这个办法很低级,但一定可行。

怎么办呢,怎么办呢?!

应该是我想得还不够深入,再花点时间动动脑筋好好琢磨琢磨吧。

今天很坏地想到用正则提取,table输出,然后直接Excel粘贴保存,早上还在兴奋这个伟大思路,下午就发现正则把我卡死,生活真是个悲喜剧。

别囧,我有的是时间,一定可以的!

Page 1 of 11
COPYRIGHT @ 我的天 | Theme by xrspook | Power by WordPress | Valid XHTML 1.1 and CSS 3 Go to top