网页抓取 « 我的天

2022-11

我想用Python

By xrspook @ 10:24:39 归类于: 烂日记

几天前我开始看关于把Python跟Excel结合的书。其实那些书一年多前我已经已经买了，只是一直都放在那里，甚至还没开封。因为同期购买的还有一大堆Power BI的书，所以Python跟SQL我都还没有开封。现在之所以开封是因为突然想到想抓取一下网上的官方新冠疫情数据。之前我没想过要自己抓取，后来发现各大门户网站的看板都只有几个月的数据。顶多只能看到今年8月，之前的就没有办法了，要怎么抓取那些数据，然后以我想要的方式展示出来，显然依靠看板是不行的。那个东西不是给我这种较真的人去看的，只是给大伙看一下今天的情况怎么样，近期的情况怎么样，而且都只是了解个大概而已。新冠疫情的数据应该是官方的，当然是找国家卫计委和各省的卫健委。国家卫健委的东西我感觉我暂时用不上，原因是颗粒度就只是到省份而已。我之所以要收集这些新冠疫情的数据，是因为我想看一下新冠疫情和我单位的业务到底有没有关系，是否因为新冠疫情的零星散发导致广东省又或者是东莞市周边的各种防疫政策突然严格起来，甚至出现区域封控，最终导致我库的业务量大受影响。因为总的来说，和我库发生业务的那些单位大都是拉到周边，跨省的偶尔也会有，但不多。相对于之前来说，今年的装卸船都没有那么繁忙，所以新冠疫情数据主要看广东省，尤其是深圳、广州、惠州、佛山这几个地方大概就差不多了。因为从东莞疾控发布的消息来看，东莞是非常看重跟它接壤的那些地市的疫情情况的。我的真实感受是广州卫健委那边还没官方宣布消息，东莞卫健委这边就已经在官方公众号上发布要对广州采取加码防控。

广东卫健委的网站，我感觉挺漂亮，没什么多余的东西，开的速度也很快。我研究了一番那个网站的源代码，好像没找出是基于什么做出来，但我总感觉从那个网址的展示形式看来非常有可能是基于WordPress的网站。从网站的头部信息看来，写脚本的那个人很用心，因为他把信息整理得非常整齐，不同类别的还会特意用个空行分隔开，css也是整理得很漂亮。那个网站如果在不同的终端查看，估计会是不一样的效果，会有针对平板或者手机之类的版本。网站做得这么细致，里面也有不少的javascript，所以会不会有反爬技术还真很难说。最终发现如果我用最初级的爬虫去抓取数据，仅仅能爬到网页头的搜索，然后就戛然而止了。或许用上一些高端的手段能把网站爬下来。但我需要的不过是其中一段少则百余字，多则几百字的东西而已。尝试太凶猛，卫健委把我的IP给封了，我连看都看不了，问题更大。所以最终我采取的措施是在Firefox浏览器上安装一个叫download them all的插件，批量下载他们的网页。在做这些事之前，我已经试过手动下载其中一个网页，然后用Python正则提取我想要的东西。事实证明批量下载网页是可行的，Python正则抓取信息也是可行的。最终问题就归结为抓取到了某些信息以后，怎么才可以让那些信息以我想要的方式表达出来。最终我要什么效果，要什么样的颗粒度，实际上我没想好，但起码离线的网页已经在手，就没什么好纠结了。

于是这也带出了我翻出那些Python跟Excel结合的书，找一下灵感。

标签：Excel, python, 扮IT, 数据, 新冠疫情, 烂日记, 爬虫, 网页抓取

评论关闭

我的天

我想用Python

戳这只鬼

随机日志

我的天

我想用Python

戳这只鬼

标签云了

随机日志