本次分享的数据来源是“2345天气预报网”(),尤其在2016年以后数据中新增了有关空气质量的指标,具体可见下图:
首先看看数据是否直接嵌在html网页中,最有效的方法是在原网页中选择不同的年份和月份,看看链接是否发生变动。经测试,网页链接无变化,那就说明天据一定异步存储在别的文件中,接下来就要找到这个存储数据的文件了。
按照爬虫的一般套,首先在原网页中按入F12快捷键,选择Network,然后再从原网页中选择不同的年份或月份,你就会从XHR或JS中找到那个文件。很显然,这里的天据是存储在JS文件中的:
接下来就是确定这个文件的链接地址,如下图所示,这个链接还常简洁的,你可以选择不同的年份或月份,发现这些链接的规律,然后一次性生成这些具有规律的链接。
很棒,所有跟天气相关的数据,都可以获取到,接下来通过正则表达式将每个关心的字段都存储到列表中:
OK,今天的内容就介绍到这边,如果需要数据或代码,可以工作号回复“shanghaitianqi”即可。
图文来自网络、如涉及版权问题,请联系我们以便处理。文章内容纯属作者个人观点,不代表本网观点。a型血人的性格