python 爬取城市空气质量数据 | 您所在的位置:网站首页 › 空气质量发布软件下载 › python 爬取城市空气质量数据 |
[python]爬虫爬取中国城市的空气质量数据
使用工具:pycharm/python3.7,Chrome driver 使用库:selenium,time 一、下载Chrome driver(必读)这一步是无论执行.py还是.exe, 都要进行的一步, 在这一步我们要安装一个浏览器驱动插件, 相当于为我们的.py和.exe安装假肢。 首先,我们查看我们的浏览器版本, 根据自己Chrome浏览器的版本对应下载。 这里需要对环境变量进行配置, 首先我们要找到Chrome浏览器的安装位置, 最简单的方法是找到Google Chrome的快捷方式, 右击选择“打开文件位置”, 将路径复制下来 然后,打开计算机——属性 然后点击高级系统配置, 1、推荐使用pycharm,不过pycharm的安装过程稍微复杂。 pycharm安装包下载地址: https://www.jetbrains.com/pycharm/download/#section=windows 2、python的安装相对于pycharm会简单一点 首先下载python软件包, python官网:https://www.python.org/downloads/windows/ 安装的详细教程,请参考: https://blog.csdn.net/qq_25814003/article/details/80609729 四、导入库文件1、pycharm安装库文件可以直接在软件窗口下进行,操作如下: 打开“File–>Settings”或者使用快捷键Ctrl+Alt+S 若python版本是3.6.0+, 上述命令改为: pip3 install selenium1、爬取真气网的空气质量历史数据 # -*- coding:utf-8-*- #可以利用webdriver 打开一个浏览器 from selenium import webdriver #使时间中止至指定时间 import time def search(url): #利用get()方法获取网页信息并返回 return driver.get(url) def parse_one_page(page): #查找出网页中全部的tr标签并赋给 tr_list tr_list = driver.find_elements_by_tag_name('tr') return tr_list def main(): city = input('请输入一个城市(如:北京):') year = int(input('请起始年份(真气网的历史数据从2013年12月开始):')) month = int(input('请起始月份:')) now_year = int(input('请终止年份:')) nowtime = int(input('请终止月份:')) print('请耐心等待:') print('正在抓取' + city + '市' + '空气质量每日历史数据:') #创建一个csv文件 file_name = city + '.csv' f = open(file_name,'w') #写入表头 f.write('%s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\t %s\n'%('date','AQI','grade','PM25','PM10','SO2','CO','NO2','O3')) #定义全局变量driver global driver #打开Chrome浏览器 driver = webdriver.Chrome() #爬取所需数据 #真气网空气质量历史数据 for i in range(1,80): if month |
CopyRight 2018-2019 实验室设备网 版权所有 |