python爬虫实例 | 您所在的位置:网站首页 › 电影票房统计数据怎么查的 › python爬虫实例 |
刚好最近在做一个关于中国电影市场的分析,所以这篇实例就诞生啦!!! 一、观察网页我所爬取的网站是:中国票房——年度票房。 网址甩出来:http://www.cbooo.cn/year?year=2019 我们需要的数据是从2015年到2019年,每部电影的名称、详情页url、类型、总票房、国家及地区、上映日期 点进去的页面是介个样子滴~它总共有25条数据,就是2019年的TOP25! 1.导包 导入我们所需要的包 import os import requests from lxml import etree import pandas as pd2.定义获取数据的函数 因为每年都要请求一遍,所以为了方便,我们将它写成一个函数,直接调用,方便我们自己。 headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'} cookies = { 'SUB':'_2A25wmfkgDeRhGeBI4lcU9irOzD2IHXVQZYdorDV6PUJbkdAKLUvAkW1NRkZNESdNnLdqXAeecDulr43bOma1k9ut'} def get_data(url): r = requests.get(url, headers=headers, cookies=cookies, timeout=30) r.raise_for_status() #查看是否正常,正常返回200,否则返回404等 r.encoding='utf-8' return r.text此函数会返回url的网页源代码的内容,以url='http://www.cbooo.cn/year?year=2019’为例,下图为get_data后的结果,得到data后,我们就可以解析它,获取到我们想要的部分 3.提前创建csv表 local_data='D:/Learn' local_main2=local_data+'/'+'movie.csv'#设置路径 if not os.path.exists(local_main2): data |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |