Python

您所在的位置:网站首页 为什么我的微博热搜榜显示没有内容 Python

Python

2024-07-14 15:26:42| 来源: 网络整理| 查看: 265

Python-selenium-爬取微博热搜信息

最近闲来无事,开始学习Python-selenium爬虫(第一天),记录下爬取微博热搜信息的过程,我用的是Google Driver操作谷歌浏览器进行数据获取。

selenium是一个支持各大浏览器的自动化测试工具,包括 Chrome,Safari,Firefox ,ie等。再构造爬虫时,如果我们加入了User-Agent,那么变伪装成了浏览器,可以骗过一些技术水平不太高的网站。但如果使用selenium,则就不是伪装浏览器,而是真正的用浏览器去访问。有时我们可能会遇到这种情况,前端页面展示出来的东西,并不在后端源代码中,自然无法通过使用requests请求获得源码进行爬取。这时候就可以使用selenium进行爬取数据,因为他就是用真实的浏览器去访问页面的,所以出现的内容和我们在前端看到的是一模一样的。

爬虫地址

https://s.weibo.com/top/summary

成果预览 实现代码: # -*- coding: utf-8 -*- """ @File : 微博热搜榜.py @Author : [email protected] @Time : 2020/03/06 22:11 @notice : 爬取微博热搜榜列表&热度&链接 """ from selenium import webdriver import time from lxml import etree import pandas as pd driver = webdriver.Chrome() driver.get('https://s.weibo.com/top/summary') print('当前页面标题:'+driver.title) print('当前页面地址:'+driver.current_url) print('----------------分割线----------------') html = driver.page_source html = etree.HTML(html) dataList = html.xpath('//td[@class="td-02"]/a/text()') #获取对应的内容 # for dt in dataList: # print(dt) # 打印对应的文本 #获取对应的链接 linklist = html.xpath('//td[@class="td-02"]/a/@href') hotList = html.xpath('//td[@class="td-02"]/span/text()') time.sleep(1)#操作暂停一秒 driver.close()#关闭浏览器 #持久化文件到本地 dts = [] for i in range(len(dataList)): lst = [] lst.append(dataList[i]) if(i == 0): lst.append('置顶热搜') else: lst.append(hotList[i-1]) lst.append('https://s.weibo.com'+linklist[i]) dts.append(lst) df = pd.DataFrame(dts) df.to_excel('weibo-hotkeyData.xlsx', encoding='gbk')#写入excel中 print('爬取完成') 过程分析 利用Xpath拿到各个节点取出对应节点的文本信息即可,然后利用pandas库保存列表到Excel中去。强烈推荐Xpath Helper这个插件,能帮助我们快速验证是否拿到相关节点的信息。


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭