最新Boss直聘爬虫系统(在跟~)

您所在的位置:网站首页 boss直聘爬虫检测 最新Boss直聘爬虫系统(在跟~)

最新Boss直聘爬虫系统(在跟~)

2024-07-10 16:59:31| 来源: 网络整理| 查看: 265

最新Boss直聘爬虫系统(在跟~)

BOSS直聘爬虫经常会限制IP,我们采取控制浏览器的方法获取源码爬取

例子:以爬取 杭州市 "BI"岗位为例

需要源码的v+: marshal_wz

功能1:获取对应城市的岗位页面数量

因为BOSS直聘限制了用户只能看到10页数据,所以一般需要分不同区域的来进行爬取,但是也有些区域没有该岗位,导致爬取失败;

首先查看杭州市的所有城市的区号;见博客:https://blog.csdn.net/weixin_52001949/article/details/138193474

确定爬取的配置文件 获取每个区域存在岗位页码的数量。方便后面遍历爬取 可以看到有些地区是没有BI岗位的,最多的岗位区域是330110,余杭区 功能2:获取所有岗位详情的链接,存在本地

根据上述获取到的每个地区存在的最多页面,遍历的时候使用这个值作为最终遍历数。

python 复制代码 岗位详情链接=[] page_start=1 page_end=2 for area in areaBusiness: page_start = 1 # 获取页码值,如果没有匹配的行,则默认为None page_values = 对应页码表[对应页码表['城市'] == area]['页码'].values page_end = page_values[0] if len(page_values) > 0 else None if page_end is None: continue for i in range(page_start,int(page_end)+1): print(area, i) url = f'https://www.zhipin.com/web/geek/job?query={jobs[0]}&city={城市代码}&areaBusiness={code}&experience={experience}°ree={degree}' # 使用 Playwright 同步 API '获取源代码' boss.get(url) WebDriverWait(boss, 10).until(EC.visibility_of_element_located((By.CLASS_NAME, "options-pages"))) time.sleep(0.5) boss_text = boss.page_source soup = BeautifulSoup(boss_text, 'html.parser') # 找到类名为"options-pages"的标签 options_pages_div = soup.find('div', class_="options-pages") # 在这个内部找到所有的标签 a_tags = options_pages_div.find_all('a') if options_pages_div else [] # 从找到的标签中提取文本,忽略空白和非数字内容 numbers = [tag.text.strip() for tag in a_tags if tag.text.strip().isdigit()] # 获取最后一个数字,如果存在的话 last_number = numbers[-1] if numbers else None job_card_left_elements = soup.find_all(class_='job-card-left') for element in job_card_left_elements: href = element['href'] full_link = 'https://www.zhipin.com' + href 岗位详情链接.append(full_link) df=pd.DataFrame({ 'Name':岗位详情链接})f 文件名='岗位详情链接_BI_杭州.xlsx' df.to_excel(f"{文件名}") 功能三:遇到需要验证,自动暂停爬取,提示需要手动验证

BOSS直聘会对任何频繁用户进行验证

我们通过控制企业微信的聊天机器人来提示用户需要验证,验证完成之后再进行爬取,基本上不到1000条数据会有提示。

具体链接到:https://blog.csdn.net/weixin_52001949/article/details/137915839?spm=1001.2014.3001.5502

python 复制代码 for i in 岗位详情链接["Name"][s:e]: count=count+1 print(f"开始爬取{count}") # 打开网页 url =f'{i}' boss.get(url) time.sleep(random.uniform(10,20)) #遇到需要验证的话执行qywx_message提示函数。 if("点击进行验证" in boss.page_source or "您暂时无法继续访问" in boss.page_source): print("报错") count_end=count qywx_message() input() boss.get(url) time.sleep(random.uniform(10,20)) detail_code = boss.page_source '执行爬取' df = pd.concat([df, start_paqu(detail_code)], axis=0) df.to_excel(f"{文件名}_爬取到{s}-{e}.xlsx") else: detail_code = boss.page_source df = pd.concat([df, start_paqu(detail_code)], axis=0) df.to_excel(f"{文件名}_爬取到{s}-{e}.xlsx")


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭