「Python」爬虫实战系列

2024-02-21 14:25| 来源: 网络整理| 查看: 265

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第4天, 点击查看活动详情

公交线路爬取

使用requests爬取北京公交线路信息，目标网址为beijing.8684.cn/。

爬取的具体信息为公交线路名称、公交的运营范围、运行时间、参考票价、公交所属的公司以及服务热线、公交来回线路的途径站点。

考虑到现代技术与日俱进，反爬措施层数不穷，故可以考虑构建用户代理池，能够避免总是使用一个 UA 来访问网站，因为短时间内总使用一个 UA 高频率访问的网站，可能会引起网站的警觉，从而封杀掉 IP。

这里对User Agent的构造进行分析。标准的UA是由浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 、渲染引擎标识、版本信息组成，所以不妨采用构造UA的方法结合随机函数，随机生成一个UA，以达到混淆服务器的效果。核心部分代码如下：

def get_ua(): first_num = random.randint(55, 76) third_num = random.randint(0, 3800) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)', '(Macintosh; Intel Mac OS X 10_14_5)' ] chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num) ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36', '(KHTML, like Gecko)', chrome_version, 'Safari/537.36'] ) return ua

观察到目标网站的公交线路分别有以1开头至9开头以及url的变化。不难看出，以什么开头的公交就在beijing.8684.cn/ 后面加上list?。若以字母B开头，则为listB。通过字符串的拼接就可以得到不同数字或字母开头的公交线路名称。 F12键观察一下页面的元素排列，通过观察页面源代码发现，我们所看到的代码与页面源代码没有出入（有些在页面源代码中并没有渲染信息在HTML中，而是通过js渲染到浏览器中）。

下面以1路车为例，进入到公交线路信息详情的页面进行信息提取。观察页面发现1路公交车的详情页面 -> beijing.8684.cn/x_322e21c5 的url的最后的参数刚好和 beijing.8684.cn/list1 页面中的 a标签的href属性对应起来。

所以大胆假设：每一个list页面中相同位置的a标签的属性href中的值就是相应的线路详情路线的后缀，所以每个线路的具体目标网址只需要拿到list页面中的href值，然后和beijing.8684.cn/ 拼接就可得到线路的url。

对于公交线路的名称、运行时间、所属区域、参考票价以及所属公司在页面中的位置都是在div class="info"的盒子里，并且发现class="info"的属性值在整个页面中只出现了一次。通过get_text()方法就可以提取到所需要的信息。

而对于公交来回具体经过的地方，在页面渲染时，由于经过的站太多，在页面需要隐藏显示，所以直接找到站点对应的div并提取text时，会提取到一些不需要的信息。在获取到信息还需要根据实际情况处理掉冗余的信息，保证爬取信息的正确性。

由于目标网站对于每个页面的渲染可能存在不同，也可能笔者在提取需要的信息考虑不完全等原因，并不能完全保证每一个页面都能完整的提取到所需要的信息。故需要利用到try...except...来捕捉异常将不符合提取信息逻辑的页面的url另存一个文件，并在信息爬取结束后，观察该页面，进而完善原有代码或者模块。

运行效果

信息爬取成功界面：爬取的信息：

注意到error文件中的链接只有一个，说明前面的逻辑还是写的相当不错的，😀囊括了大部分的情况，能够爬取到目标信息。

具体代码 from bs4 import BeautifulSoup import requests import random # UA池 def get_headers(referer_url): first_num = random.randint(55, 76) third_num = random.randint(0, 3800) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)', '(Macintosh; Intel Mac OS X 10_14_5)' ] chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num) ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36', '(KHTML, like Gecko)', chrome_version, 'Safari/537.36'] ) headers = { "User-Agent": ua, "Referer": referer_url } return headers def main(): url = 'https://beijing.8684.cn' # bus_head = [str(i) for i in range(1, 10)] + ['B', 'C', 'D', 'F'] bus_head = [str(i) for i in range(1, 3)] for bus in bus_head: bus_single_url = url + '/list' + bus # 1字开头的bus resp = requests.get(bus_single_url, headers=get_headers(url)) bus_main_html = BeautifulSoup(resp.text, 'html.parser') bus_route_list = bus_main_html.find('div', class_="list clearfix").find_all('a') route_href = [] # 只存取线路的链接-/x_322e21c5，完整的url需要拼接 # 即：url + route_href[0] = https://beijing.8684.cn/x_322e21c5 for single_route in bus_route_list: route_href.append(single_route.get('href')) for href in route_href: route_url = url + href bus_detail = requests.get(route_url, headers=get_headers(bus_single_url)) bus_detail_html = BeautifulSoup(bus_detail.text, 'html.parser') try: bus_info = bus_detail_html.find('div', class_="info") detail = bus_info.get_text('#').split('#')[:6] route_total = bus_detail_html.find_all('div', 'bus-excerpt mb15') bus_lzlist = bus_detail_html.find_all('div', 'bus-lzlist mb15') with open('bus.txt', 'a') as f: f.write('\n') f.write('\n'.join(detail[:4])) # 只需要写入一次 f.write('\n' + detail[-2] + detail[-1]) # 公司名 for route, bus_ls in zip(route_total, bus_lzlist): trip = route.find('div', 'trip').get_text() start, end = trip.split('—') # 获取起始站点和终点站的名字 li_list = [li.get_text() for li in bus_ls.find_all('a')] # 获取经过站点 tmp = [li for idx, li in enumerate(li_list[1:-1]) if li != start and li != end] # 去掉首尾两个站点 tmp = [li_list[0]] + tmp + [li_list[-1]] # 加上起始站点和终点站 tmp = [f'{idx + 1}:{r}' for idx, r in enumerate(tmp)] # 添加站点编号 with open('bus.txt', 'a') as f: f.write('\n' + trip + '\n') f.write('->'.join(tmp)) print(f'{route_url}信息写入成功！') except: with open('error.txt', 'a') as f: # 爬取不到的路线，在细致分析 f.write(route_url + '\n') if __name__ == '__main__': main()

一些心得：

在提取详情站点信息的时候由于最终写入的文本站点信息不能重复，即公交的起始点和终点只能出现一次，但是在直接使用get_text()方法时，或获取到多余的站点，即终点站的名称出现了两次。

解决方法：对获取到的站点列表的中间部分（即去除了起始点和终点的部分）进行遍历，若当前的值是终点站或者起始站，则将该值从列表中删除。

【本文地址】

公司简介

联系我们