使用requests获取图片并保存

2024-01-30 20:46| 来源: 网络整理| 查看: 265

获取某一个网站的图片信息需要用到requests模块,所以我们需要安装requests

安装

pip install requests # 直接安装 pip install -i https://pypi.doubanio.com/simple/ requests # 指定地址安装

测试是否安装成功

import requests # 回车不报错就算安装成功 response = requests.get("https://www.baidu.com") print(response.status_code) # 200，证明访问成功

网络正常的情况下，可以访问百度，证明安装成功

发送请求

import requests # 导包 response = requests.request(method='get', url='https://www.baidu.com') # 向百度首页发送请求，请求方式是get print(response.status_code) # 获取返回code码

request类中常用的参数：

method：请求方式。 url：请求URL。 **kwargs： params：字典或者字节序列，作为参数增加到url中，使用这个参数可以把一些键值对以k1=v1&k2=v2的模式增加到url中，get请求中用的较多。 data：字典、字节序列或者文件对象，重点作为向服务器提供或提交资源，作为请求的请求体，与params不同放在url上不同。它也可以接受一个字符串对象。 json：json格式的数据，可以向服务器提交json类型的数据。 headers：字典，定义请求的请求头，比如可以headers字典定义user agent。 cookies：字典或者CookieJar。 auth：元组，用来支持HTTP认证功能。 files：字典，用来向服务器传输文件。 timeout：指定超时时间。 proxies：字典，设置代理服务器。 allow_redirects：开关，是否允许对URL进行重定向，默认为True。 stream：开关，是否对获取内容进行立即下载，默认为False，也就是立即下载。这里需要说明的，stream一般应用于流式请求，比如说下载大文件，不可能一次请求就把整个文件都下载了，不现实，这种情况下，就要设置stream=True，requests无法将连接释放回连接池，除非下载完了所有数据，或者调用了response.close。 verify：开关，用于SSL证书认证，默认为True。 cert：用于设置保存本地SSL证书路径。

获取响应

当一个请求被发送后，会有一个response响应。requests同样为这个response赋予了相关方法：

response：响应对象。 response.status_code：请求返回状态码。 response.text：字符串形式的响应内容。 response.json()：返回响应的是json类型的数据，如果响应的类型不是json，则抛出ValueError。 response.content：二进制的响应内容。 response.iter_content(chunk_size)：生成器，在stream=True的情况下，当遍历生成器时，以块的形式返回，也就是一块一块的遍历要下载的内容。避免了遇到大文件一次性的将内容读取到内存中的弊端，如果stream=False，全部数据作为一个块返回。chunk_size参数指定块大小。 response.iter_lines()：生成器，当stream=True时，迭代响应数据，每次一行，也就是一行一行的遍历要下载的内容。同样避免了大文件一次性写入到内存中的问题。当然，该方法不安全。至于为啥不安全，咱也不知道，咱也不敢问，主要是官网上没说！经查，如果多次调用该方法，iter_lines不保证重新进入时的安全性，因此可能会导致部分收到的数据丢失。 response.cookies：响应中的cookie信息。 response.cookies.get_dict()：以字典的形式返回cookies信息。 response.cookies.items()：以列表的形式返回cookies信息。 response.headers：响应头字典。取其中的指定key，response.headers.get('Content-Type', '哎呀，没取到！') response.reqeust：请求类型。 response.url：请求的URL。 response.reason：响应HTTP状态的文本原因。 response.encoding：响应结果的编码方式。 response.encoding = “gbk”：修该响应编码方式，比如说响应结果的编码是utf-8，通过这么response.encoding = “gbk”指定为gbk。 response.apparent_encoding：根据响应字节流中去chardet库中匹配，返回编码方式，并不保证100%准确。 response.history：以列表的形式返回请求记录。列表内的请求以最老到最新排序。

获取7160网站的图片：获取当前页面的图片

''' http://www.7160.com/meishitupian/list_15_2.html pip install beautifulsoup4 # 需要先安装此模块 ''' # 0. 导包 import os import requests from bs4 import BeautifulSoup # 不同于其他模块，BeautifulSoup导入的时候不是直接import BeautifulSoup，直接导入会报错 # 在代码之前先定义全局常量 # os.path.abspath(__file__) 指当前文件的绝对路径 # os.path.dirname() 指父级目录的绝对路径 # os.path.dirname(os.path.abspath(__file__)) 指以当前文件的绝对路径找到父级目录的绝对路径 BASE_DIR = os.path.dirname(os.path.abspath(__file__)) # 1. 模拟浏览器发请求 response = requests.get(url='http://www.7160.com/meishitupian/list_15_2.html') # print(response.status_code) # 查看是否请求成功 # print(response.encoding) # 查看编码类型 response.encoding = 'gbk' # 获取的文件信息是乱码，需要转码，可以尝试多种，直到正常显示 # 2. 获取字符串形式的请求内容，方便后续代码中使用 text = response.text # 3. 使用bs4库解析请求，需要传入需要解析的文件，指定解析器 soup = BeautifulSoup(text, 'html.parser') # 需要解析的文件是text, 是文本类型的，所以使用html.parser:解析器，负责解析文本 # print(soup) # 结果同text相同，拿到解析结果去分析和操作数据 # 从整个文本中进一步缩小定位范围 # 查找name是div盒子，这个div中class的名字为news_bom-left的内容 # find方法中此类参数的固定写法 div_obj = soup.find(name='div', attrs={"class": "news_bom-left"}) # 4. 定位图片位置 li_list = div_obj.find_all(name="li") # 从这个盒子中找所有li标签 # 图片要一张一张去处理并保存，所以要循环， for li in li_list: # 5. 获取图片链接 img = li.find(name='img') # 查看这一条li中name是img的标签 src = img.get("src") # 从这个标签中获取图片的链接 # 6. 使用requests模块向图片链接发请求 res = requests.get(url=src) # 7. 保存图片到本地 # os.path.join 是拼接路径，BASE_DIR指当前文件的父级目录的绝对路径 # src.rsplit('/', 1)[-1] 是切割了图片地址，使用切割后的字符串作为要保存的文件的名字，也可以用其他的字段进行处理作为文件名 # 这一步实际就是给即将保存的文件安排一个路径，这个路径就是当前文件所处的父文件夹下的7160这个文件夹 # 注意：'7160'这个文件夹要先创建好，不然会报错 file_path = os.path.join(BASE_DIR, '7160', src.rsplit('/', 1)[-1]) with open(file_path, 'wb') as f: # 图片信息是二进制形式，所以要用wb写入 f.write(res.content) # 将请求图片获取到的二进制响应内容写入文件中 # break # 调试时候用，只获取第一条信息，调试结束，注释掉break,即可全部获取到文件使用requests和BeautifulSoup获取图片并保存到本地--一次性全部写入

使用此种方法有个弊端，如果文件过大，可能会导致下载到本地之后，导致本地存储空间不足，下载完毕之后会有部分文件丢失

如果是大文件或者多个文件，建议循环下载，如果存储空间不足，之前的文件不会缺失

# stream默认情况下是false，会立即开始下载文件并存放到内存当中 # 当把stream的参数设置成True时，它不会立即开始下载，当你使用iter_content遍历内容或访问内容属性时才开始下载 response = requests.get(url_file, stream=True) with open("file_path", "wb") as f: # iter_content：一块一块的遍历要下载的内容，chunk_size是每一块的字节数，结合使用可以防止占用过多的内存 # 循环下载文件，按照chunk_size设置的字节数，每次只下载这一大小的数据 for i in response.iter_content(chunk_size=512): f.write(i) 使用iter_content方法按字节大小循环下载

获取天极网的图片：保存图片时有多级文件夹

''' http://pic.yesky.com/c/6_3655_5.shtml 需求：将图片上的文件按页面的分类保存，一共两级文件夹，保存的格式如下 'tianji' # 一级文件夹 '赵薇图片' # 二级文件夹 '赵薇图片111' # 具体图片文件 '赵薇图片222' '赵薇图片333' '林心如图片' '李沁图片' ''' import os import requests from bs4 import BeautifulSoup BASE_DIR = os.path.dirname(os.path.abspath(__file__)) # 1、向指定连接发请求 response = requests.get(url='http://pic.yesky.com/c/6_3655_5.shtml') # 2、使用bs4解析requests请求的响应文本 soup = BeautifulSoup(response.text, 'html.parser') # 延伸可搜索lxml，学习python3解析库lxml div_obj = soup.find(name='div', attrs={"class": "lb_box"}) dd_list = div_obj.find_all(name='dd') for dd in dd_list: # 获取div中所有图片所在a标签的url a_url = dd.find(name='a').get('href') # 要先创建好'tianji'文件夹，再在此文件夹下创建N个二级文件夹用来存放图片 path = os.path.join(BASE_DIR, 'tianji', dd.find(name='a').text) if not os.path.isdir(path): # 如果不存在这个二级文件夹，则创建，不加这一步可能会报错 os.mkdir(path) # 向url发请求 a_response = requests.get(url=a_url) a_response.encoding = 'gbk' # 拿到url中的text文本 a_text = a_response.text son_soup = BeautifulSoup(a_text, 'html.parser') # lxml son_div_obj = son_soup.find(name='div', attrs={"id": "scroll"}) for img in son_div_obj.find_all(name='img'): # 获取图片链接，并发请求 son_src = img.get('src').replace('113x113', '740x-') # 使用大图的像素替换图片链接中的小图像素，达到获取大图的目的 son_response = requests.get(url=son_src) # 打开文件写入 img_path = os.path.join(path, son_src.rsplit("/", 1)[-1]) with open(img_path, 'wb') as f: f.write(son_response.content) break break 使用循环内部套循环获取二级页面的图片,并分两级文件夹保存

获取汽车之家图片：多页面多图片获取

顺序获取，不考虑时间，不考虑分页，只获取第一页

1、爬取汽车之家新闻页第一页

顺序获取前20页，将获取图片的代码封装成了函数，需要获取多少页只需简单修改参数就行

import os, time import requests # 模拟浏览器发请求 from bs4 import BeautifulSoup # 解析请求结果，也就是去请求结果中，取数据 url = "https://www.autohome.com.cn/all/" BASE_DIR = os.path.dirname(os.path.abspath(__file__)) def spider(num): # 1. 使用requests模块向指定地址发请求，获取请求结果 response = requests.get(url="https://www.autohome.com.cn/all/{}/#liststart".format(num)) # 2. 转码 response.encoding = "gbk" # 3. 使用bs4取数据，解析请求结果 soup = BeautifulSoup(response.text, "html.parser") div_obj = soup.find(name='div', attrs={"id": "auto-channel-lazyload-article"}) img_list = div_obj.find_all(name="img") for img in img_list: # 获取图片的url，因为源地址是不全的，我们要拼接 img_url = "https:" + img.get("src") # 使用requests模块向图片地址发请求，获取图片数据，bytes img_response = requests.get(url=img_url) # 制作保存图片的路径 file_path = os.path.join(BASE_DIR, '222', img_url.rsplit('/', 1)[-1]) # 将bytes类型的数据保存到本地 with open(file_path, 'wb') as f: f.write(img_response.content) print('{} 爬取完毕'.format(img_url)) # 下载时在控制台输入信息提示 if __name__ == '__main__': start = time.time() # 开始执行时当前时间的时间戳 for num in range(1, 20): # 循环获取1-20页的图片 spider(num) # 获取当前页的图片信息 print(time.time() - start) # 结束时的时间戳-开始时间的时间戳,计算差即用时时长顺序获取汽车之家新闻页前20页--封装成了函数

通过线程池获取，无顺序，但是提高了效率，缩短了获取时间

# 1、导包 from concurrent.futures import ThreadPoolExecutor # 线程池 # 2、在代码中需要使用的位置上方加这一行 # 表示线程开始，将需要使用线程池的代码放进来 t = ThreadPoolExecutor(max_workers=10) # max_workers表示线程数 # 3、在代码中结束的位置下方加这一行 # 当代码执行完，结束线程，不再往进加任务 t.shutdown()

import os, time import requests # 模拟浏览器发请求 from bs4 import BeautifulSoup # 解析请求结果，也就是去请求结果中，取数据 from concurrent.futures import ThreadPoolExecutor # 线程池 BASE_DIR = os.path.dirname(os.path.abspath(__file__)) def spider(num): # 1. 使用requests模块向指定地址发请求 # response = requests.request(method='get', url=url) page_url = "https://www.autohome.com.cn/all/{}/#liststart".format(num) response = requests.get(url=page_url) # 2. 获取请求结果 # print(response.encoding) # ISO-8859-1 response.encoding = "gbk" # print(response.text) # 3. 使用bs4取数据，解析请求结果 soup = BeautifulSoup(response.text, "html.parser") div_obj = soup.find(name='div', attrs={"id": "auto-channel-lazyload-article"}) img_list = div_obj.find_all(name="img") for img in img_list: # 获取图片的url，因为源地址是不全的，我们要拼接 img_url = "https:" + img.get("src") # 使用requests模块向图片地址发请求，获取图片数据，bytes img_response = requests.get(url=img_url) # 制作保存图片的路径 file_path = os.path.join(BASE_DIR, '222', img_url.rsplit('/', 1)[-1]) # 将bytes类型的数据保存到本地 with open(file_path, 'wb') as f: f.write(img_response.content) print('正在爬取{} 页中的{}图片爬取完毕'.format(page_url, img_url)) if __name__ == '__main__': start = time.time() t = ThreadPoolExecutor(max_workers=10) # 10个线程，每次10个线程去获取数据，可提高效率 for num in range(1, 20): t.submit(spider, num) t.shutdown() # 线程结束。当循环结束，结束线程，不再往进加任务 print(time.time() - start) 线程池获取汽车之家新闻页前20页图片--提高效率线程池获取汽车之家新闻页前20页图片--提高效率

结束。

【本文地址】

公司简介

联系我们