python爬取数据+数据分析 | 您所在的位置:网站首页 › python数据分析的具体内容 › python爬取数据+数据分析 |
推荐用Jupyter
爬取某车网站的部分数据
# 爬取二手车某网站的数据
#Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
from bs4 import BeautifulSoup
# 用于网络请求
import urllib.request
#操作csv文件
import csv
#指定编码
import codecs
#添加newline可以避免一行之后的空格,这样需要在python3环境下运行
csvfile= open(r'D:\360MoveData\Users\lenovo\Desktop\爬取演示.csv', 'w' , newline='',encoding='gb18030')
#指定逗号作为分隔符,并且指定quote方式为引用。这意味着读的时候都认为内容是被默认引用符(")包围的
writer=csv.writer(csvfile,delimiter=',',quoting = csv.QUOTE_ALL)
keys=['车型','信息','价格']
writer.writerow(keys)
for page in range(2,100):
# 目标网址
url = '因为官方版权问题,此处url不可显示,可以在评论区私聊我'
# 发送请求
# urllib.request 是一个用于获取 URL (统一资源定位地址)的 Python 模块
f=urllib.request.urlopen(url)
resp=f.read()
# print(resp) # 203
# 网页源代码 (文本显示)
# print(resp.text)
# 用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html = BeautifulSoup(resp, 'html.parser',from_encoding='gbk')
#解析返回的数据
lis=html.findAll(class_='cards-bottom')
for li in lis:
carType=li.h4.text
carInfo=li.p.text
carPrice=li.s.text
print(carType)
print(carInfo)
print(carPrice)
oneCar=[carType,carInfo,carPrice]
writer.writerow(oneCar)
csvfile.close()
爬取出来的csv文件用excel打开就是这样的 进行数据分析 准备工作 #as 别名 import numpy as np #处理csv的文件 import pandas as pd #数据分析,画图的库 import matplotlib.pyplot as plt #可视化工具 import seaborn as sns #解决中文问题 matplotlib.pypolt不支持中文 plt.rcParams['font.sans-serif']=['SimHei'] #解决负号显示 plt.rcParams['axes.unicode_minus']=False #%matplotlb inline #plt.show 直接显示生产的图表 在这个文档写的代码就不用加了 import pandas as pd #原始数据 #加r和不加''r是有区别的 \t 相当于按了tab键 #'r'是防止字符转义的 如果路径中出现'\t'的话 不加r的话\t就会被转义 而加了'r'之后'\t'就能保留原有的样子 #另外;字符串赋值的时候 前面加'r'可以防止字符串在使用的时候不被转义 原理是在转义字符前加'\' #UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte pd.set_option('display.max_rows',None) data=pd.read_csv(r'D:\360MoveData\Users\lenovo\Desktop\爬取演示.csv',encoding='gb18030') data
别问我参数,我也不知道,,,也许有人会问 饼图绘制,需要把前十数据获取,手动放到下列数组,再运行 不是我不想把那列分开,直接获取数组第一列,组成top10数组,我不会,百度查看发现serial类型数据是没有列索引的,如果有小伙伴有方法可以补充在评论区。 |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |