爬取3w条『各种品牌』笔记本电脑数据，统计分析并进行可视化展示！真好看~...

2023-08-26 21:27| 来源: 网络整理| 查看: 265

本文代码讲解已录成视频，欢迎扫码学习！

本文手撕代码过程

前言

在上一篇文章【教你用python爬取『京东』商品数据，原来这么简单！】教大家如何学会爬取『京东』商城商品数据。

今天教大家如何爬取『京东』平台里面『各种品牌』笔记本电脑数据约30000条进行统计分析，最后进行可视化展示（各种可视化图表真好看！！）

本文干货内容：

爬取京东商品所有笔记本电脑数据

数据存储到excel

pandas对excel数据进行统计分析

绘制各种可视化图表

爬取数据

1.链接分析

之前介绍了爬取其中的一种商品，这里需要爬取『各种品牌』，对应的链接也不一样，需要进行分析。

可以分析链接中，ev参数对应着品牌的名称，因此只需要更改ev参数就可以爬取不同品牌的笔记本数据。

避坑：

注意不要遗漏后面的括号：联想（lenovo），少了后面括号有一些品牌的数据无法爬取（亲测证明）。

此外不同品牌的笔记本商品数据总量（总页数）不一样，因此同样需要对应进行汇总，这里定义了字典去存储1.品牌名称和2.总页数。

brand_dict={ '联想（lenovo）':100, 'ThinkPad':100, '戴尔（DELL）':100, '惠普（HP）':100, '华为（HUAWEI）':100, 'Apple':100, '小米（MI）':47, '宏碁（acer）':43, '荣耀（HONOR）':21, '机械革命（MECHREVO）':31, '微软（Microsoft）':100, 'LG':3, '神舟（HASEE）':34, 'VAIO':3, '三星（SAMSUNG）':47, } 2.获取不同品牌笔记本数据 #李运辰公众号：python爬虫数据分析挖掘 #遍历每一页 def getpage(brand_dict): global count for k, v in brand_dict.items(): page = 1 s = 1 brand = str(k) try: for i in range(1, int(v) + 1): url = "https://search.jd.com/search?keyword=笔记本&wq=笔记本&ev=exbrand_" + str(brand) + "&page=" + str( page) + "&s=" + str(s) + "&click=1" getlist(url, brand) page = page + 2 s = s + 60 print("品牌=" + str(k) + ",页数=" + str(v) + ",当前页数=" + str(i)) except: pass

这里加入了try-except，防止其中某一页爬取失败，造成程序终止！

3.遍历每一页数据 #李运辰公众号：python爬虫数据分析挖掘 ###获取每一页的商品数据 def getlist(url,brand): global count #url="https://search.jd.com/search?keyword=笔记本&wq=笔记本&ev=exbrand_联想%5E&page=9&s=241&click=1" res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text selector = etree.HTML(text) list = selector.xpath('//*[@id="J_goodsList"]/ul/li') for i in list: title=i.xpath('.//div[@class="p-name p-name-type-2"]/a/em/text()')[0] price = i.xpath('.//div[@class="p-price"]/strong/i/text()')[0]

这里只获取商品标题和商品价格

4.数据存储到excel

定义excel表头

#李运辰公众号：python爬虫数据分析挖掘 import openpyxl outwb = openpyxl.Workbook() outws = outwb.create_sheet(index=0) outws.cell(row=1, column=1, value="index") outws.cell(row=1, column=2, value="brand") outws.cell(row=1, column=3, value="title") outws.cell(row=1, column=4, value="price") count = 2

写数据并保存成笔记本电脑-李运辰.xls

outws.cell(row=count, column=1, value=str(count-1)) outws.cell(row=count, column=2, value=str(brand)) outws.cell(row=count, column=3, value=str(title)) outws.cell(row=count, column=4, value=str(price)) outwb.save("笔记本电脑-李运辰.xls") # 保存

这样我们的数据就已经爬取完成。

下面开始对这些数据进行统计分析，最后绘制可视化图。

可视化分析

1.展示每个品牌的数据量 pandas读取excel #李运辰公众号：python爬虫数据分析挖掘 #读入数据 df_all = pd.read_csv("笔记本电脑-李运辰.csv",engine="python") df = df_all.copy() # 重置索引 df = df.reset_index(drop=True)

统计分析 #李运辰公众号：python爬虫数据分析挖掘 brand_counts = df.groupby('brand')['price'].count().sort_values(ascending=False).reset_index() brand_counts.columns = ['品牌', '数据量'] name = (brand_counts['品牌']).tolist() dict_values = (brand_counts['数据量']).tolist() 可视化展示 #李运辰公众号：python爬虫数据分析挖掘 #链式调用 c = ( Bar( init_opts=opts.InitOpts( # 初始配置项 theme=ThemeType.MACARONS, animation_opts=opts.AnimationOpts( animation_delay=1000, animation_easing="cubicOut" # 初始动画延迟和缓动效果 )) ) .add_xaxis(xaxis_data=name) # x轴 .add_yaxis(series_name="展示每个品牌的数据量", yaxis_data=dict_values) # y轴 .set_global_opts( title_opts=opts.TitleOpts(title='', subtitle='', # 标题配置和调整位置 title_textstyle_opts=opts.TextStyleOpts( font_family='SimHei', font_size=25, font_weight='bold', color='red', ), pos_left="90%", pos_top="10", ), xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)), # 设置x名称和Label rotate解决标签名字过长使用 yaxis_opts=opts.AxisOpts(name='数据量'), ) .render("展示每个品牌的数据量.html") )

2.最高价格对比统计分析 #李运辰公众号：python爬虫数据分析挖掘 brand_maxprice = df.groupby('brand')['price'].agg(['max'])['max'].sort_values(ascending=False).reset_index() brand_maxprice.columns = ['品牌', '最高价'] name = (brand_maxprice['品牌']).tolist() dict_values = (brand_maxprice['最高价']).tolist() 可视化展示 #李运辰公众号：python爬虫数据分析挖掘 ##去掉英文名称 for i in range(0, len(name)): if "（" in name[i]: name[i] = name[i][0:int(name[i].index("（"))] # 链式调用 c = ( Bar( init_opts=opts.InitOpts( # 初始配置项 theme=ThemeType.MACARONS, animation_opts=opts.AnimationOpts( animation_delay=1000, animation_easing="cubicOut" # 初始动画延迟和缓动效果 )) ) .add_xaxis(xaxis_data=name) # x轴 .add_yaxis(series_name="最高价格对比", yaxis_data=dict_values) # y轴 .set_global_opts( title_opts=opts.TitleOpts(title='', subtitle='', # 标题配置和调整位置 title_textstyle_opts=opts.TextStyleOpts( font_family='SimHei', font_size=25, font_weight='bold', color='red', ), pos_left="90%", pos_top="10", ), xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)), # 设置x名称和Label rotate解决标签名字过长使用 yaxis_opts=opts.AxisOpts(name='最高价'), ) .render("最高价格对比.html") )

3.价格均值统计分析 #李运辰公众号：python爬虫数据分析挖掘 brand_meanprice = df.groupby('brand')['price'].agg(['mean'])['mean'].sort_values(ascending=False).reset_index() brand_meanprice.columns = ['品牌', '价格均值'] name = (brand_meanprice['品牌']).tolist() dict_values = (brand_meanprice['价格均值']).tolist() ##去掉英文名称 for i in range(0, len(name)): if "（" in name[i]: name[i] = name[i][0:int(name[i].index("（"))] #价格转为整数 for i in range(0, len(dict_values)): dict_values[i] = int(dict_values[i]) 可视化展示 #李运辰公众号：python爬虫数据分析挖掘 # 链式调用 c = ( Bar( init_opts=opts.InitOpts( # 初始配置项 theme=ThemeType.MACARONS, animation_opts=opts.AnimationOpts( animation_delay=1000, animation_easing="cubicOut" # 初始动画延迟和缓动效果 )) ) .add_xaxis(xaxis_data=name) # x轴 .add_yaxis(series_name="价格均值对比", yaxis_data=dict_values) # y轴 .set_global_opts( title_opts=opts.TitleOpts(title='', subtitle='', # 标题配置和调整位置 title_textstyle_opts=opts.TextStyleOpts( font_family='SimHei', font_size=25, font_weight='bold', color='red', ), pos_left="90%", pos_top="10", ), xaxis_opts=opts.AxisOpts(name='品牌', axislabel_opts=opts.LabelOpts(rotate=45)), # 设置x名称和Label rotate解决标签名字过长使用 yaxis_opts=opts.AxisOpts(name='价格均值'), ) .render("价格均值对比.html") )

4.各大品牌标题词云提取文本 #李运辰公众号：python爬虫数据分析挖掘 brand_title = df.groupby('brand')['title'] brand_title = list(brand_title) for z in range(0,len(brand_title)): brandname = brand_title[z][0] if "（" in brandname: brandname = brandname[0:int(brandname.index("（"))] brandname = str(brandname).encode("utf-8").decode('utf8') print(brandname) text = "".join((brand_title[z][1]).tolist()) text = text.replace(brand_title[z][0],"").replace(brandname,"").replace("\n\r","").replace("\t","").replace("\n","").replace("\r","").replace("【","").replace("】","").replace(" ","") #print(text) with open("text/"+str(brandname)+".txt","a+") as f: f.write(text)

这里将不同品牌的标题文本写入到txt

可视化展示 #李运辰公众号：python爬虫数据分析挖掘 def an4_pic(): ###词云图标 fa_list = ['fas fa-play', 'fas fa-audio-description', 'fas fa-circle', 'fas fa-eject', 'fas fa-stop', 'fas fa-video', 'fas fa-volume-off', 'fas fa-truck', 'fas fa-apple-alt', 'fas fa-mountain', 'fas fa-tree', 'fas fa-database', 'fas fa-wifi', 'fas fa-mobile', 'fas fa-plug'] z=0 ##开始绘图 for filename in os.listdir("text"): print(filename) with open("text/"+filename,"r") as f: text = (f.readlines())[0] with open("stopword.txt", "r", encoding='UTF-8') as f: stopword = f.readlines() for i in stopword: print(i) i = str(i).replace("\r\n", "").replace("\r", "").replace("\n", "") text = text.replace(i, "") word_list = jieba.cut(text) result = " ".join(word_list) # 分词用隔开 # 制作中文云词 icon_name = str(fa_list[z]) gen_stylecloud(text=result, icon_name=icon_name, font_path='simsun.ttc',output_name=str(filename.replace(".txt",""))+"词云图.png") # 必须加中文字体，否则格式错误 z =z+1