python 爬虫股票爬虫选股

2024-07-01 16:32| 来源: 网络整理| 查看: 265

股票数据定向爬虫实例目的：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中技术路线：requests-bs4-re

候选数据网站的选择选取原则：股票信息静态存于HTML页面中,非js代码生成,没有Robots协议限制选取方法：浏览器F12,源代码查看

数据网站的确定

获取股票列表

东方财富网：

python 爬虫股票爬虫选股_百度

获取个股信息百度股票：http://gupiao.baidu.com/stock/单个股票：http://gupiao.baidu.com/stock/sz002439.html

查看百度股票每只股票的网址：https://gupiao.baidu.com/stock/sz300023.html可以发现网址中有一个编号300023正好是这只股票的编号，sz表示的深圳交易所。因此我们构造的程序结构如下：步骤1：从东方财富网获取股票列表；步骤2：逐一获取股票代码，并增加到百度股票的链接中，最后对这些链接进行逐个的访问获得股票的信息；步骤3：将结果存储到文件。

查看百度个股信息网页的源代码,每只股票的信息在html代码中的存储方式如下

python 爬虫股票爬虫选股_html_02

每一个信息源对应一个信息值，即采用键值对的方式进行存储在python中键值对的方式可以用字典类型因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中

代码

1 import requests 2 from bs4 import BeautifulSoup 3 import traceback 4 import re 5 import bs4 6 7 def getHTMLText(url,code='utf-8'): #使用code提高解析效率 8 try: 9 r = requests.get(url) 10 r.raise_for_status() 11 r.encoding = code 12 return r.text 13 except: 14 return '爬取失败' 15 16 def getStockList(lst,stockURL): 17 html = getHTMLText(stockURL,'GB2312') 18 soup = BeautifulSoup(html,'html.parser') 19 a = soup.find_all('a') 20 for i in a : 21 try: 22 href = i.attrs['href'] 23 #以s开头，中间是h或z，后面再接六位数字 24 lst.append(re.findall(r'[s][hz]\d{6}',href)[0]) 25 except: 26 continue 27 28 def getStockInfo(lst,stockURL,fpath): 29 count = 0 30 for stock in lst: 31 url = stockURL + stock +'.html' 32 html = getHTMLText(url) 33 try: 34 if html == "": 35 continue 36 infoDict = {} 37 soup = BeautifulSoup(html,'html.parser') 38 stockInfo = soup.find('div',attrs={'class':'stock-bets'} 39 if isinstance(stockInfo,bs4.element.Tag)： 40 name = stockInfo.find_all(attrs={'class':'bets-name'})[0] 41 infoDict.update({'股票名称':name.text.split()[0]}) 42 keyList = stockInfo.find_all('dt') 43 valueList = stockInfo.find_all('dd') 44 for i in range(len(keyList)): 45 key = keyList[i].text 46 val = valueList[i].text 47 infoDict[key] = val 48 with open(fpath,'a',encoding='utf-8') as f: 49 f.write(str(infoDict) + '\n') 50 count += 1 51 print('\r当前速度:{:.2f}%'.format(count*100/len(lst)),end='') 52 #打印爬取进度 53 except: 54 print('\r当前速度:{:.2f}%'.format(count*100/len(lst)),end='') 55 traceback.print_exc() 56 continue 57 58 def main(): 59 stock_list_url = 'http://quote.eastmoney.com/stocklist.html' 60 stock_info_url = 'http://gupiao.baidu.com/stock/' 61 output_file = 'C:/Users/Administrator/Desktop/Python网络爬虫与信息提取/BaiduStockInfo.txt' 62 slist = [] 63 getStockList(slist,stock_list_url) 64 getStockInfo(slist,stock_info_url,output_file) 65 66 main()

运行结果

python 爬虫股票爬虫选股_键值对_03

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章

python 爬虫 股票 爬虫选股

python 爬虫股票爬虫选股