中国大学哪家强?Python爬取排名榜,太棒啦(31) | 您所在的位置:网站首页 › python爬妹子 › 中国大学哪家强?Python爬取排名榜,太棒啦(31) |
原标题:中国大学哪家强?Python爬取排名榜,太棒啦(31) 小朋友们好,大朋友们好! 我是猫妹,一名爱上Python编程的小学生。 欢迎和猫妹一起,趣味学Python。 今日主题 如何用Python,抓取并分析2023中国大学排名数据。 用到的Python库有requests、bs4。 requests库 requests库是Python基于urllib,采用Apache2 Licensed开源协议的HTTP库。 它比urllib更加方便,完全满足HTTP测试需求。 Requests的哲学是以PEP20的习语为中心开发的,它比urllib更加Pythoner。 可以通过pip install requests 安装 requests库。 举个简单的例子: 我们日常看到的网页是这样的 我们看到的是部分信息,还有许多信息看不到的,比如排版、交互等。 如果要看更多信息,要在哪里看呢? 当然是网页源代码啦! 展开全文网页源代码长这样,这里面是前端信息,主要是html标签等。 看到网页源代码后,第一印象是啥? 很多,很复杂,很难手写。 有很多设计工具可以辅助生成网页源代码的。 要解析网页源代码,可以用Python,比如借助于bs4库。 bs4库 bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签。 可以通过pip install beautifulsoup4安装bs4 库。 说得简单点,bs库就是分析上述字符串,把自己感兴趣的信息提取出来。 将网页源代码解析后的信息是这样的: 测试代码 对中国大学排名,感兴趣的小伙伴,可以直接网站上浏览哈 好了,我们今天就学到这里吧! 如果遇到什么问题,咱们多多交流,共同解决。 我是猫妹,咱们下次见!返回搜狐,查看更多 责任编辑: |
CopyRight 2018-2019 实验室设备网 版权所有 |