用Excel/Power Query能爬取网页表格数据 方法一 您所在的位置:网站首页 excel获取网页查询数据的方法 用Excel/Power Query能爬取网页表格数据 方法一

用Excel/Power Query能爬取网页表格数据 方法一

2023-08-06 05:28| 来源: 网络整理| 查看: 265

选中刚复制的内容,点击 数据 -> 来自表格/区域,将数据导入到 Power Query 中,如下图 在这里插入图片描述 在这里插入图片描述

删除 tbody该列,该列没有我们要分析的数据。 在这里插入图片描述 在这里插入图片描述

在剩余列中,数据按照一定的规律进行排布。通过分析发现,在 1行, 8行, 15行等等不包含我们要的数据,通过 删除行中的 删除间隔行可以进行删除。首先设置 开始行为1, 删除行数为1, 保留行数为6。这样就可以将没用的 ****行全部去除。在这里插入图片描述

现在每行数据中都包含了一些html源码中的 标签代码,通过 替换值功能,将不需要的 标签代码替换为空。这里将 ** ** ** ** ****替换为空。在这里插入图片描述

经过上述替换后,大部分行只保留了我们想要的数据内容,但是 行4以及类似的行中还包含有 链接标签。由于链接地址不同,因此不能用简单的替换值功能。这时候我们需要将类似行进行拆分,将链接标签和数据拆分出来。进过对源数据行分析,发现可以按照 **>**字符对涉及到的行进行 按照分隔符拆分。在这里插入图片描述在这里插入图片描述

经过上一步的拆分后,有链接标签的行已经被拆分为链接和数据,但是其他的行也被拆分了,导致我们需要的数据不在同一列上。这时需要进行合并列的操作,但是需要判断我们合并的列为数据。经分析发现特殊的行为有链接标签的行,通过添加 条件列功能增加一个辅助列,按照判断是否含有链接标签标志



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有