维基百科数据xml格式转换为json格式 | 您所在的位置:网站首页 › xml百科 › 维基百科数据xml格式转换为json格式 |
本文是在你已经安装了Python的前提下进行的 1、数据下载 在网站https://dumps.wikimedia.org/zhwiki/latest/中对自己所需要的数据进行下载,我下载的是zhwiki-latest-pages-articles.xml.bz2 这里简单了解一下这几个文件(在网上都能找到的) 2、转换为json 为什么要转换为json呢? json在xml的基础上,去掉了标签,节省了大量的存储空间,格式比较简单, 易于读写, 格式都是压缩的, 占用带宽小。这对我们把数据读入数据库很有帮助。 (1)首先需要用 Gensim 这个工具包进行数据预处理。 进入cmd窗口第一步先更新一下pip。命令: python -m pip install --upgrade pip |
CopyRight 2018-2019 实验室设备网 版权所有 |