zhwiki:中文维基百科数据获取与处理,抽取文本,opencc繁简转化,词向量训练 | 您所在的位置:网站首页 › 百度百科数据集 › zhwiki:中文维基百科数据获取与处理,抽取文本,opencc繁简转化,词向量训练 |
数据获取
中文wiki语料下载地址:https://dumps.wikimedia.org/zhwiki/,可以选择最近的,也可以选择日期 因为某些原因可能有时下载很慢,这里提供一个网盘资源, 提取码: s9wm 抽取文本下载完安装包之后,不需要解压,使用 gensim 抽取正文文本,如果没有gensim,pip install gensim 即可 # 命令行下运行如下命令,wikipro.py代码如下: # python wikipro.py zhwiki-20190320-pages-articles-multistream.xml.bz2 wiki.zh.txt # wikipro.py代码如下: import logging import sys from gensim.corpora import WikiCorpus logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s', level=logging.INFO) ''' extract data from wiki dumps(*articles.xml.bz2) by gensim. @2019-3-26 ''' def help(): print("Usage: python wikipro.py zhwiki-20190320-pages-articles-multistream.xml.bz2 wiki.zh.txt") if __name__ == '__main__': if len(sys.argv) < 3: help() sys.exit(1) logging.info("running %s" % ' '.join(sys.argv)) inp, outp = sys.argv[1:3] i = 0 output = open(outp, 'w',encoding='utf8') wiki = WikiCorpus(inp, lemmatize=False, dictionary={}) for text in wiki.get_texts(): output.write(" ".join(text) + "\n") i = i + 1 if (i % 10000 == 0): logging.info("Save "+str(i) + " articles") output.close() logging.info("Finished saved "+str(i) + "articles") # 命令行下运行 # python wikipro.py zhwiki-20190320-pages-articles-multistream.xml.bz2 wiki.zh.txt使用opencc进行繁简转化,https://bintray.com/package/files/byvoid/opencc/OpenCC,根据版本不同选择不同的文件,我这里选择win64,下载然后解压, cmd打开命令行,进入到这个文件夹 转为简体之后示例: 命令行下运行:python jieba_cut.py 命令行执行如下代码 python train_word2vec_model.py wiki.zh.simple.seg.txt wiki.zh.text.model wiki.zh.text.vector测试: from gensim.models import Word2Vec zh_wiki_word2vec_model = Word2Vec.load('wiki.zh.text.model') testwords = ['孩子', '数学', '学术', '白痴', '篮球'] for i in range(5): res = zh_wiki_word2vec_model.most_similar(testwords[i]) print(testwords[i]) print(res) |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |