机器翻译 深度学习预处理实战(中英文互译)一 | 您所在的位置:网站首页 › 机械专业英语文章中英文互译 › 机器翻译 深度学习预处理实战(中英文互译)一 |
深度学习预处理实战(中英文互译)
文章目录
深度学习预处理实战(中英文互译)前言一、获取中英互译的数据集二、具体步骤1.首先引入相关库2.中英文预处理3.主函数运行
前言
基于深度学习的机器翻译学习分为三步: (1)解决自动将一种自然语言文本(源语言)翻译为另一种自然语言文本(目标语言)的问题。 (2)准备人工翻译的数据集,将其分成训练集和测试集。使用训练集的数据来训练深度神经网络。 (3)使用测试集的数据来评估模型表现。 深度学习机器翻译其实是用神经网络去学习人工翻译的数据集,使数学世界的神经网络成为取代真实世界中人工翻译的可计算模型。 一、获取中英互译的数据集要进行深度学习的预训练和后续的训练,需要寻找一个合适的数据集。本数据集来自Manythings.org一家公益英语学习网站。这里我们可以看一下数据集的结构: 这里分步为讲解来大家容易理解,文章结尾附上完整代码,大家可以直接运行 1.首先引入相关库代码如下(示例):库的下载直接pip即可,这里我不多赘述,由于是预处理,大家可以直接在cpu上运行不需要GPU import tensorflow as tf from sklearn.model_selection import train_test_split import re import io import jieba jieba.initialize() # 手动初始化jieba资源,提高分词效率。 jieba.enable_paddle() # 启动paddle模式。 0.40版之后开始支持,早期版本不支持 2.中英文预处理代码如下(示例): 这里判断是否为中文或者英文,再对中英文预处理为我们需要的格式,将中文按照字处理。 判断是否包含中文 #判断是否包含中文 def is_chinese(string): """ 检查整个字符串是否包含中文 :param string: 需要检查的字符串 :return: bool """ for ch in string: if u'\u4e00' |
CopyRight 2018-2019 实验室设备网 版权所有 |