机器翻译深度学习预处理实战（中英文互译）一

2024-06-29 00:57| 来源: 网络整理| 查看: 265

深度学习预处理实战（中英文互译）

文章目录深度学习预处理实战（中英文互译）前言一、获取中英互译的数据集二、具体步骤1.首先引入相关库2.中英文预处理3.主函数运行

前言

基于深度学习的机器翻译学习分为三步：（1）解决自动将一种自然语言文本（源语言）翻译为另一种自然语言文本（目标语言）的问题。（2）准备人工翻译的数据集，将其分成训练集和测试集。使用训练集的数据来训练深度神经网络。（3）使用测试集的数据来评估模型表现。深度学习机器翻译其实是用神经网络去学习人工翻译的数据集，使数学世界的神经网络成为取代真实世界中人工翻译的可计算模型。

一、获取中英互译的数据集

要进行深度学习的预训练和后续的训练，需要寻找一个合适的数据集。本数据集来自Manythings.org一家公益英语学习网站。这里我们可以看一下数据集的结构：在这里插入图片描述资源一直传不上去，给大家分享一个百度网盘链接提取链接：https://pan.baidu.com/s/1crPPSXtzaY1efyBLWprm-g?pwd=17eh 提取码：17eh

二、具体步骤

这里分步为讲解来大家容易理解，文章结尾附上完整代码，大家可以直接运行

1.首先引入相关库

代码如下（示例）：库的下载直接pip即可，这里我不多赘述，由于是预处理，大家可以直接在cpu上运行不需要GPU

import tensorflow as tf from sklearn.model_selection import train_test_split import re import io import jieba jieba.initialize() # 手动初始化jieba资源，提高分词效率。 jieba.enable_paddle() # 启动paddle模式。 0.40版之后开始支持，早期版本不支持 2.中英文预处理

代码如下（示例）：这里判断是否为中文或者英文，再对中英文预处理为我们需要的格式，将中文按照字处理。

判断是否包含中文

#判断是否包含中文 def is_chinese(string): """ 检查整个字符串是否包含中文 :param string: 需要检查的字符串 :return: bool """ for ch in string: if u'\u4e00'

【本文地址】

公司简介

联系我们

机器翻译 深度学习预处理实战（中英文互译）一

机器翻译深度学习预处理实战（中英文互译）一