机器翻译 深度学习预处理实战(中英文互译)一 您所在的位置:网站首页 机械专业英语文章中英文互译 机器翻译 深度学习预处理实战(中英文互译)一

机器翻译 深度学习预处理实战(中英文互译)一

2024-06-29 00:57| 来源: 网络整理| 查看: 265

深度学习预处理实战(中英文互译)

文章目录 深度学习预处理实战(中英文互译)前言一、获取中英互译的数据集二、具体步骤1.首先引入相关库2.中英文预处理3.主函数运行

前言

基于深度学习的机器翻译学习分为三步: (1)解决自动将一种自然语言文本(源语言)翻译为另一种自然语言文本(目标语言)的问题。 (2)准备人工翻译的数据集,将其分成训练集和测试集。使用训练集的数据来训练深度神经网络。 (3)使用测试集的数据来评估模型表现。 深度学习机器翻译其实是用神经网络去学习人工翻译的数据集,使数学世界的神经网络成为取代真实世界中人工翻译的可计算模型。

一、获取中英互译的数据集

要进行深度学习的预训练和后续的训练,需要寻找一个合适的数据集。本数据集来自Manythings.org一家公益英语学习网站。这里我们可以看一下数据集的结构: 在这里插入图片描述 资源一直传不上去,给大家分享一个百度网盘链接提取链接:https://pan.baidu.com/s/1crPPSXtzaY1efyBLWprm-g?pwd=17eh 提取码:17eh

二、具体步骤

这里分步为讲解来大家容易理解,文章结尾附上完整代码,大家可以直接运行

1.首先引入相关库

代码如下(示例):库的下载直接pip即可,这里我不多赘述,由于是预处理,大家可以直接在cpu上运行不需要GPU

import tensorflow as tf from sklearn.model_selection import train_test_split import re import io import jieba jieba.initialize() # 手动初始化jieba资源,提高分词效率。 jieba.enable_paddle() # 启动paddle模式。 0.40版之后开始支持,早期版本不支持 2.中英文预处理

代码如下(示例): 这里判断是否为中文或者英文,再对中英文预处理为我们需要的格式,将中文按照字处理。

判断是否包含中文

#判断是否包含中文 def is_chinese(string): """ 检查整个字符串是否包含中文 :param string: 需要检查的字符串 :return: bool """ for ch in string: if u'\u4e00'


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有