两个句子之间语义相似度项目 | 您所在的位置:网站首页 › 相关性的英语句子 › 两个句子之间语义相似度项目 |
自然语言处理项目文档—内容相似度分析 1.项目内容: 本次项目提供一系列的英文句子对,每个句子对的两个句子,在语义上具有一定的相似性;每个句子对,获得一个在0-5之间的分值来衡量两个句子的语义相似性,打分越高说明两者的语义越相近。 项目提供数据为txt文件,字段之间以tab分割。
训练数据文件,共有1000个数据样本,共有4个字段;第一个字段为样本编号,第二个字段为一个句子,第三个字段为另一个句子,第四个字段为两个句子的语义相似度打分,如下: 10001 two bigbrown dogs running through the snow. A brown dog runningthrough the grass. 2.00000 10002 Awoman is peeling a potato. A woman is slicing a tomato. 1.33300 测试数据文件,共有500个数据样本,字段与训练集类似。
参考论文: [1]:ECNU atSemEval-2017 Task 1: Leverage Kernel-based Traditional NLP features and NeuralNetworks to Build a Universal Model for Multilingual and Cross-lingual SemanticTextual Similarity[J] [2]:Task-IndependentFeatures for Automated Essay Grading[J] [3]:STS-UHHatSemEval-2017Task1: Scoring Semantic TextualSimilarity Using Supervised and Unsupervised Ensemble 2.预处理: 预处理包括两个部分,一个是句子长度的统计,一个是词频统计。这两种统计都是用了nltk库进行了去除stop word和Lemmatizer 处理。统计结束后将训练集分成了800个训练样本和200个验证样本
处理后的句子对,如10001样本: two big browndogs running through the snow. A brown dog running through the grass 处理后为: two big brown dog run snow brown dog run grass
训练集长度区间和词云 测试集长度区间和词云 |
CopyRight 2018-2019 实验室设备网 版权所有 |