BERT如何解决一词多义问题 您所在的位置:网站首页 bifocal是什么意思 BERT如何解决一词多义问题

BERT如何解决一词多义问题

2024-03-21 06:54| 来源: 网络整理| 查看: 265

知乎上有一个这样的问题:

Bert 在pretrain的时候 每个字的输出都是经过一个分类层后去预测自己 由于分类层中的权重是固定的 所以不管输入和中间的encoding有多么的复杂 每个字最后的输出在训练过程一定是长得越来越像自己在分类层中对应的那个权重 否则loss下不去

既然这样 在不同句子里相同字的输出应该区趋于相同才对 那又如何区别一字多义呢

问题参见:https://www.zhihu.com/question/332286187

我觉得这是一个很好的问题,需要想的很细才会考虑到「他们的最后的字表示应该都长的很像苹字在分类层里的权重 那样softmax后才能有很高的概率」

简单凝练一下,楼主要问的问题就是:明明分类层是确定的,为什么BERT还是能区分一词多义?

首先,我们先分析后半句,BERT如何区分一词多义

BERT是如何区分一词多义的

BERT 的核心是 Self-Attention,而 Self-Attention 的核心是用文本中的其它词来增强目标词的语义表示。

在这里插入图片描述

对于一个句子,每经过一层 Self-Attention,每个词的 embedding 都会是这句话中所有词 embedding 的加权平均,也就会融合这句话中所有词的信息。

因此,对于同一个词,不同的上下文会让这个词融合不同的语义信息,使得同一个词在不同的上下文中有不同的embedding,去表征不同的语义&



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有