深度学习

2024-07-11 13:07| 来源: 网络整理| 查看: 265

小编看了大量的文档，觉得一下文章写得最好

词向量发展篇： https://blog.csdn.net/m0_37565948/article/details/84989565 内容：共现矩阵-SVD-NNLM-Word2Vec-Glove-ELMo

由One-hot编码到BERT词向量发展进程 https://blog.csdn.net/miangangzhen/article/details/85318096

word2vec中的模型解说 https://blog.csdn.net/u012762419/article/details/79366052

word2vec升级版GloVe解说 https://nlp.stanford.edu/projects/glove/

补充 BERT 为了弥补ELMo的不足，BERT真正实现了双向语言模型。

训练过程：输入句子 - embedding层(768) - position_embedding层(768) - transformer层(768) * 12 - masked_lm层 - next_sentence层预测过程：输入句子 - embedding层(768) - position_embedding层(768) - transformer层(768) * 12

ELMO网络结构

训练过程：输入句子 - embedding层(512) - 双向lstm层(2512) - 双向lstm层(2512) - softmax层(vocab_size) 预测过程：输入句子 - embedding层(512) - 双向lstm层(2512) - 双向lstm层(2512) - 拼接前三层各自的输出(3*1024

【本文地址】

公司简介

联系我们