当前位置: 首页 > news >正文

幼儿园校园网站建设情况外贸seo软件

幼儿园校园网站建设情况,外贸seo软件,桐乡哪里有做网站的,湖北网站建设价格Transformer和BERT的区别比较表: 两者的位置编码: 为什么要对位置进行编码? Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token…

Transformer和BERT的区别比较表:

两者的位置编码:

为什么要对位置进行编码?
Attention提取特征的时候,可以获取全局每个词对之间的关系,但是并没有显式保留时序信息,或者说位置信息。就算打乱序列中token的顺序,最后所得到的Attention结果也不会变,这会丢失语言中的时序信息,因此需要额外对位置进行编码以引入时序信息。

Position Embedding in Transformer
在Transformer中,位置编码是由sin /cos sin/cossin/cos函数生成的固定值。

具体做法:用不同频率的正余弦函数对位置信息进行编码,位置编码向量的维度与文本编码向量的维度相同,即dmodeld_{model}dmodel。因此二者可以直接相加作为token最终的编码向量。

pos表示位置,i 表示所在维度。

即使测试集中某些样本超出了最大文本长度,这种编码方式仍然可以获得有效的相对位置表示。

Position Embedding in BERT
在BERT中,与一般的词嵌入编码类似,位置编码也是随机生成且可训练的,维度为[seq_length, width],其中seq_length代表序列长度,width代表每一个token对应的向量长度。

从实现上可以看到,BERT中将位置编码创建为一个tensorflow变量,并将其broadcast到与词嵌入编码同维度后相加。

with tf.control_dependencies([assert_op]):full_position_embeddings = tf.get_variable(name=position_embedding_name,shape=[max_position_embeddings, width],initializer=create_initializer(initializer_range))# 这里position embedding是可学习的参数,[max_position_embeddings, width]# 但是通常实际输入序列没有达到max_position_embeddings# 所以为了提高训练速度,使用tf.slice取出句子长度的embeddingposition_embeddings = tf.slice(full_position_embeddings, [0, 0],[seq_length, -1])num_dims = len(output.shape.as_list())# word embedding之后的tensor是[batch_size, seq_length, width]# 因为位置编码是与输入内容无关,它的shape总是[seq_length, width]# 我们无法把位置Embedding加到word embedding上# 因此我们需要扩展位置编码为[1, seq_length, width]# 然后就能通过broadcasting加上去了。position_broadcast_shape = []for _ in range(num_dims - 2):position_broadcast_shape.append(1)position_broadcast_shape.extend([seq_length, width])position_embeddings = tf.reshape(position_embeddings,position_broadcast_shape)output += position_embeddings

 两者之间的区别


Transformer的位置编码是一个固定值,因此只能标记位置,但是不能标记这个位置有什么用。

BERT的位置编码是可学习的Embedding,因此不仅可以标记位置,还可以学习到这个位置有什么用。

BERT选择这么做的原因可能是,相比于Transformer,BERT训练所用的数据量充足,完全可以让模型自己学习。

如何延拓BERT的位置编码?
我们知道,BERT模型最多只能处理512个token的文本,其原因在于BERT使用了随机初始化训练出来的绝对位置编码,最大位置设为为512,若是文本长于512便无位置编码可用。

另一方面, 复杂度使得长序列的显存用量极大,一般显卡就连finetune也做不到。

苏神提出了一种层次分解的方法将BERT的位置编码最多可以延拓至26万。

具体内容可自行阅读苏神博客

层次分解位置编码,让BERT可以处理超长文本

http://www.fp688.cn/news/153120.html

相关文章:

  • 网站开发涉及到缓存吗关键词查询神器
  • 网站h标签网站推广优化排名
  • 二手商品网站怎么做网站关键词排名服务
  • 广西网站设计运营公司写软文的app
  • 建设监理网站站长基地
  • 网站建设工具的实验心得网络营销员岗位的职责与要求
  • 淘宝客怎么样做自己的网站营销推广网站推广方案
  • 18种禁用软件黄app入口河南平价的seo整站优化定制
  • 手机可以制作网站吗关键词优化教程
  • 杭州微信网站建设淘宝运营主要做些什么
  • 政务信息网站建设研究网络广告推广方法
  • 网站建设成功案例宣传百度网站站长工具
  • 英文网站google推广搜索引擎成功案例分析
  • 网站优化的基本思想免费个人网站模板
  • 教育类网站素材百度有免费推广广告
  • 长沙零零七网站建设网络销售挣钱吗
  • 五金加工厂怎么做网站淘宝网站的推广与优化
  • 站长工具收录查询新开网站
  • 做动漫头像的网站关键词搜索指数查询工具
  • 免费网站空间怎么做网站最新的全国疫情
  • 怎么样做网站注册量丽水百度seo
  • 肇庆 网站建设公司有哪些搜索引擎网站推广如何优化
  • 重庆做网站公司哪家好百度浏览器
  • dw 做网站的思路网站维护费用一般多少钱
  • 通过网站做跳板软文营销的宗旨是什么
  • 常用小网站seo公司是什么意思
  • 高端医院网站建设网络营销推广的特点
  • 做美篇发网站网站seo优化软件
  • 免费推广网站下载网站软文是什么
  • 餐饮网站建设的毕设报告百度今日数据统计