当前位置: 首页 > news >正文

石家庄网站制作机构刚刚中国突然宣布

石家庄网站制作机构,刚刚中国突然宣布,建设银行企业网站,便宜靠谱的建站公司1.位置编码有哪些?有什么区别? nn.embedding和正余弦编码两种用的多。nn.embedding是一种基于学习的嵌入方法, 通过神经网络的训练过程, 会自动学习数据中每个符号的嵌入向量表示。 而正余弦编码是一种手工设计的嵌入方式&…

1.位置编码有哪些?有什么区别?

nn.embedding和正余弦编码两种用的多。nn.embedding是一种基于学习的嵌入方法,

通过神经网络的训练过程, 会自动学习数据中每个符号的嵌入向量表示。

而正余弦编码是一种手工设计的嵌入方式,是一种固定的编码方式,不依赖于具体的数据和训练模型。

2.transformer的结构

encoder部分主要是为了提取特征,decoder常用于生成式任务。FFN前馈网络进行特征交融。

3.为什么在QK相乘后要归一化

为了防止内积过大,导致梯度爆炸,这样更容易训练,有点类似BN的作用。

4.为什么要使用multi head attention

CNN里面有多个卷积核来提取不同维度的特征信息,那么transformer里也想着把channel分为几份,然后分别做注意力机制,这样即可以降低计算量,也可以学习不同维度的特征。具体操作,把QKV分成几份,然后分别注意力得到特征再concat。

5.后续继续更新 

http://www.fp688.cn/news/163388.html

相关文章:

  • 长春可做微网站的公司肇庆疫情最新消息
  • 建设银行网站官网登录短信验证seo优化工作怎么样
  • 深圳设计公司办公室装修设计优化关键词是什么意思
  • wordpress黑镜主题2.0下载南平seo
  • 肇庆建设银行招聘网站搜狗推广
  • 河南住房和城乡建设厅网站主页怎样做一个网站
  • 企业网站设计意义网络优化seo
  • 上海做网站最专业windows优化工具
  • 广州公司建站2018十大网络营销案例
  • 揭阳做网站公司建站软件
  • 如何自己做网站广告关键词有哪些
  • 广安网站seo网络营销案例2022
  • wordpress js 代码编辑器seo课程哪个好
  • 长沙互联网广告公司seo文章关键词怎么优化
  • 桔子摄影seo岗位是什么意思
  • 张家港网站设计优化百度推广关键词价格查询
  • 文章视频类网站怎么做测试深圳做网站seo
  • 北京企业展示网站建设关键词指数查询工具
  • 做网站与不做网站的区别旺道网站优化
  • 设计网站平台百度投放广告怎么收费
  • 计算机网站开发是那个语言建网站赚钱
  • 临时网站怎么做山西seo顾问
  • 怎么做淘宝网站赚钱吗宝鸡seo排名
  • wordpress返回404页面什么是网站推广优化
  • 有哪些做买家秀的网站哪些网站是营销型网站
  • 自建网站阿里云备案通过后怎么做海南百度推广公司
  • 湛江网站优化广州市新闻最新消息
  • 怎样手机做网站教程网站推广和网站优化
  • 深圳营销型网站建设站长字体
  • 移动互联和网站开发哪个好武汉seo招聘