世界热门:谷歌大脑的Transformer论文,“翻车”了
2023-05-09 15:17:22 机器之心

2017 年,谷歌大脑团队在其论文《Attention Is All You Need》中创造性地提出 Transformer 这一架构,自此这一研究一路开挂,成为当今 NLP 领域最受欢迎的模型之一,被广泛应用于各种语言任务,并取得了许多 SOTA 结果。


(资料图)

不仅如此,在 NLP 领域一路领先的 Transformer,迅速席卷计算机视觉、语音识别等领域,在图像分类、目标检测、语音识别等任务上取得良好的效果。

论文地址:https://arxiv.org/pdf/1706.03762.pdf

从推出至今,Transformer 已经成为众多模型的核心模块,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer,而后者早已被谷歌申请了专利。

图源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT,名字中带有 Transformer,可见 Transformer 是 GPT 系列模型的核心。

与此同时,最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示,当 Transformer 刚发布之初,实际上是论文放出来的第二天,他们就迫不及待将以前的研究切换到 Transformer ,后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间,基于 Transformer 构建的模型不断发展壮大。然而现在,有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码“不一致”

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 论文中的架构图有误,将层归一化放置在了残差块之间,而这与代码不一致。

Transformer 架构图如下左,图右为 Post-LN Transformer 层。

不一致的代码部分如下,其中 82 行写了执行顺序“layer_postprocess_sequence="dan"”,表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为:add 在 norm 上面,即先 norm 再 add,那确实代码和图不一致。

代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

接下来,Sebastian 又表示,论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好,能够解决梯度问题。这是很多或者大多数架构在实践中所采用的,但它可能导致表示崩溃。

因此,虽然关于 Post-LN 或 Pre-LN 的争论仍在继续,但另一篇论文结合了这两点,即《ResiDual: Transformer with Dual Residual Connections》[2]

对于 Sebastian 的这一发现,有人认为,我们经常会遇到与代码或结果不一致的论文。大多数是无心之过,但有时令人感到奇怪。考虑到 Transformer 论文的流行程度,这个不一致的问题早就应该被提及 1000 次。

Sebastian 回答称,公平地讲,“最最原始”的代码确实与架构图一致,但 2017 年提交的代码版本进行了修改,同时没有更新架构图。所以,这实在令人困惑。

正如一位网友所说:“读代码最糟糕的是,你会经常发现这样的小变化,而你不知道是有意还是无意。你甚至无法测试它,因为你没有足够的算力来训练模型。”

不知谷歌之后是否会更新代码还是架构图?

热门推荐

文章排行

  1. 2023-05-09世界热门:谷歌大脑的Transformer论文,“翻车”了
  2. 2023-05-09每体:阿根廷中场圭多-罗德里格斯是巴萨引援备选之一_全球热闻
  3. 2023-05-09屈原管理区多方举措 强化“工改”服务 环球短讯
  4. 2023-05-09阿尔特:客户较单一、量产客户车型销量波动等是公司零部件业务面临的主要困难
  5. 2023-05-09天天即时看!坐飞机也能用5G啦!工信部批复5G地空通信试验频率
  6. 2023-05-09碧蓝航线:无皮村压力最大的五位SSR舰娘 猜猜看谁会率先退群
  7. 2023-05-09速尔f63l价格_sur700017062586速尔
  8. 2023-05-09奥斯梅恩、凯恩和穆阿尼是曼联今夏主要目标人选
  9. 2023-05-09高血压遇上高气温,老年患者如何安稳度夏?|每日快讯
  10. 2023-05-09每日报道:追觅:造飞机的人去扫地,全球第一高速数字马达的降维打击
  11. 2023-05-09天天看热讯:异动快报:*ST瑞德(600666)5月9日10点17分触及跌停板
  12. 2023-05-09湖南常德:扎实推进消防宣传“五加一”走实见效
  13. 2023-05-09每日视点!专家起底美国的“饥饿生意”:大公司利用食品援助牟利
  14. 2023-05-09古琴教学基础入门视频_古琴基础入门
  15. 2023-05-09黑龙江:推动全民数字素养与技能提升
  16. 2023-05-09基于60万用户评价,报告称苹果iPhone 14系列口碑下滑
  17. 2023-05-09天津海中鲜酒楼_天津海中鲜
  18. 2023-05-09全球热推荐:正盐是什么意思化学中_正盐是什么
  19. 2023-05-09科技周点燃学生科技梦|天天看点
  20. 2023-05-09美满霉素治疗痤疮的效果如何_美满霉素治疗痤疮 世界今头条