Transformer架构发明者现在都在干嘛？

发布时间：2024-09-16

2017年，一篇名为《Attention is All You Need》的论文横空出世，提出了革命性的Transformer架构。如今，这篇论文已被引用近8万次，成为AI领域的里程碑之作。然而，鲜为人知的是，这篇论文的8位作者在谷歌的处境并不如意。直到最近，他们才重新成为业界瞩目的焦点。

这8位作者分别是Ashish Vaswani、Noam Shazeer、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin和Niki Parmar。他们来自不同的国家和背景，却因共同的兴趣和目标走到了一起。在谷歌工作期间，他们面临着来自高层的压力和不理解。谷歌高层担心苹果的Siri会威胁到其搜索业务，因此组建了这支团队来开发新的搜索功能。

然而，这个团队的研究方向最终超出了谷歌的预期。他们不仅解决了自然语言处理领域的问题，还开创了一种全新的AI架构。Transformer架构采用了自注意力机制，使得模型能够同时关注序列中的所有位置，从而捕捉长距离依赖关系。这一创新彻底改变了自然语言处理领域，也为计算机视觉等领域带来了新的可能性。

尽管Transformer架构取得了巨大成功，但它的发明者们在谷歌并没有得到应有的重视。直到他们离开谷歌，创办了自己的公司或加入其他AI巨头，才重新获得了业界的关注。例如，Noam Shazeer和Niki Parmar共同创办了Character.AI，而Lukasz Kaiser则加入了OpenAI。

这些发明者们并没有停止创新的脚步。他们继续推动AI技术的发展，探索Transformer架构的更多可能性。例如，谷歌在2020年提出了Vision Transformer（ViT），将Transformer架构应用于图像分类任务。OpenAI则在2021年发布了基于Transformer打造的DALL-E和CLIP，展示了Transformer在生成式AI领域的强大能力。

Transformer架构的成功不仅改变了AI技术的发展方向，也影响了整个科技行业。正如英伟达创始人黄仁勋所说，Transformer架构是“生成式人工智能的开端”。它使得AI系统能够理解像素的含义，识别像素，并从像素的含义中生成内容。这种能力具有深远的变革意义，正在推动新一轮的工业革命。

然而，Transformer架构的发明者们并没有满足于现状。他们仍在不断探索和创新，推动AI技术向更广阔的领域发展。正如Andrej Karpathy所说，Transformer架构“不仅仅是另一个神经网络，而是一个惊人的神经网络”。他认为Transformer架构还远未达到极限，未来还有更多的可能性等待我们去探索。

Transformer架构的发明者们的故事告诉我们，真正的创新往往来自于对现状的不满和对未来的无限想象。他们的经历也启示我们，在追求技术进步的同时，也要保持开放和包容的态度，给予创新者足够的空间和支持。只有这样，我们才能在AI技术的浪潮中不断前进，创造更加美好的未来。