世界欠他一個圖靈獎,LSTM之父的深度學習“奇跡之年”



近日,LSTM 的發明人、著名深度學習專家 Jürgen Schmidhuber 發表了一篇長文,詳細論述了近 30 年前,即 1990~1991 年之間他和團隊進行的許多研究。

Jürgen 表示,深度學習革命背后的許多基本思想,是在 1990~1991 年不到 12 個月的時間里,在慕尼黑理工大學 (TU Munich) 產生的,而這些思想為當今的許多深度學習前沿研究奠定了基礎,包括 LSTM、元學習、注意力機制和強化學習等。

Jürgen 稱這一年為 “奇跡之年”。盡管當時他們發表的工作幾乎無人問津,但四分之一個世紀后,基于這些想法的神經網絡不斷得到改進,其應用出現在智能手機等 30 多億設備、每天被使用數十億次,在全世界消耗大量的計算資源。

在 AI 領域,深度學習三巨頭 Geoffrey Hinton、Yoshua Bengio 和 Yann LeCun 人盡皆知,Jürgen Schmidhuber 的知名度卻遠不及三人,盡管他發明的 LSTM 被認為是教科書級別的貢獻。他是被圖靈獎遺忘的大神。在Hinton等三巨頭獲圖靈獎之時,Jürgen卻得到了很大的呼聲:“為什么Jürgen沒有得圖靈獎?”

Jürgen Schmidhuber 是瑞士 Dalle Molle 人工智能研究所的聯合主任,他 1997 年提出的 LSTM 現在被廣泛應用在谷歌翻譯、蘋果 Siri、亞馬遜 Alex 等應用中,可謂是深度學習領域最商業化的技術之一。

世界欠他一個圖靈獎,LSTM之父的深度學習“奇跡之年”

除了 LSTM 之外,Jürgen Schmidhuber “引以為傲” 的還有他在 1992 年提出的PM(Predictability Minimization)模型。他堅持認為現在大火的 GAN 就是 PM 的變種,兩者的區別就在于方向是反的,為此,Jürgen 還和 GAN 的提出者 Ian Goodfellow 有過線上線下激烈的交鋒,引起業界廣泛討論。

至于對深度學習三巨頭 Hinton、Bengio 和 LeCun,Jürgen Schmidhuber 也打過幾輪口水仗,認為三人在自己的圈子里玩,對深度學習領域其他更早期先驅人物的貢獻則只字不提。

是否人們對 Jürgen Schmidhuber 的貢獻認知過少?這篇文章詳述了 Jürgen 和他的團隊在 “奇跡之年” 做出的許多研究,提出的許多思想,非常值得一看。

本文的目錄如下:

第 0 節:深度學習的背景:神經網絡

第 1 節:第一個非常深的神經網絡,基于無監督預訓練 (1991)

第 2 節:將神經網絡壓縮 / 蒸餾成另一個 (1991)

第 3 節:基本的深度學習問題:梯度消失 / 爆炸 (1991)

第 4 節:長短時記憶網絡:有監督深度學習 (1991 年以來的基本想法)

第 5 節:通過對抗生成神經網絡的人工好奇心 (1990)

第 6 節:通過最大化學習神經網絡學習進度的人工好奇心 (1991)

第 7 節:用于無監督數據建模的對抗網絡 (1991)

第 8 節:端到端可微快速權重:讓神經網絡學習編程神經網絡 (1991)

第 9 節:通過神經網絡學習序列注意力 (1990)

第 10 節:分層強化學習 (1990)

第 11 節:用循環神經世界模型做規劃和強化學習 (1990)

第 12 節:將目標定義作為額外的 NN 輸入 (1990)

第 13 節:作為 NN 輸入 / 通用值函數的高維獎勵信號 (1990)

第 14 節:確定性策略梯度 (1990)

第 15 節:用網絡來調整網絡 / 合成梯度 (1990)

第 16 節:在線遞歸神經網絡的 O (n^3) 梯度 (1991)

第 17 節:深層神經熱交換器 (1990)

第 18 節:博士論文 (1991 年)

第 19 節:從無監督預訓練到純粹監督學習 (1991-95 和 2006-11)

第 20 節:20 世紀 90 年代 FKI 人工智能技術報告系列

第 21 節:結束語

0、深度學習的背景:神經網絡

人腦大約有 1000 億個神經元,每個神經元平均與其他 1 萬個神經元連接。有些是輸入神經元,將數據 (聲音、視覺、觸覺、疼痛、饑餓) 喂給其他神經元。其他的是控制肌肉的輸出神經元。大多數神經元隱藏在思考發生的位置。你的大腦顯然是通過改變連接的強度或權重來學習的,這些強度或權重決定了神經元之間的相互影響的強度,而這些神經元似乎編碼了你一生的經歷。人工神經網絡 (NNs) 與之類似,它能比以前的方法更好地學習識別語音、手寫文字或視頻、最小化痛苦、最大化樂趣、駕駛汽車,等等。

當前的商業應用大多集中在監督學習,使神經網絡模仿人類教師。在許多試驗中,Seppo Linnainmaa 于 1970 年提出的梯度計算算法,今天通常稱為反向傳播或自動微分的反向模式,以逐步削弱某些神經網絡連接和加強其他連接的方式,使神經網絡行為越來越像老師。




上一篇:【科研動態】口蹄疫滅活疫苗的破乳檢測方法
下一篇:干貨 | 數據分析師進階必備6大數學利器
贵州快3开奖结果