你好,游客 登錄
背景:
閱讀新聞

六合图库软件:2015深度學習回顧:ConvNet、Caffe、Torch及其他

[日期:2015-08-06] 來源:ComputerVisionBlog  作者: [字體: ]

六合图库118万众图库 www.xorsm.icu   CVPR可謂計算機視覺領域的奧運會,這是vision.ai的Co-Founder,前MIT研究人員T. Malisiewicz針對CVPR'15尤其是Deep Learning的綜述文章,談到了ConvNet的Baseline,Caffe和Torch之間的分歧,ArXiv論文熱,以及百度的ImageNet違規事件等。原文標題為:Deep down the rabbit hole: CVPR 2015 and beyond。

  CVPR是主要的計算機視覺會議,可以把它看作是計算機視覺研究的奧林匹克。今年,CVPR將在我的后院舉行,離可愛的劍橋不到一英里。我很多麻麻省理工的同事都參加了,如果Google在這次CVPR 2015上有著有最好的表現,我也不會感到驚訝。從2004年開始,我幾乎參加了每年的CVPR,那么,讓我們來一場計算機視覺研究世界新而短暫的精彩旅行吧。

  灰白陰影下的兔子洞藝術

  多年來,發生了很多變化,但本質上還是沒變。學者曾經是最頂端的,捍衛他們自己的大學以及發生在他們非商業研究實驗室的令人驚嘆的事情。如今,學者仍然處于頂端,但是現在維護的是他們的Google、Facebook、Amazon以及 X 公司的某個附屬子公司。隨著招聘的最佳預算和以出版為導向的沉重企業文化,如果接下來連續幾年的大量學術外流,我也不會感到驚訝。由于CVPR只有兩周,因此Google一直在忙于制作ConvNet(卷積神經網絡)藝術,同時向世界展示了如果你想做最好的深度學習研究,他們就是(合適的)王國。

  僅僅是博士生和博士后的部隊并不能打敗軟件工程師和科學研究者部隊。在以前,學生在獲得計算機視覺的博士后之后通?;嵫≡窶肟?通?;崾艿揭恍┦泳躚芯抗ぷ骱突值墓ぷ韉撓棧?。現在,之前的博士生在大公司運作研究實驗室已經緊鑼密鼓的進入我們的視野。似乎還沒有足夠的深度專家來填補這個大需求。

  數據集通常是一件大事——請下載我們的數據!數據集依舊是件大事——但是我們抱歉告訴你,你所在大學的計算資源達不到要求(但幸運的是,我們 X 公司總在招聘,所以來加入我們吧,讓我們一起推動研究的向前發展)。

  如果你想要查看個人文獻,我建議Andrej Karpathy的 CVPR 2015文獻在線導航工具或者看看在計算機視覺基礎網站上的CVPR 2015文獻 ?;褂芯褪且桓雎槭±砉ぱг旱牟┦亢蜓∪薢oya Bylinskii,也列出了一些有趣的CVPR 2015 的文獻。

  ConvNet革命:一個網絡預訓練

  機器學習過去是女王,現在是國王?;餮骯ナ喬誠緣?,但如今的學習方法如此之深,以致于圖表在單個滑動下很難擬合。研究生過去常常避開了關于Yann LeCun的笑話,Yann LeCun堅持認為機器學習在將來的某一天會做特征設計階段的工作。現在似乎是這種情況,當你堅持認為“手工特征設計”將省掉一天時間的時候,整個視覺社區都會忽略你。Yann LeCun做了一個主題報告,并給了它一個有趣的標題:“深度學習怎么了?”,這表明了卷積神經網絡(也叫CNNs或ConvNets)存在于CVPR的任何角落。

  圖來自Karpathy的卷積神經網絡教程

  過去在CVPR很難發表ConvNet(卷積神經網絡)研究論文,而現在如果你沒有對ConvNet做一個基本的比較的話,很難得到一篇CVPR文獻。得到一個很酷的新問題了么?哦,你沒有試一下基于ConvNet的基本方法么?很好,這說明為什么沒人關心了。

  盡管如此,但這并不是機器接管了視覺科學家的工作。如今的視覺科學家更是一個應用型機器學習黑客,而且由于強大的CNN主題,理解和重新實現如今的視覺系統變得更加容易。我們在CVPR上看到的在本質上是一個類似分割和運動的經典問題的回訪,只是使用的是這種新的機器方法。正如Samson Timoner在本地Boston Vision Meetup網站上概括的那樣,當互信息變得流行,社區也隨之變得時尚——這次圍繞的是ConvNets。但這不僅是一種趨勢,非CNN(卷積神經網絡)的競爭正在被摧毀。

  來自Bharath HariharanCVPR 2015的文章-在切割上使用卷積神經網絡

  還有很多事情等著視覺科學家去做,一個扎實的數學上的正式教育比其他任何都要重要。我們過去是使用梯度下降來訓練,現在也是如此。就好比我們過去喝咖啡,現在也喝咖啡一樣。其本質上,其實還是數學。

  內心深處的兔子洞

  CVPR2015讓人想起了物理學上牛頓之前的日子。許多聰明的科學家能夠使用數學來預測物體的運動,曾經聰明的笛卡爾教會我們如何將我們的物理思維考慮到坐標系統中。非常清楚的是:通過卷積神經網絡語言來鑄造你的計算機視覺問題,你將打敗所有用手做計算機視覺的人。我認為Yann LeCun(深度學習之父其中之一)就是一個現代的笛卡爾,只是因為我認為開創性的工作是指日可待。他的ConvNets思想框架就像是一個必備的坐標系統——我們可能不知道目的地像什么,但我們現在知道如何來繪制一張地圖。

  深度網絡每個月都表現的很出色,但我仍然等待著艾薩克(牛頓)的到來,讓我們的生活更輕松。我想要一個簡化,但我并不悲觀——一個很好的原因就是會有一系列的ConvNet空間活動(以防你沒能參加CVPR 2015),所以我直言不諱:ConvNets這該死的工作!其實我只想要深度學習的F=ma公式。

  計算機視覺的開源深度學習:Torch VS Caffe

  CVPR2015開始的第一天是一些優秀的軟件教程。外面有許多優秀的非-α深度學習軟件,并且讓每個人的生活變得容易。在CVPR上,我們既有Torch教程也有Caffe教程。我參加了DIY深度學習的教程,這是一個充滿Caffe的屋子——在會議開始的5分鐘前,站在房子里的參會人員只有像我這樣的懶蟲。相比之下,Caffe是更受歡迎的,但對于Torch,當談及到一些深度學習的權威人員時(如+Andrej Karpathy和其他深度思維科學家),一些特定的專家小組似乎從Caffe轉移到了Torch。

  Caffe是在Berkeley發展起來的,有一些充滿活力的社區,與Python結合并且在大學生中似乎相當流行。Trevor Darrell教授甚至找了一些博士后來幫助Caffe發展。如果我再年輕幾歲并且剛獲得博士學位,那么我一定會申請的。

  Torch并沒有跟隨Python的潮流,它是基于Lua的。對于解釋器沒有必要像Matlab或者Python那樣,Lua會給你神奇的控制臺。Torch被Facebook人工智能研究實驗室和位于倫敦的谷歌DeepMind大量使用。對于那些害怕類似于Lua這樣新語言的人,在此不用擔心——如果你已經涉足Python,JavaScript或者Matlab的話,那么你會感到Lua語言學起來特別“輕松”。

  現在,越來越清晰的是:深度學習的未來主要是來自像Caffe或Torch那樣有自給自足的軟件包,而不是像OpenCV或Matlab那樣的處在生死邊緣上的全能工具。當你在OpenCV上分享創作,你最終會分享源代碼,但有了深度學習工具包,你最終提供的是你的網絡預訓練。對于你的計算機視覺管道,你不必再考慮20個“小”算法的組合——你只要考慮你想要的流行網絡架構,然后就是數據集。如果你有GPU和龐大的數據,你可以做完整的端到端的訓練。如果你的小數據集或者中等數據集,你可以微調最后幾層。你甚至可以在最后一層訓的頂部訓練一個線性分類器,如果你怕麻煩——那么你要做的只是超越SIFT(尺度不變特征變換算法),HOG(方向梯度直方圖 ),GIST(通用搜索樹)以及所有在計算機視覺過去二十年里慶祝的算法。

  在CVPR 2015上使用ConvNets的方式,使我感覺到我們正在接近某個大的東西。但是在我們撿到黃金之前,ConvNets仍然像是一個微積分的影子,只是“希望”會得到更大,更深層次的東西和更有意義的事。我認為,對于ConvNets的調查可視化算法的研究表明,即使網絡建筑師也不能完全確定幕后發生的事情。

  嵌入大腦的視頻游戲引擎:面向機器智能的不同路徑

  在CVPR 2015會議的最后一天的現場分析研討會上,Josh Tenenbaum 給嵌入大腦的視頻游戲引擎賦予了一個誘人的討論標題。你可以在一篇短篇《科學美國人》文章中讀到他觀點的概括。盡管他的說話風格看起來似乎不符合CVPR的標準,但它卻是典型的Tenenbaum。在他的世界里,沒有基準可以超越,沒有曲線可以擬合陰影,如果你讓我把LeCun和笛卡爾作比較,那么LeCun在某種意義上算是教授吧。Tenenbaum可能是現代的亞里士多德。正如Jianxiong Xiao教授全面的介紹Josh那樣,他或許是對的——這是你能找到的最聰明的揚聲器之一。它在一秒內能說100個單詞,你會覺得你的大腦在放大你聽到的。

  Josh的一個主要研究主題是基于圖像識別陰影的超越。Josh的所有的工作都是關于在這個世界上建立思維模型,而他的工作確實可以被看作是綜合分析。在他模型的內部主要是一些類似于視頻游戲引擎的東西,而他展示了許多令人信服的相關實例,這些實例對于人類來說很是方便,但對于今天數據驅動的ConvNets而言,幾乎是不可能的。在這個夏天,如果他的學生在谷歌DeepMind工作,那么也不必感到驚訝。

  幾年前,概率圖模型(圖論和概率方法的合并)那是風靡一時。Josh給了我們概率編程的味道,雖然我們還沒有看到新的方法來主導計算機視覺研究世界,但請睜大你的眼睛。他提到了一篇最近發表在Nature上的文章(下面引用的),來自另一個受人尊敬的機器智能研究,這應該會引領潮流興奮相當長一段時日。請看看下面Julia代碼中尾部的一部分:

  Probabilistic machine learning and artificial intelligence.Zoubin Ghahramani. Nature 521, 452–459 (28 May 2015) doi:10.1038/nature14541

 

  下面來看一看一些教授。Tenenbaum的想法正在行動中,看看下面的這篇CVPR 2015的文章,標題為:一種面向場景感知的概率編程語言。恭喜Tejas D. Kulkarni,第一作者,一個MIT的學生,因為這個令人興奮的新作而獲得最佳論文榮譽獎。有了谷歌DeepMind,你會有一個有趣的夏天。

  

 

  Picture: A Probabilistic Programming Language for Scene Perception

  深度場景CNNs物體檢測器

  在現場分析研討會上有著大量的好的演講報告,在另一次演講中,真正突出的是一個新的大型數據集(麻省理工學院的地方)和當你使用場景與物體來訓練發生什么時的一個徹底調查。

  

 

  來自于麻省理工學院的Antonio Torralba做了一個關于地點數據庫的討論,以及當你做以物體為中心的數據庫(如ImageNet)與以場景為重的數據庫(如麻省理工學院的地點)訓練時能學到什么的一個深層分析。你可以查看“目標探測器浮現”幻燈片或arXiv論文來學習更多的指示。這些都來自即將到來的研究員Bolei Zhou的出色工作!

  CVPR無意之事:ArXiv出版狂熱 & 百度慘敗

  從長遠來看,最近快速推到ArXiv.org的預印本熱潮對學者和商業研究者老說貢獻都很大。當你有大量的專家以最快的速度探索思想,然后等待6個月直到下一次回憶的最后截止日期,這樣是沒有意義的。唯一的缺點就是,它使新發布的CVPR論文過時了。這就像在ArXiv發布文章的那一天每個人都已經詳細精讀了這個好東西。但你得到了你的“想法主張”而不用擔心一個不適當的評審影響你。雙盲評審,將準備進行一個深度改造。我們現在知道誰在做什么,特別是在發表時間之前。對于學生,發布或退稿僅僅得到的是一個結果。ARxIV狂熱是一件好事還是壞事取決于你,可能更多的是你的資歷比其它什么都重要。在接下來的日子里,CV的各種聲音,肯定會越來越響,并會持續如此。

  外行人僅僅是閱讀人工智能標題的話,百度作弊丑聞似乎是個大新聞,但在計算機視覺上,在測試集上的過擬合并不是一件新穎的事情。這篇論文最后被駁回了,研究生通常多次在測試集上評估他們的算法,而真相就是人無完人。當它對#1很重要的時候,不要對你的比較變得不合適而感到驚訝。重要的是意識到地面破碎研究和小百分比追逐的不同。我們都會犯錯,在重大的壓力下,我們都會表現出自己的弱點。所以,讓我們一笑置之,坦然面對吧。讓我們招聘最好的,鼓勵真正偉大的研究并且停止追逐百分比。事實上,很多的頂級性能方法都是相似的。

  總結

  CVPR的參會者在持續的增加。我們現在有博士生,創業者,教授。招聘人員,大公司,甚至是來學生,來展示自己的成果。CVPR會成為新的SIGGRAPH(美國計算機協會)么?

  

 

  來自Changbo Hu繪制的CVPR參會者圖片

  ConvNets留在了這里,但是如果我們想要讓ConvNets能超越陰影的計算,那么還有大量的工作需要完成。Geoff Hinton的capsules在深夜的討論中不斷出現。“我想使用神經元組來取代非結構化層,我稱之為‘capsules’,它更像一個皮層柱”——Geoff Hinton的新聞網站AMA。很多人(像來自CMU的Abhinav Gupta教授)也在討論非監督學習CNN(卷積神經網絡)的訓練,我預測,在明年的CVPR中,從沒有注釋的視頻學習大型卷積神經網絡應該是一個大的方向。

  最重要的是,當深度學習的巨頭去提他們最喜歡的方法有錯誤時,我只期待有最好的研究也會隨之而來??燉值募撲惆?,并記住,永遠不要停止學習。

推薦 打印 | 錄入: | 閱讀:
相關新聞      
本文評論   
評論聲明
  • 尊重網上道德,遵守中華人民共和國的各項有關法律法規
  • 承擔一切因您的行為而直接或間接導致的民事或刑事法律責任
  • 本站管理人員有權保留或刪除其管轄留言中的任意內容
  • 本站有權在網站內轉載或引用您的評論
  • 參與本評論即表明您已經閱讀并接受上述條款