海康威視研究院院長浦世亮談深度學習+安防
備受關注的計算機視覺國際大賽——ImageNet 大規模圖像識別挑戰賽(ILSVRC2017)已經拉開帷幕,今年的比賽分為四個主要項目:定位、識別以及視頻中物體識別和Tester Challenges。去年在比賽中拿下場景分類關鍵的海康威視首席專家浦世亮近日接受新智元專訪,他談到了去年參賽詳情和技術細節。他也對深度學習與安防行業現狀的10個問題進行了深入解讀。
本文引用地址:http://www.j9360.com/article/201703/345833.htm根據 ImageNet官網的最新消息,今年的 ImageNet 大規模圖像識別挑戰賽(ILSVRC2017)已經拉開帷幕。
今年的比賽項目分為4個:
物體定位
物體識別
視頻中物體識別
Tester Challenges
官網特別提示:已經使用了幾種算法的參與者可以每個算法提交一個結果(最多5個算法)。算法參數的變化不構成不同的算法(遵循PASCAL VOC中使用的過程)。
去年的 ImageNet上,來自中國的團隊大放異彩:CUImage(商湯和港中文),Trimps-Soushen(公安部三所),CUvideo(商湯和港中文),HikVision(海康威視),SenseCUSceneParsing(商湯和港中文),NUIST(南京信息工程大學)分別拿下多個項目的冠軍。

其中,海康威視拿下了場景分類(Scene Classification)的冠軍。具體賽果見下表:

另外,在物體探測任務上,海康威視也有亮眼表現:


海康威視這家做安防出身的企業目前在計算機視覺上已在國際上取得領先的地位,除了ImageNet 外,在PASCAL、KITTI和MOT等競賽中都有亮眼表現。
根據海康威視首席專家浦世亮介紹,在PASCAL VOC2012目標檢測上,海康威視基于Faster R-CNN深度學習目標檢測算法mAP性能達到87.9,排名第一,領先盤踞榜首近一年的第二名微軟4.1個點,刷新紀錄。
新智元最新一期的AI領軍人物專訪采訪到了海康威視首席專家、研究院院長浦世亮,他分享了海康威視奪冠 ImageNet 背后的技術,談到 2017年,深度學習在復雜網絡設計、模型壓縮方向的研究依然是熱點,深度學習和LSTM、增強學習的結合進一步加強。另外,針對當下安防行業的智能+現狀,他也提出了獨特的見解。

浦世亮 海康威視研究院院長
浦世亮,法國國家科學研究院(CNRS)博士,浙江大學理學博士,現任海康威視首席專家、研究院院長,負責公司在人工智能及大數據領域的技術研究。浦世亮帶領研究院研發的Smart 265編碼技術、目標結構化算法、車牌識別算法、人臉識別算法、視頻檢索引擎、多傳感器融合等技術,被廣泛應用于公共安全、金融、交通、司法、零售、智慧城市等多個領域。
海康威視 ImageNet 2016 奪冠背后技術詳解
去年 ImageNet 大規模圖像識別挑戰賽(ILSVRC)中,海康威視(HikVision)拿下場景分類項目的冠軍。你能具體介紹一下這一比賽項目嗎?海康威視奪冠的技術核心是什么?
浦世亮:ImageNet 場景分類任務采用MIT發布的 Place2 數據集,其目的是對圖像中存在的場景進行識別。該數據集擁有365個類別的場景目標,800多萬張已經標記的訓練樣本。相對于普通的ImageNet圖像分類任務,場景分類任務的難點在于其數據分布非常不均衡,每個類別的數據從5000 到 30000不等,每張圖像都可能在不同的場景描述和相對更模糊的場景標簽。
場景分類技術,對于視頻產業及其應用領域有比較重要的應用價值,基于對場景的理解有助于我們的系統更好地對于視頻中的信息進行理解和應用。

海康威視從成立之初就專注于計算機視覺領域技術的研發,13年就開始深度學習的技術布局,實現了一整套的深度學習訓練框架,并探索了深度神經網絡的優化算法,包括對網絡參數初始化、超參數搜索、正則項、損失函數、流形優化理論等的研究。

另外,我們還從信號調制方向切入,圍繞信號在網絡前向反向傳輸中的保范性(norm-preserving),探索深層網絡優化的可行性與新方向。
評論