禾賽科技攜手Scale AI發布開源數據集
自動駕駛的發展離不開數據。近日,禾賽科技與Scale AI聯合發布了自動駕駛開源數據集 -- PandaSet。PandaSet采用禾賽科技先進的激光雷達進行數據采集,并通過Scale AI強大的標注平臺進行精準的數據標注,為從事自動駕駛研發的公司、機構和個人,提供了內容豐富、目標物密集的高質量免費數據。
本文引用地址:http://www.j9360.com/article/202007/415391.htm盤點全球人工智能數據平臺,Scale AI是當之無愧的領軍者。這家由華裔青年Alexandr Wang在19歲時參與創立的公司,自成立以來一直深受投資者的青睞,僅用3年時間就成為了市值超10億美元的獨角獸企業。依托強大的技術實力,Scale AI結合人工標注、智能工具和標注質量保證體系,推出了面向傳感器數據、圖像、視頻和文本的一系列標注產品,為人工智能應用提供了一流的培訓和驗證數據。而作為全球領先的激光雷達制造商,禾賽科技則憑借自主研發的微振鏡和波形加密技術,始終引領傳感器創新的發展方向,目前已布局400多項專利,客戶遍布全球21個國家和地區的70座城市。此次禾賽科技與Scale AI攜手打造PandaSet開源數據集,無疑為自動駕駛行業的發展注入了新的活力。
在自動駕駛的發展進程中,數據是處于核心地位的生產資料,代表著一家公司的核心競爭力,也決定著自動駕駛能否實現安全和穩定。以往,自動駕駛“玩家”對自己的數據普遍呈現出敏感的姿態,而隨著自動駕駛的實現難度越來越浮出水面,大家也逐漸認識到單打獨斗絕對不行,開放合作才是正途,于是開源數據集成為了很多自動駕駛公司的選擇。
截至目前,Waymo、Cruise、百度、Uber、Lyft、Aptiv等全球領先的自動駕駛公司都已陸續開源了自己的數據集,對促進自動駕駛整體研發進程起到了舉足輕重的作用。不過,開源數據集并不是自動駕駛公司的“專利”,傳感器企業同樣有能力在這一領域大顯身手,甚至可能比自動駕駛公司做得更好。禾賽科技與Scale AI聯合發布PandaSet就是很好的例子,它為自動駕駛行業鏈條上的很多企業開辟了嶄新的發展思路。
PandaSet:疫情期間的一場及時雨
高質量標注數據是訓練深度學習算法的“燃料”。目前,全球的自動駕駛公司所使用的深度學習算法,基本都需要使用標注數據來進行訓練——只有通過不斷學習標注數據,深度學習算法模型才能夠幫助自動駕駛汽車更好地識別障礙物。而除了自動駕駛公司,其他自動駕駛算法開發者,例如學生、學術機構等,同樣對高質量標注數據有著持續、強烈的需求。
然而,今年以來,受新冠肺炎疫情沖擊,一大批自動駕駛公司不得不暫停路測工作,直接導致可用路測數據的減少甚至斷供,對自動駕駛深度學習算法模型的訓練造成了嚴重影響。 在這樣的背景下,近日禾賽科技與Scale AI聯合發布了PandaSet開源數據集,為眾多自動駕駛算法開發者帶來了一場及時雨。
PandaSet數據集采用2款激光雷達和6個攝像頭進行數據采集,包含超過16000幀激光雷達點云和超過48000張照片,共100多個場景。除了激光雷達點云和照片外,數據集還包含GPS(全球定位系統)/IMU(慣性傳感器)、標定參數、標注、SDK(軟件開發工具包)等信息。
PandaSet數據采集的兩款激光雷達Pandar64和PandarGT,以及配置6個攝像頭
尤其值得關注的是,PandaSet數據集對100多個場景的每個場景都進行了目標檢測,共檢測28類物體;大多數場景還進行了語義分割,共37種語義標簽。目標檢測采用傳統的長方體標注,例如,自行車和汽車可以用長方體線框框出來。而對于激光雷達點云數據,并非每個點都隸屬于某一目標物,因此數據集還通過點云分割工具精確標注了每個點的語義標簽。如此細膩的標注,也為深度學習算法模型提供了絕佳的數據資料。
PandaSet數據集還通過點云分割工具精確標注了每個點的語義標簽
對于一個自動駕駛數據集,場景的多樣性和復雜性是衡量其優劣程度的重要標準之一。PandaSet數據集中的所有數據均采集自舊金山的城區道路和硅谷的郊區道路,這些道路涵蓋了汽車、自行車、交通燈、行人、建筑物等各種各樣的交通信息,是對自動駕駛挑戰性最大的一類應用場景。此外,PandaSet數據集的數據覆蓋了白天和黑夜,也讓其具備了很強的適用性。
別被不可靠的數據集帶溝里
對于自動駕駛研發者,如果想要訓練出優秀的深度學習算法模型,就必須在選擇數據集時格外擦亮雙眼。因為一些不可靠的數據集,非但不能很好地訓練算法,反而會給算法帶來巨大危害,起到適得其反的作用。那么,什么樣的數據集是不可靠的呢?簡單來說,不準確、不完整的數據集就是不可靠的數據集。
一些不準確、不完整的數據集正在把自動駕駛汽車帶溝里,其中也包括知名數據集。一個被廣泛使用的、包含15000張圖片的開源數據集,在該數據集中發現了數千張缺少標注的圖片,其中有數百張甚至沒有任何標注,但這些圖片中確實有小汽車、卡車、自行車、街燈或行人。不僅如此,該數據集還存在虛假標注、復制粘貼的情況,有些標注框的體積明顯超標。
“成千上萬的學生都在使用開源數據集支持自己的自動駕駛項目,但質量堪憂的數據集極易誤導算法模型,從而導致自動駕駛汽車做出糟糕決策,這對于自動駕駛的研發是災難性的。”
事實上,數據集的準確性和完整性與數據采集、數據標注的流程密切相關。例如,在數據采集中,如果采集車搭載的傳感器性能很差,那么采集到的數據質量一定也會很差,直接影響后續的標注及最終的使用。而在數據標注中,如果沒有一套完整的標注方法,就很容易出現各種錯誤標記,如:未標出畫面中存在的物體,反而標出不存在的物體,或者標注框沒有貼合實際物體,甚至與實際物體發生大幅偏移。
對于如何打造一個高質量數據集,PandaSet是一個優秀案例。在數據采集中,PandaSet用于數據采集的兩款激光雷達均為業內領先產品,這兩款激光雷達由禾賽科技自主研發,一款是具有圖像級分辨率的前向激光雷達PandarGT,另一款是64線機械旋轉式激光雷達Pandar64,保證采集到的點云足夠準確、清晰、細膩 -- 世界上現有的開源數據集普遍采集較早,還鮮有使用Pandar64和PandarGT這樣的高性能激光雷達來采集數據。
此外,在數據標注中,負責該部分的Scale AI作為標注領域的翹楚,具有一套非常嚴格的標注體系,包括怎么標注、怎么檢查、怎么復核、怎么對不合格的標注進行重新標注、怎么管理和考評負責標注的員工等。在整個標注流程中,Scale AI以人工作業為主,結合計算機輔助,充分保證了數據標注的完整性和準確性。
開源數據集是大勢所趨
作為自動駕駛行業的領頭羊,Waymo也在去年發布了自己的開源數據集Waymo Open Dataset。該數據集包含20萬幀畫面、1200萬條3D標注和120萬條2D注釋。Waymo希望自家的數據集能夠幫助研發者在2D和3D感知、場景理解、行為預測等方面取得進展,從而不斷提高自動駕駛汽車的性能,并促進計算機視覺和機器人等其他相關領域的應用。
在Waymo發布開源數據集之前,Cruise、百度、Uber、Aptiv等處于領先梯隊的自動駕駛公司都已發布了自己的開源數據集。而在Waymo發布開源數據集之后,又有多家公司發布了自動駕駛開源數據集,例如Lyft、福特、奧迪等。
通觀自動駕駛開源數據集的發展歷程可見,在PandaSet發布之前,開源數據集基本都是自動駕駛公司的“專利”。而禾賽科技的“入局”,則以傳感器企業的特殊視角為這一領域添上了一抹亮色,同時也讓人們看到了傳感器企業在自動駕駛賽場上的更多可能性。
事實上,相比于那些自動駕駛“頭部玩家”,傳感器企業在開源數據集中的表現并不遜色。以PandaSet為例,該數據集就擁有其他很多數據集沒有的優勢:采集數據的傳感器業內頂尖,采集場景多樣化,采集信息密度高,數據標注詳盡準確并進行了精細的語義分割。還有非常重要的一點就是,PandaSet面向學術及商業應用均完全開源免費——不像很多開源數據集其實是有商用限制的。不過,PandaSet也有其局限性,例如:總的場景量和數據量均不夠大,缺少不同天氣狀況下的數據,缺少短距激光雷達數據。
當然,PandaSet對于禾賽科技和Scale AI都只是一個開端而已。未來,兩家公司將繼續深入合作,采用更高線數的激光雷達以及PandarQT等短距激光雷達,采集更多場景、更多數據,并進一步優化標注方法、標注流程,讓數據集更豐富、全面,讓細節更完美。
禾賽科技表示,參與開源數據集是一個非常正確的決定,不僅因為這是同行沒做過的事,也因為可以從中取得很多收獲。
“一方面,PandaSet數據集為自動駕駛行業豐富了數據,讓研發者有更多、更全面、更高質量的數據可以應用和參考,特別是對那些缺少資金和渠道來獲取可靠數據集的學生們,幫助巨大。另一方面,數據集也讓更多人看到了禾賽激光雷達的表現,有助于吸引客戶購買我們的產品。此外,數據采集過程涉及采集車的搭建、不同傳感器的融合、多傳感器之間的標定……這些都是自動駕駛公司做的事,對禾賽團隊是前所未有的考驗,也讓我們在實踐中大大提升了自己的能力。”
就目前而言,開源數據集是大勢所趨,是利人利己的一件事。因為自動駕駛數據采集是一個周期長、地域廣的超大型項目,如果各家企業都能將自己的數據進行共享,并吸引更多企業和研發者應用并補充數據集,就可以為整個行業大大縮減數據采集時間,從而促進自動駕駛早日實現商業化落地。而從企業自身出發,如果自家的數據或代碼被廣泛采用,甚至連競爭對手也大量采用,就相當于在業內樹立起了一個非正式標準,對企業地位提升和長遠發展意義重大。
評論