數據集輕松按需搜索,這個工具有近2000個圖像數據集,可免費獲取
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
每個研究機器學習項目的人,似乎都有這樣的痛苦。那就是從學術網站、GitHub上尋找到合適的數據集。
但現在,有這樣一個網站可以幫你搞定,讓AI開發變得更加簡單易行。

這個項目名叫BIFROST,一個數據集搜索工具,里面共有1899個圖像數據集,還專門設置分類,比如Humans、Geospatial、Autonomous Cars等。
一鍵搜索,免費獲取,直接鏈接到原始數據庫,幫你快速找到合適的數據集。研究團隊來自新加坡,Reddit上17小時熱度200+。

使用說明
話不多說,我們就直接來上這個網站來試試~
正如剛才所看到的,這個工具是按任務、應用、類別、標簽或格式進行分類。

根據「類別」,這個網站共分為18類,比如Humans、Geospatial、Autonomous Cars、Retail、3D等。

向左滑動,選擇你需要的類別,一鍵即可出結果,我們以3D為例,然后就呈現這樣的頁面。

若以「Humans」為例,界面是醬紫的。

我們也看到,這是按照精選進行排序。除此之外,你還可以選擇「最新」、「最多標簽數」、「數據集大小」、「圖片數量最多」這些分類。

除了「快速檢索」之外,還可以根據開發人員的具體需要來進行搜索。

可以選擇這些「限定」:任務類型,標簽格式,最小圖像數量。
其中任務類型主要包括,圖像分割,目標檢測、圖像分類、姿態估計、視覺推理、3D重建、視頻分類。
標簽格式包括,YOLO、PASCAL、COCO以及Segmentation。
數據集
以COCO為例,這是一個適用于目標檢測、圖像分割和字幕大型數據集。
界面是這樣的:

主要分為圖像示例、數據集簡介、特性、類別分布四個板塊。
在簡介部分,可以看到這個數據集的研究團隊、一句話介紹,以及通過CC4.0協議的部分,還直接鏈接到原始數據庫和論文地址。
CC4.0協議是一種知識共享許可協議,是一種允許他人分發作品的公共版權許可,還有一種類似的,MIT協議。
作者此次選擇的近2000個數據集都通過了這兩項協議的。所以網站并不直接管理這些數據集,它只是一個數據集的「搬運工」。

在「類別分布」這一板塊,首先會提示,沒有標簽、標簽過多的圖像數量。

然后根據不同的標簽類別,顯示各自的圖像數量分布。

這個項目的負責人名叫Charles Wong ,來自新加坡,目前是Bifrost的CEO。
本科就讀于新加坡科技設計大學,曾參與MIT Global Leadership Program。
接下來,他們的工作將主要集中在這幾個方面:
- 將網站中的每一個數據集都進行全面分析
- 改進搜索方式
- 實現用戶上傳和分享自己的數據集
- 生成自己的合成數據集

「Why is our data better?」
就像在網站上介紹到的那樣,讓你快速、高精度、高準確度地尋找到合適的圖像數據集。
感興趣的朋友,可以戳下方鏈接去試試哦~
網站地址:https://datasets.bifrost.ai/



























