本發(fā)明的實施例一般而言涉及收集數(shù)據(jù)集的系統(tǒng)和方法,以提供通用的、一致的、以人為中心的人體的圖像數(shù)據(jù)集,人體必須包括頭部。所獲得的數(shù)據(jù)集可以被用于執(zhí)行各種以人為中心的任務(wù),例如,用于在不受約束的環(huán)境中訓(xùn)練和評估商業(yè)機器學習(ml)和人工智能(ai)系統(tǒng)。
背景技術(shù):
1、以下背景信息可能會呈現(xiàn)現(xiàn)有技術(shù)的特定方面的示例(例如,但不限于方案、事實或常識),雖然這些示例有望有助于進一步教育讀者了解現(xiàn)有技術(shù)的其它方面,但不應(yīng)被解釋為將本發(fā)明或其任何實施例限制為其中陳述或暗示或由此推斷的任何內(nèi)容。
2、在不受約束的設(shè)置中,無法控制與主體(例如,人口統(tǒng)計信息)、儀器(例如,相機硬件和軟件)和環(huán)境(例如,照明、相機距離)相關(guān)的因素。
3、因此,需要收集以人為中心的圖像的數(shù)據(jù)集,該數(shù)據(jù)集在這三個因素方面盡可能是多樣的,其中所有被注釋的人都已給出書面知情同意。
技術(shù)實現(xiàn)思路
1、本發(fā)明的各方面提供了用于實現(xiàn)圖像數(shù)據(jù)集和收集的技術(shù)的裝置和方法。在一種實施方式中,使用多個圖像(包括人類的圖像)構(gòu)造數(shù)據(jù)集。管理數(shù)據(jù)集的收集、處理、存儲和配置,以提供反映有針對的規(guī)范、準則和度量的期望特點,諸如以表示倫理目標。
2、實施方式中提供的特征可以包括但不限于以下各項中的一項或多項:(1)收集包括人體在內(nèi)的圖像和圖像數(shù)據(jù);(2)收集和創(chuàng)建與圖像數(shù)據(jù)相關(guān)的數(shù)據(jù),諸如關(guān)于人口統(tǒng)計、身體特點、動作、姿勢、環(huán)境、儀器的信息;(3)基于數(shù)據(jù)規(guī)范管理數(shù)據(jù)收集;(4)接受和管理由用戶、供應(yīng)商和自動生成提供的數(shù)據(jù)的注釋;以及(5)收集和管理圖像中所示的人的同意信息。
3、如本文所使用的,術(shù)語“ai”是指任何功能性或其使能技術(shù),其執(zhí)行人們認為是智能的用于各種目的的信息處理,并且通過基于數(shù)據(jù)的ml或通過一些方法中提取出的規(guī)則或知識來實施。
4、本發(fā)明的實施例提供了一種計算機實現(xiàn)的用于構(gòu)造人類圖像的數(shù)據(jù)集的方法,包括:收集來自多個多樣的人的多個圖像;提供第一圖形用戶界面,要求用戶提供主體數(shù)據(jù)、儀器數(shù)據(jù)和環(huán)境數(shù)據(jù)作為多個圖像中的每個圖像的元數(shù)據(jù);以及將多個圖像存儲為數(shù)據(jù)集,其中主體數(shù)據(jù)包括人口統(tǒng)計信息、身體特點、動作和頭部姿勢。
5、本發(fā)明的實施例提供了一種在不受約束的設(shè)置中訓(xùn)練或評估商業(yè)機器學習或人工智能系統(tǒng)的計算機實現(xiàn)的方法,包括:通過以下操作創(chuàng)建人類圖像的多樣化數(shù)據(jù)集:從多個多樣的人收集多個圖像;提供第一圖形用戶界面,要求用戶提供主體數(shù)據(jù)、儀器數(shù)據(jù)和環(huán)境數(shù)據(jù)作為多個圖像中的每個圖像的元數(shù)據(jù);提供第二圖形用戶界面,要求用戶在多個圖像中的每個圖像中主體的面部周圍形成邊界框;提供第三圖形用戶界面,要求注釋者為多個圖像中的每個圖像提供注釋;將多個圖像存儲為數(shù)據(jù)集;以及通過在機器學習或人工智能系統(tǒng)中使用多樣化數(shù)據(jù)集來訓(xùn)練或評估機器學習或人工智能系統(tǒng)。
6、本發(fā)明的實施例提供了一種用于構(gòu)造人類圖像的數(shù)據(jù)集的計算機實現(xiàn)的方法,包括:從多個多樣的人收集多個圖像;提供第一圖形用戶界面,要求用戶為多個圖像中的每個圖像提供主體數(shù)據(jù)、儀器數(shù)據(jù)和環(huán)境數(shù)據(jù)作為元數(shù)據(jù);提供第二圖形用戶界面,要求用戶在多個圖像中的每個圖像中主體的面部周圍形成邊界框;提供第三圖形用戶界面,要求注釋者為多個圖像中的每個圖像提供注釋;以及將多個圖像存儲為數(shù)據(jù)集,其中主體數(shù)據(jù)包括人口統(tǒng)計信息、身體特點、動作和頭部姿勢。
7、參考以下附圖、描述和權(quán)利要求,將更好地理解本發(fā)明的這些和其它特征、方面和優(yōu)點。
1.一種用于構(gòu)造人類圖像的數(shù)據(jù)集的計算機實現(xiàn)的方法,包括:
2.如權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括提供第二圖形用戶界面,允許用戶在所述多個圖像中的每個圖像中主體的面部周圍形成邊界框。
3.如權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括提供第三圖形用戶界面,允許注釋者為所述多個圖像中的每個圖像提供注釋。
4.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述多個圖像包括來自所述多個多樣的人中的每個人的4至10個圖像。
5.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中所述多個多樣的人中的每個人的所述多個圖像中的每個圖像至少相隔一天被捕獲。
6.如權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括從所述多個多樣的人中的每個人獲得明確的知情同意,其中明確的知情同意被提供作為用于所述多個圖像中的每個圖像的元數(shù)據(jù)。
7.如權(quán)利要求3所述的計算機實現(xiàn)的方法,其中注釋者在年齡、代詞和血統(tǒng)方面是人口統(tǒng)計學上多樣的。
8.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中注釋包括所述多個圖像中的每個圖像中主體身體的每個部分的分割標簽。
9.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中身體特點包括年齡、代詞、國籍、居住地、血統(tǒng)和殘疾;身體特點包括膚色、眼睛顏色、頭發(fā)類型、頭發(fā)樣式、頭發(fā)顏色、面部毛發(fā)樣式、面部毛發(fā)顏色、身高、體重和面部標記。
10.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中動作包括身體姿勢、主體-客體交互和主體-主體交互。
11.如權(quán)利要求1所述的計算機實現(xiàn)的方法,其中環(huán)境數(shù)據(jù)包括照明、場景、相機位置和相機距離。
12.如權(quán)利要求1所述的計算機實現(xiàn)的方法,還包括提供輸出,該輸出說明數(shù)據(jù)集相對于主體數(shù)據(jù)、儀器數(shù)據(jù)和環(huán)境數(shù)據(jù)中的每一個的多樣性。
13.一種用于在不受約束的設(shè)置中訓(xùn)練或評估商業(yè)機器學習或人工智能系統(tǒng)的計算機實現(xiàn)的方法,該方法包括:
14.如權(quán)利要求13所述的計算機實現(xiàn)的方法,其中機器學習或人工智能系統(tǒng)可操作用于身體和面部檢測、身體和面部特征點檢測、身體和面部解析、面部對準、面部識別、面部核實、圖像編輯和圖像合成中的一個或多個。
15.如權(quán)利要求13所述的計算機實現(xiàn)的方法,其中:
16.如權(quán)利要求13所述的計算機實現(xiàn)的方法,還包括從所述多個多樣的人中的每個人獲得明確的知情同意,其中明確的知情同意被提供作為用于所述多個圖像中的每個圖像的元數(shù)據(jù)。
17.如權(quán)利要求13所述的計算機實現(xiàn)的方法,其中注釋者在年齡、代詞和血統(tǒng)方面是人口統(tǒng)計學上多樣的。
18.如權(quán)利要求13所述的計算機實現(xiàn)的方法,其中:
19.一種用于構(gòu)造人類圖像的數(shù)據(jù)集的計算機實現(xiàn)的方法,包括:
20.如權(quán)利要求19所述的計算機實現(xiàn)的方法,其中: