本發(fā)明涉及混合智能技術(shù)領(lǐng)域,具體涉及一種基于相機(jī)單元陣列的混合智能研究系統(tǒng)及利用該系統(tǒng)控制動(dòng)物機(jī)器人的方法。
背景技術(shù):
人工智能經(jīng)過(guò)了半個(gè)多世紀(jì)的研究,發(fā)現(xiàn)機(jī)器在搜索、計(jì)算、存儲(chǔ)、優(yōu)化等較為低層次方面與人類相比,具有巨大的優(yōu)勢(shì),然而,在更高層次的感知、推理、歸納和學(xué)習(xí)等方面尚無(wú)法與人類相比。為了使機(jī)器智能與人類智能發(fā)揮各自的優(yōu)勢(shì),混合智能這個(gè)概念在2012年左右被提出。即,將智能研究擴(kuò)展到生物智能和機(jī)器智能的雙向互通,融合各自所擅長(zhǎng)的方面,創(chuàng)造出性能更強(qiáng)的智能混合體?;旌现悄苁且陨镏悄芎蜋C(jī)器智能的深度融合為目標(biāo),通過(guò)相互連接通道,建立兼具生物智能體的環(huán)境感知、記憶、推理、學(xué)習(xí)能力和機(jī)器智能體的信息整合、搜索、計(jì)算能力的新型智能形式。
比傳統(tǒng)的仿生學(xué)或生物機(jī)器人更進(jìn)一步,混合智能系統(tǒng)的目的,是要構(gòu)建一個(gè)雙向閉環(huán)的,既包含生物體,又包含人工智能的有機(jī)系統(tǒng)。其中,生物體可以接手從人工智能體的傳來(lái)的信息,人工智能體亦可讀取生物體的信息,兩者信息無(wú)縫交互。同時(shí),生物體對(duì)人工智能體的改變具有實(shí)時(shí)反饋,反之亦然。混合智能系統(tǒng)不僅僅是生物與機(jī)械的融合體,而是同時(shí)融合生物、機(jī)械、電子、信息等多領(lǐng)域的有機(jī)整體,實(shí)現(xiàn)系統(tǒng)的行為、感知、認(rèn)知等能力的增強(qiáng)。這一探索有望為神經(jīng)康復(fù)等領(lǐng)域提供新的研究思路,在殘障康復(fù)、搶險(xiǎn)救災(zāi)、國(guó)防安保等領(lǐng)域具有廣闊的應(yīng)用前景。
基于腦機(jī)接口技術(shù)的動(dòng)物機(jī)器人是混合智能研究中的一個(gè)熱門方向。動(dòng)物機(jī)器人是以動(dòng)物為載體,利用腦機(jī)接口技術(shù)構(gòu)建的動(dòng)物機(jī)器混合系統(tǒng)。與傳統(tǒng)機(jī)械機(jī)器人相比,結(jié)合了動(dòng)物生理優(yōu)勢(shì)的動(dòng)物機(jī)器人,大大簡(jiǎn)化了機(jī)械機(jī)器人在機(jī)械設(shè)計(jì)與實(shí)現(xiàn)中的各種問(wèn)題。同時(shí),利用動(dòng)物與生俱來(lái)的靈活性、環(huán)境適應(yīng)性以及自主決策等多個(gè)方面的優(yōu)勢(shì),使得其較傳統(tǒng)機(jī)械機(jī)器人更加適合某些特殊環(huán)境中的復(fù)雜任務(wù)。將最新的人工智能算法引入傳統(tǒng)的動(dòng)物機(jī)器人控制中,將使得動(dòng)物機(jī)器人這一優(yōu)勢(shì)能夠得到更好的發(fā)揮,同時(shí),在于生物體交互的過(guò)程中,使得計(jì)算機(jī)能夠?qū)ι矬w進(jìn)行更加深入的理解。
現(xiàn)階段的混合智能研究系統(tǒng)或是動(dòng)物機(jī)器人控制系統(tǒng)中,多是實(shí)驗(yàn)人員利用原有動(dòng)物行為分析系統(tǒng)在計(jì)算機(jī)屏幕上展示的動(dòng)物機(jī)器人實(shí)時(shí)的行為視頻作為控制依據(jù),手工或是根據(jù)簡(jiǎn)單的既定規(guī)則操作無(wú)線微型刺激器,形成閉環(huán)控制,進(jìn)而探索混合智能體在環(huán)境感知,記憶推理等方面的能力。這套系統(tǒng)所具有的問(wèn)題有:控制實(shí)時(shí)性不強(qiáng),行為分析較為粗糙,分析與控制受主觀因素影響較大等。同時(shí),為了探索生物體與人工智能結(jié)合而成的混合智能體的能力上限,現(xiàn)階段行為實(shí)驗(yàn)中通常所用的較小的實(shí)驗(yàn)場(chǎng)景已經(jīng)無(wú)法滿足需求,針對(duì)大型實(shí)驗(yàn)場(chǎng)景的可擴(kuò)展行為分析或是混合智能研究系統(tǒng),截止目前尚未有報(bào)導(dǎo)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于相機(jī)單元陣列的混合智能研究系統(tǒng),實(shí)現(xiàn)大范圍實(shí)驗(yàn)場(chǎng)景的圖像采集及動(dòng)物機(jī)器人精細(xì)行為識(shí)別,解決了現(xiàn)今混合智能研究領(lǐng)域動(dòng)物精細(xì)行為采集與準(zhǔn)確實(shí)時(shí)控制無(wú)法兼得的問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于相機(jī)單元陣列的混合智能研究系統(tǒng),包括:
動(dòng)物機(jī)器人及其實(shí)驗(yàn)場(chǎng)景;
若干陣列排布的圖像采集單元,用于實(shí)時(shí)采集具有動(dòng)物機(jī)器人實(shí)驗(yàn)場(chǎng)景的圖像;
圖像處理器,將所述圖像拼接,獲得全局圖像,將僅包含動(dòng)物機(jī)器人的前景圖像從所述全局圖像中分割出來(lái),從所述前景圖像中提取動(dòng)物機(jī)器人的形態(tài)學(xué)特征;
刺激指令生成及輸出單元,依據(jù)動(dòng)物機(jī)器人當(dāng)前的行為狀態(tài),利用預(yù)訓(xùn)練模型生成刺激指令;
負(fù)載在動(dòng)物機(jī)器人上的微型無(wú)線電子背包,接收所述刺激指令,對(duì)動(dòng)物機(jī)器人進(jìn)行微電刺激。
本發(fā)明的混合智能研究系統(tǒng),通過(guò)圖像采集單元實(shí)時(shí)采集動(dòng)物機(jī)器人原始的視頻行為數(shù)據(jù),并對(duì)原始的視頻行為數(shù)據(jù)進(jìn)行一系列處理,提取行為特征,再利用提取識(shí)別到的特征生成相應(yīng)的刺激指令,并轉(zhuǎn)換成相應(yīng)的刺激參數(shù),發(fā)送給動(dòng)物機(jī)器人負(fù)載的微型無(wú)線電子背包,對(duì)動(dòng)物機(jī)器人進(jìn)行刺激,動(dòng)物機(jī)器人作出響應(yīng)動(dòng)作,同時(shí)圖像采集單元采集此刻動(dòng)物機(jī)器人視頻行為數(shù)據(jù),重復(fù)上述的處理過(guò)程,并發(fā)送刺激參數(shù),以達(dá)到與動(dòng)物機(jī)器人交互的目的。
所述圖像采集單元為相機(jī),可選用普通網(wǎng)絡(luò)攝像頭、高速攝像機(jī)或紅外攝像機(jī),相機(jī)所使用鏡頭的視角由相機(jī)單元成像面與實(shí)驗(yàn)場(chǎng)景底面的距離以及相機(jī)陣列的安裝密度共同決定。作為優(yōu)選,所述圖像采集單元以m×n的矩陣形式排布,其中m、n為2~8。
所述圖像處理器包括:
圖像矯正模塊,對(duì)采集的原始圖像進(jìn)行矯正和拉直;
圖像拼接模塊,對(duì)矯正后的圖像按物理排列順序進(jìn)行拼接及邊緣融合,得到全局圖像;
圖像分割模塊,對(duì)全局圖像進(jìn)行前/后景分割,獲得僅包含動(dòng)物機(jī)器人的前景圖像;
特征提取模塊,包括靜態(tài)特征提取模塊和動(dòng)態(tài)特征提取模塊,所述靜態(tài)特征包括動(dòng)物機(jī)器人的輪廓、面積、骨架線、重心坐標(biāo)、面部朝向;所述動(dòng)態(tài)特征包括運(yùn)動(dòng)速度、轉(zhuǎn)動(dòng)速度、頭部角速度。
以上各個(gè)模塊之間為前后銜接關(guān)系,按照矯正、拼接、分割和特征提取的順序?qū)Σ杉脑紙D像進(jìn)行處理,得出動(dòng)物機(jī)器人當(dāng)前的行為特征。
所述刺激指令生成及輸出單元包括:
特征識(shí)別模塊,對(duì)提取的形態(tài)學(xué)特征進(jìn)行識(shí)別,判斷動(dòng)物機(jī)器人當(dāng)前的行為狀態(tài);
指令生成模塊,以行為狀態(tài)進(jìn)行輸入,通過(guò)預(yù)訓(xùn)練模型算出刺激指令,并輸出;
指令轉(zhuǎn)換模塊,根據(jù)刺激指令生成相應(yīng)的刺激參數(shù);
指令傳輸模塊,通過(guò)無(wú)線通信方式,將刺激參數(shù)發(fā)送到微型無(wú)線電子背包。
所述特征識(shí)別模塊為預(yù)訓(xùn)練好的分類器;
所述指令生成模塊為預(yù)訓(xùn)練好的圖模型或神經(jīng)網(wǎng)絡(luò)。
作為優(yōu)選,所述特征識(shí)別模塊和指令生成模塊利用深度強(qiáng)化學(xué)習(xí)算法一步完成。僅用一個(gè)神經(jīng)網(wǎng)絡(luò)代替判斷動(dòng)物機(jī)器人當(dāng)前的行為狀態(tài)中所使用的傳統(tǒng)分類器以及使用預(yù)訓(xùn)練模型輸出刺激指令這兩部分的功能,實(shí)現(xiàn)端到端的控制。
所述強(qiáng)化學(xué)習(xí)算法一般交互框架為:代表算法的智能體利用環(huán)境的輸入狀態(tài)s及環(huán)境給出的獎(jiǎng)勵(lì)值r(注:獎(jiǎng)勵(lì)值為一個(gè)實(shí)數(shù)),訓(xùn)練策略π;策略指的是在算法接收到狀態(tài)s,獲得獎(jiǎng)勵(lì)r的情況下,對(duì)下一步做出的動(dòng)作a的選擇。強(qiáng)化學(xué)習(xí)算法的目的是,利用與環(huán)境的交互,學(xué)習(xí)到最優(yōu)策略π*,使得在每個(gè)任務(wù)回合中,獲得盡可能高的累積獎(jiǎng)勵(lì)值。
作為優(yōu)選,所述智能體所采用的算法為actor-critic。
上述的圖像處理器和刺激指令生成及輸出單元可以為一個(gè)硬件系統(tǒng),包括各個(gè)硬件功能模塊;也可以通過(guò)軟件和硬件相結(jié)合,比如為一臺(tái)運(yùn)行有各種功能軟件的計(jì)算機(jī),進(jìn)一步地,該計(jì)算機(jī)還應(yīng)包括各種信號(hào)無(wú)線收發(fā)設(shè)備(如藍(lán)牙發(fā)送和接收設(shè)備)。
本發(fā)明還提供了一種基于混合智能研究系統(tǒng)的動(dòng)物機(jī)器人控制方法,包括以下步驟:
(1)利用若干陣列排布的圖像采集單元,實(shí)時(shí)采集具有動(dòng)物機(jī)器人實(shí)驗(yàn)場(chǎng)景的圖像;
(2)對(duì)采集的原始圖像進(jìn)行矯正、拼接獲得全局圖像,再將僅包含動(dòng)物機(jī)器人的前景圖像從所述全局圖像中分割出來(lái),從所述前景圖像中提取動(dòng)物機(jī)器人的形態(tài)學(xué)特征;所述形態(tài)學(xué)特征包括靜態(tài)特征和動(dòng)態(tài)特征,所述靜態(tài)特征包括動(dòng)物機(jī)器人的輪廓、面積、骨架線、重心坐標(biāo)、面部朝向;所述動(dòng)態(tài)特征包括運(yùn)動(dòng)速度、轉(zhuǎn)動(dòng)速度、頭部角速度;
(3)對(duì)提取的形態(tài)學(xué)特征進(jìn)行識(shí)別,判斷動(dòng)物機(jī)器人當(dāng)前的行為狀態(tài),通過(guò)預(yù)訓(xùn)練模型計(jì)算并輸出刺激指令;
(4)負(fù)載在動(dòng)物機(jī)器人上的微型無(wú)線電子背包接收所述刺激指令,對(duì)動(dòng)物機(jī)器人進(jìn)行微電刺激。
步驟(2)中,所述矯正,包括:
(a)利用相機(jī)矯正算法,獲得各個(gè)圖像采集單元的矯正參數(shù);
作為優(yōu)選,利用zhengyouzhang的相機(jī)矯正算法,獲得矯正參數(shù),通常情況下,得到的矯正參數(shù)為一個(gè)3×3的相機(jī)內(nèi)參矩陣,以及1×5的相機(jī)畸變參數(shù)矩陣。
(b)利用矯正參數(shù)對(duì)采集的原始圖像進(jìn)行矯正和重映射,獲得矯正圖像。
矯正和重映射采用opencv開源庫(kù)中所提供的的矯正和重映射方法。
所述拼接,包括:
(ⅰ)利用sift特征提取方法提取矯正圖像的特征點(diǎn),計(jì)算相鄰兩幅矯正圖像中任意兩個(gè)特征點(diǎn)之間的歐式距離;
sift(scale-invariantfeaturetransform)特征點(diǎn)構(gòu)建具體流程為:
利用矯正圖像構(gòu)建尺度空間,利用dog算子檢測(cè)尺度空間中的極值點(diǎn),對(duì)極值點(diǎn)進(jìn)行精確定位,過(guò)濾掉不穩(wěn)定的極值點(diǎn),剩下穩(wěn)定的極值點(diǎn)作為特征點(diǎn),為每一個(gè)特征點(diǎn)計(jì)算特征描述符,分配主方向。
作為優(yōu)選,sift特征提取方法中,尺度金字塔層數(shù)為5~8層,特征描述符的維度為128維。
(ⅱ)利用ransac方法為所有的特征點(diǎn)進(jìn)行兩兩配對(duì),將矯正圖像進(jìn)行旋轉(zhuǎn)平移使得配對(duì)的兩個(gè)特征點(diǎn)重合,再針對(duì)相鄰矯正圖像的重疊部分進(jìn)行邊緣融合處理,獲得全局圖像。
作為優(yōu)選,融合處理采用基于羽化融合的圖像拼接算法。
針對(duì)實(shí)驗(yàn)場(chǎng)景不會(huì)出現(xiàn)劇烈變化的情況,可在實(shí)驗(yàn)前對(duì)場(chǎng)景圖像進(jìn)行預(yù)拼接,得到旋轉(zhuǎn)平移矩陣,在實(shí)驗(yàn)過(guò)程中直接進(jìn)行拼接操作,省去計(jì)算特征點(diǎn)描述符以及特征點(diǎn)匹配的計(jì)算消耗。
整個(gè)算法中插值部分所占時(shí)間超過(guò)總時(shí)間的50%,即在計(jì)算重映射矩陣后,需要將單個(gè)攝像頭采集到的原圖插值到全局圖像所屬的那部分大小。為了縮短算法占用的時(shí)間,本發(fā)明做了進(jìn)一步優(yōu)化,1)重映射的插值算法為雙線性插值算法,以加快插值計(jì)算。2)將全局圖像進(jìn)行劃區(qū)塊,根據(jù)動(dòng)物機(jī)器人在上一幀全局圖像中所處的位置,判斷所處的區(qū)塊編號(hào),在這一幀的計(jì)算中僅對(duì)該區(qū)塊進(jìn)行插值處理,其余區(qū)塊利用上一幀緩存的背景圖像進(jìn)行更新。
步驟(2)中,采用自適應(yīng)混合高斯背景差分方法對(duì)全局圖像進(jìn)行前/背景分割,得到僅包含動(dòng)物機(jī)器人的二值圖像。
a)利用上述拼接融合得到的全局圖像ig,采用自適應(yīng)混合高斯背景差分方法,得到前/背景分割后的二值圖像ib;
所述自適應(yīng)混合高斯背景差分方法,具體如下:
ⅰ假設(shè)全局圖像ig中每個(gè)像素僅屬于兩種類別(前景像素與背景像素)中的一種,t時(shí)刻觀測(cè)到任意一個(gè)像素的像素值為xt的概率可以表示為:
ⅱ當(dāng)在t時(shí)刻采集導(dǎo)新的一幅全局圖像后,針對(duì)該圖像的每個(gè)像素,均做以下操作:
將該點(diǎn)的像素值xt同當(dāng)前k個(gè)高斯成分按下式進(jìn)行比較,直到找到匹配該點(diǎn)像素值的分布成分,即同該成分的均值偏差在ρ倍標(biāo)準(zhǔn)差內(nèi):
|xt-μi,t|≤ρσ
作為優(yōu)選,α設(shè)置為2.5。
若匹配的成分屬于背景成分,則該像素屬于背景,否則屬于前景;
ⅲ各個(gè)成分的參數(shù)ωi,t按照以下公式進(jìn)行更新:
ωi,t=ωi,t-1+α(oi,t-ωi,t-1)+αct
其中,α為學(xué)習(xí)率,ct為先驗(yàn)參數(shù),oi,t為零一二值一維向量,維度與t-1時(shí)刻高斯成分的數(shù)量相同,且對(duì)應(yīng)該像素,其屬于的高斯成分編號(hào)處該向量值為1,其余部分值為0。
b)對(duì)二值圖像ib做開操作,并計(jì)算像素值大于0連通域所包含的像素點(diǎn)個(gè)數(shù);對(duì)所有連通域?qū)?yīng)的像素點(diǎn)個(gè)數(shù)進(jìn)行降序排序,保留超過(guò)給定閾值的像素個(gè)數(shù)最大對(duì)應(yīng)得連通域(針對(duì)僅有一個(gè)動(dòng)物機(jī)器人的情況;若實(shí)驗(yàn)中有n只動(dòng)物機(jī)器人,則可保留前n大個(gè)連通域),其余連通域內(nèi)的像素點(diǎn)均賦值為0,得到僅包含動(dòng)物機(jī)器人的二值圖像ibr;保留的連通域內(nèi)像素值將被賦值為255;
作為優(yōu)選,保留連通域像素個(gè)數(shù)閾值設(shè)置應(yīng)根據(jù)動(dòng)物機(jī)器人投影面積與實(shí)驗(yàn)場(chǎng)景比例及全局圖像ig分辨率進(jìn)行設(shè)定。
當(dāng)動(dòng)物機(jī)器人為大鼠,提取其形態(tài)學(xué)信息。
1)利用上述的二值圖像ibr,采用canny算子提取邊緣信息,選取最長(zhǎng)的連續(xù)邊緣作為大鼠身體的輪廓;其中canny算子參數(shù)中的核大小應(yīng)按照大鼠投影面積與實(shí)驗(yàn)場(chǎng)景比例及全局圖像ig分辨率進(jìn)行設(shè)定。
2)利用上述二值圖像ibr,計(jì)算前景部分(像素值大于0的區(qū)域)的零階和一階矩,進(jìn)而計(jì)算出大鼠重心;具體計(jì)算公式為:
其中,m00,m01,m10分別為零階距、一階矩的兩個(gè)分量,其的計(jì)算公式為:
m00=∑x∑yp(x,y),m10=∑x∑yxp(x,y),m01=∑x∑yyp(x,y)。
3)利用上述二值圖像ibr,采用zhangandc.y.suen的骨架提取算法,得到大鼠的骨架。
4)對(duì)上述的二值圖像ibr進(jìn)行腐蝕操作,得到去除大鼠尾部的二值圖像ibrb,計(jì)算二值圖像ibrb的前景部分的凸包,遍歷凸包頂點(diǎn),將距離上述的大鼠重心最遠(yuǎn)的頂點(diǎn)標(biāo)記為大鼠鼻尖坐標(biāo)pn;其中腐蝕操作參數(shù):核的大小,應(yīng)設(shè)置為大于等于大鼠尾部半徑所占的像素點(diǎn)數(shù)。
5)以上述大鼠鼻尖坐標(biāo)ph為圓心,在適當(dāng)?shù)陌霃椒秶鷥?nèi)分割上述二值圖像ibrb,得到大鼠頭部區(qū)域hr;計(jì)算大鼠頭部區(qū)域hr的零階及一階矩,得到大鼠頭部區(qū)域重心位置phr,其計(jì)算公式與上述計(jì)算大鼠重心相同,將由大鼠頭部重心phr指向大鼠鼻尖pn的方向作為此時(shí)的大鼠頭部朝向;
6)將上述二值圖像ibr與去除大鼠尾部的二值圖像ibrb做差分處理得到僅包含尾部的差分圖ibt,在該差分圖中尋找最大連通域并判斷其包含像素個(gè)數(shù)是否超過(guò)既定閾值,利用上述提取的大鼠骨架以及差分圖ibt,分割出大鼠尾部骨架部分;遍歷尾部骨架像素點(diǎn),找到距離上述去除大鼠尾部二值圖像ibrb中連通域邊緣最近的點(diǎn),將該點(diǎn)作為大鼠尾部與身體的結(jié)合點(diǎn);沿尾部骨架,找到距離上述尾部與結(jié)合點(diǎn)最遠(yuǎn)的像素點(diǎn),將該點(diǎn)作為大鼠尾尖所在位置。
本發(fā)明將利用上述方法提取出的行為特征輸入預(yù)訓(xùn)練模型生成相應(yīng)的刺激指令,隨后對(duì)動(dòng)物機(jī)器人特定區(qū)域進(jìn)行刺激,所述預(yù)訓(xùn)練模型可以直接利用深度強(qiáng)化學(xué)習(xí)算法一步完成。
本發(fā)明通過(guò)植入位點(diǎn)的不同,可以刺激動(dòng)物機(jī)器人的不同腦區(qū),完成不同的研究。比如僅在mfb(中央前腦束,刺激該區(qū)域能夠釋放多巴胺,令動(dòng)物產(chǎn)生愉悅感)區(qū)域進(jìn)行植入,能夠通過(guò)該系統(tǒng)研究不同程度的獎(jiǎng)勵(lì)對(duì)動(dòng)物機(jī)器人的記憶能力、學(xué)習(xí)能力的影響。又比如同時(shí)在mfb和左右胡須區(qū)進(jìn)行植入(利用胡須觸碰反射),可以進(jìn)行動(dòng)物機(jī)器人的導(dǎo)航研究。
進(jìn)一步的,在微型無(wú)線電子背包中加入腦電采集模塊,其可以在視頻拍攝的同一時(shí)間通過(guò)藍(lán)牙傳送即時(shí)的腦電信號(hào),經(jīng)過(guò)處理,作為另一種形式的特征輸入給指令生成模塊。
本發(fā)明具備的有益效果:
(1)本發(fā)明中若干陣列排布的圖像采集單元實(shí)時(shí)采集圖像,通過(guò)矯正、拼接、分割、特征提取的方法對(duì)圖像進(jìn)行處理,整個(gè)處理過(guò)程耗時(shí)短(如利用六攝像頭陣列,一般臺(tái)式電腦進(jìn)行數(shù)據(jù)處理,時(shí)間約為30ms),利用相機(jī)單元的無(wú)限擴(kuò)展性,為大范圍實(shí)驗(yàn)場(chǎng)景中動(dòng)物機(jī)器人行為信息的實(shí)時(shí)采集提供了有效可行的方法。
(2)本發(fā)明在刺激指令生成及輸出單元引入人工智能算法,僅用一個(gè)神經(jīng)網(wǎng)絡(luò)代替判斷動(dòng)物機(jī)器人當(dāng)前的行為狀態(tài)中所使用的傳統(tǒng)分類器以及使用預(yù)訓(xùn)練模型輸出刺激指令這兩部分的功能,實(shí)現(xiàn)端到端的控制,將使生物體與計(jì)算機(jī)的智能融合層次更進(jìn)一步。
(3)本發(fā)明系統(tǒng)適用于混合智能感認(rèn)知、學(xué)習(xí)、記憶、情感等復(fù)雜行為范式的研究。
附圖說(shuō)明
圖1為發(fā)明的系統(tǒng)硬件部分的結(jié)構(gòu)示意圖。
圖2為發(fā)明的系統(tǒng)中整體信息傳遞流程圖。
圖3為發(fā)明的系統(tǒng)圖像處理分析模塊的流程圖。
圖4為圖像矯正拼接以及大鼠軌跡特征的結(jié)果示意圖。
圖5為大鼠的形態(tài)學(xué)特征提取的結(jié)果示意圖。
圖6為強(qiáng)化學(xué)習(xí)算法一般的交互示意圖
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
實(shí)施例1
如圖1所示,一種基于相機(jī)單元陣列的混合智能研究系統(tǒng),包括負(fù)載有微型無(wú)線電子背包的動(dòng)物機(jī)器人及其實(shí)驗(yàn)場(chǎng)地3,實(shí)驗(yàn)場(chǎng)地大小為1.6m×1.6m,實(shí)驗(yàn)場(chǎng)地水平放置在地面上。
距離地面2m的鋼制框架上放置有平行于實(shí)驗(yàn)場(chǎng)地的平板,平板上固定安裝有呈陣列排布的相機(jī)單元,相機(jī)單元包含6個(gè)相機(jī)1,組成2×3的陣列,其中,3個(gè)一組的相機(jī)間距離為0.5m,兩組間的距離為0.35m。相機(jī)單元中所使用的相機(jī)1,為普通網(wǎng)絡(luò)攝像頭,攝像頭型號(hào)為anchd1080p,分辨率為640×480,鏡頭焦距為4.8mm,相機(jī)通過(guò)usb2.0接口與計(jì)算機(jī)2相連。
4為相機(jī)單元拍攝區(qū)域間的重疊部分,重疊區(qū)域占拍攝區(qū)域的面積比例為20%~30%。
如圖2所示,其為基于本發(fā)明的混合智能研究系統(tǒng)的信息流示意圖。相機(jī)陣列采集得到的實(shí)驗(yàn)動(dòng)物的行為視頻流,作為計(jì)算機(jī)端的圖像處理分析模塊的輸入,圖像處理分析模塊從視頻流中提取出行為特征,將這些行為特征輸入控制指令生成模塊;
控制指令生成模塊識(shí)別傳入的行為特征,得出當(dāng)前實(shí)驗(yàn)動(dòng)物所處的行為狀態(tài),生成對(duì)應(yīng)的控制指令,隨后將所述的控制指令轉(zhuǎn)換為對(duì)應(yīng)的刺激參數(shù),通過(guò)藍(lán)牙發(fā)送裝置將指令傳送給背負(fù)在實(shí)驗(yàn)動(dòng)物背部的微型無(wú)線電子背包,微型無(wú)線電子背包接受到刺激參數(shù)后,將對(duì)實(shí)驗(yàn)動(dòng)物腦部的特定區(qū)域進(jìn)行微電刺激。
如圖3所示,為本發(fā)明中圖像處理分析模塊的具體流程圖。相機(jī)單元陣列采集獲得的原始圖像,先按預(yù)先計(jì)算得到的各個(gè)相機(jī)單元的內(nèi)參矩陣和畸變矩陣,進(jìn)行矯正和重映射操作;
在矯正后的原始圖像上,構(gòu)建尺度空間,尺度金字塔共有5層,并利用dog算子找到關(guān)鍵點(diǎn);針對(duì)每個(gè)關(guān)鍵點(diǎn),構(gòu)建sift特征描述子,構(gòu)建過(guò)程為:以特征點(diǎn)為中心取16*16的鄰域作為采樣窗口,將采樣點(diǎn)與特征點(diǎn)的相對(duì)方向通過(guò)高斯加權(quán)后歸入包含8個(gè)bin的方向直方圖,最后獲得4*4*8的128維特征描述子;計(jì)算特定點(diǎn)相對(duì)方向步驟為:計(jì)算該點(diǎn)的八個(gè)方向(0°,45°,90°,135°,180°,225°,270°,315°)的梯度值,梯度值即設(shè)置為該方向的權(quán)重,權(quán)重最大的方向作為該點(diǎn)的主方向。
對(duì)相鄰兩個(gè)相機(jī)單元采集到的圖像上的特征描述子進(jìn)行匹配,找到兩幅圖像中最近鄰的關(guān)鍵點(diǎn),采用的相似度判定度量為兩個(gè)特征點(diǎn)的128維特征向量;利用關(guān)鍵點(diǎn)的配對(duì)信息,采用ransac方法,計(jì)算出兩個(gè)相鄰相機(jī)單元采集圖像上的關(guān)鍵點(diǎn)集合的最優(yōu)匹配方式;
利用上述的最優(yōu)匹配方式,以其中一個(gè)相機(jī)單元的采集圖像為基準(zhǔn),計(jì)算另一個(gè)相機(jī)單元采集圖像對(duì)應(yīng)的旋轉(zhuǎn)和平移矩陣,并對(duì)其進(jìn)行旋轉(zhuǎn)和平移操作;
待所有的相鄰相機(jī)單元圖像完成匹配后,將得出一張拼接好的全局圖像。
下一步將在原始的全局圖像上進(jìn)行前景的分離和行為特征的提取。首先對(duì)全局圖像應(yīng)用自適應(yīng)的混合高斯背景差分算法,算法的第一步是收集連續(xù)的t張全局圖像,構(gòu)建背景模型,具體的是利用t張全局圖像中所有像素的值,構(gòu)建出各個(gè)高斯成分的均值μi和方差σi,高斯成分個(gè)數(shù)k上限一般設(shè)置為5~8。
此后,在t+1時(shí)刻,獲取到一張新的全局圖像。針對(duì)該圖像的每個(gè)像素,均做以下操作:
1)將該點(diǎn)的像素值xt+1同當(dāng)前k個(gè)高斯成分按下式進(jìn)行比較,直到找到匹配該點(diǎn)像素值的分布成分,即同該成分的均值偏差在ρ倍標(biāo)準(zhǔn)差內(nèi):
|xt-μi,t|≤ρσ
2)若匹配的成分屬于背景成分,則該像素屬于背景,否則屬于前景;
3)各個(gè)成分的參數(shù)ωi,t+1按照以下公式進(jìn)行更新:
ωi,t+1=ωi,t+α(oi,t+1-ωi,t)+αct
其中,α為學(xué)習(xí)率,設(shè)置為1/t,ct為先驗(yàn)參數(shù),設(shè)置為c/t,c為一個(gè)負(fù)常數(shù),本例中設(shè)置為-0.001,oi,t+1為零一二值一維向量,維度與t時(shí)刻高斯成分的數(shù)量相同,且對(duì)應(yīng)該像素,其屬于的高斯成分編號(hào)處該向量值為1,其余部分值為0。
根據(jù)匹配結(jié)果,將大鼠所在的前景與實(shí)驗(yàn)場(chǎng)地所屬的背景分割出來(lái)。對(duì)初步的前景分割結(jié)果,進(jìn)行形態(tài)學(xué)操作,具體為:對(duì)分割后的二值圖像,全圖做開操作,并計(jì)算像素值大于0連通域所包含的像素點(diǎn)個(gè)數(shù);對(duì)所有連通域?qū)?yīng)的像素點(diǎn)個(gè)數(shù)進(jìn)行降序排序,保留超過(guò)給定閾值的像素個(gè)數(shù)最大對(duì)應(yīng)得連通域(針對(duì)僅有一只大鼠的情況;若實(shí)驗(yàn)中有n只大鼠,則可保留前n大個(gè)連通域),其余連通域內(nèi)的像素點(diǎn)均賦值為0,得到僅包含大鼠的二值圖像;保留的連通域內(nèi)像素值將被賦值為255;此操作能夠去除相機(jī)熱噪聲帶來(lái)的分割錯(cuò)誤結(jié)果。處理后的分割二值圖像ibr傳入下一步進(jìn)行行為特征的提取。提取的特征包括:
大鼠輪廓:利用上述的二值圖像ibr,采用canny算子提取邊緣信息,選取最長(zhǎng)的連續(xù)邊緣作為大鼠身體的輪廓;其中canny算子參數(shù)中的核的大小為3x3。
大鼠重心:利用上述的二值圖像,計(jì)算前景部分(像素值大于0的區(qū)域)的零階和一階矩,進(jìn)而計(jì)算出大鼠重心;具體計(jì)算公式為:
其中,m00,m01,m10分別為零階距、一階矩的兩個(gè)分量,其的計(jì)算公式為:
大鼠骨架:利用上述二值圖像ibr,采用zhangandc.y.suen的骨架提取算法,得到大鼠的骨架;
大鼠鼻尖:對(duì)上述的二值圖像ibr進(jìn)行腐蝕操作,得到去除大鼠尾部的二值圖像,計(jì)算去除大鼠尾部的二值圖像的前景部分的凸包,遍歷凸包頂點(diǎn),將距離上述的大鼠重心最遠(yuǎn)的頂點(diǎn)標(biāo)記為大鼠鼻尖坐標(biāo)ph;其中腐蝕操作參數(shù):核的大小,設(shè)置為3x3的菱形核;
大鼠頭部朝向:以上述大鼠鼻尖坐標(biāo)ph為圓心,在適當(dāng)?shù)陌霃椒秶鷥?nèi)去除大鼠尾部的二值圖像,得到大鼠頭部區(qū)域hr;計(jì)算大鼠頭部區(qū)域hr的零階及一階矩,得到大鼠頭部區(qū)域重心位置phr,其計(jì)算公式與上述計(jì)算大鼠重心相同,將由大鼠頭部重心phr指向大鼠鼻尖pn的方向作為此時(shí)的大鼠頭部朝向θ;
大鼠尾尖:將上述二值圖像ibr與去除大鼠尾部的二值圖像ibrb做差分處理得到僅包含尾部的差分圖ibt,在該差分圖中尋找最大連通域并判斷其包含像素個(gè)數(shù)是否超過(guò)既定閾值,利用上述提取的大鼠骨架以及差分圖ibt,分割出大鼠尾部骨架部分;遍歷尾部骨架像素點(diǎn),找到距離上述去除大鼠尾部二值圖像ibrb中連通域邊緣最近的點(diǎn),將該點(diǎn)作為大鼠尾部與身體的結(jié)合點(diǎn);沿尾部骨架,找到距離上述尾部與結(jié)合點(diǎn)最遠(yuǎn)的像素點(diǎn),將該點(diǎn)作為大鼠尾尖所在位置pt。
如圖4所示,為本發(fā)明大鼠行為實(shí)驗(yàn)的采集和分析結(jié)果圖,全圖由六個(gè)子圖拼接而成。圖中灰白色點(diǎn)構(gòu)成的軌跡為大鼠在迷宮中移動(dòng)時(shí)大鼠重心的軌跡;白色箭頭為大鼠頭部朝向,箭頭長(zhǎng)度代表當(dāng)前方向下大鼠前進(jìn)的速度,白色箭頭組成的軌跡表示大鼠頭部朝向和速度在整個(gè)迷宮中移動(dòng)時(shí)的變化。
如圖5所示,為本發(fā)明對(duì)大鼠精細(xì)行為特征提取的結(jié)果圖。其中,白色的兩點(diǎn)分別標(biāo)識(shí)出了大鼠的鼻尖和尾尖的位置,深色點(diǎn)為大鼠重心所在的位置;由大鼠鼻尖延伸出的線段代表大鼠當(dāng)前頭部朝向,線段長(zhǎng)度代表大鼠當(dāng)前前進(jìn)的速度;以大鼠鼻尖點(diǎn)為圓心,所畫的圓內(nèi)代表大鼠頭部的范圍。
如圖6所示,為本發(fā)明利用深度強(qiáng)化學(xué)習(xí)算法一步生成特征識(shí)別模塊和指令生成模塊。
強(qiáng)化學(xué)習(xí)控制大鼠算法實(shí)例:
1)強(qiáng)化學(xué)習(xí)算法一般交互框架為:代表算法的智能體利用環(huán)境的輸入狀態(tài)s及環(huán)境給出的獎(jiǎng)勵(lì)值r(注:獎(jiǎng)勵(lì)值為一個(gè)實(shí)數(shù)),訓(xùn)練策略π;策略指的是在算法接收到狀態(tài)s,獲得獎(jiǎng)勵(lì)r的情況下,對(duì)下一步做出的動(dòng)作a的選擇。強(qiáng)化學(xué)習(xí)算法的目的是,利用與環(huán)境的交互,學(xué)習(xí)到最優(yōu)策略π*,使得在每個(gè)任務(wù)回合中,獲得盡可能高的累積獎(jiǎng)勵(lì)值。
2)本例中的任務(wù)為,控制大鼠機(jī)器人從迷宮的起點(diǎn)觸發(fā),盡可能快速的通過(guò)迷宮,到達(dá)終點(diǎn);任務(wù)回合以大鼠機(jī)器人進(jìn)入迷宮為始,大鼠機(jī)器人到達(dá)終點(diǎn)或所用時(shí)間超過(guò)規(guī)定最大時(shí)間為終。
3)本例中,環(huán)境給予智能體的輸入:狀態(tài)s為上述特征提取步驟獲得的大鼠機(jī)器人行為特征,每一步的獎(jiǎng)勵(lì)值r由既定的規(guī)則產(chǎn)生;
具體規(guī)則為:
a)任務(wù)回合終止前,智能體每一步與環(huán)境交互過(guò)程中,固定獲得一個(gè)懲罰獎(jiǎng)勵(lì)rs,(注:rs一般設(shè)置為一個(gè)很小的負(fù)值)本例中rs設(shè)置為-0.001;
b)任務(wù)回合終止前,智能體每一步與環(huán)境交互過(guò)程中,固定獲得一個(gè)距離獎(jiǎng)勵(lì)rd,rd計(jì)算公式為:
rd=1,dcur<dpre;
rd=0,dcur=dpre;
rd=-1,dcur>dpre。
其中dcur,dpre分別為這一步中大鼠機(jī)器人與迷宮終點(diǎn)的距離及上一步中大鼠機(jī)器人與迷宮終點(diǎn)的距離;
c)在智能體與環(huán)境交互的某一步中,大鼠機(jī)器人到達(dá)迷宮終點(diǎn),智能體獲得任務(wù)成功獎(jiǎng)勵(lì)rwin,本例中rwin設(shè)置為10;
d)在智能體與環(huán)境交互的某一步中,大鼠機(jī)器人超出規(guī)定時(shí)間,未能到達(dá)迷宮終點(diǎn),智能體獲得任務(wù)失敗獎(jiǎng)勵(lì)rloss,本例中rloss設(shè)置為-10;
e)最終,與環(huán)境的每個(gè)交互步中,智能體獲得的獎(jiǎng)勵(lì)值r=rs+rd+rwin+rloss,rwin與rloss當(dāng)且僅當(dāng)任務(wù)終止前那一步為設(shè)定值,其余步中均為0。
4)本例中,智能體輸出的控制動(dòng)作a有四個(gè)選擇,分別為:前進(jìn),左轉(zhuǎn),右轉(zhuǎn),不操作。
5)本例中,智能體所采用的算法為actor-critic。具體實(shí)施為:
a)actor-critic算法中的兩個(gè)部分:策略π以及價(jià)值函數(shù)v,兩者均采用兩層全連接神經(jīng)網(wǎng)絡(luò)(每層節(jié)點(diǎn)數(shù)為512)進(jìn)行擬合;
b)算法更新策略及價(jià)值函數(shù)的過(guò)程中,采用n-step(n步)的td-error的更新方式,本例中n=20;
c)算法中step的定義為,相機(jī)單元陣列采集到一幀原始圖像,此圖像經(jīng)過(guò)處理得到行為特征,特征輸入智能體,智能體輸出控制指令,無(wú)線電刺激背包接收到指令并對(duì)大鼠機(jī)器人進(jìn)行刺激這一過(guò)程。
如表格1所示,本例中,整個(gè)流程所耗時(shí)間約為30ms。其中,特征提取與視頻儲(chǔ)存部分,因程序中視頻存儲(chǔ)功能利用多線程進(jìn)行實(shí)現(xiàn),該時(shí)間僅包含將圖片發(fā)送給視頻儲(chǔ)存線程所占用時(shí)間。
表1