欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法

文檔序號(hào):40506834發(fā)布日期:2024-12-31 13:15閱讀:11來(lái)源:國(guó)知局
元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法

本發(fā)明涉及一種元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法,屬于元宇宙和眾包。


背景技術(shù):

1、近年來(lái),眾包平臺(tái)的出現(xiàn),創(chuàng)造了一種分布式解決問(wèn)題的方式。請(qǐng)求者將他們的問(wèn)題以任務(wù)形式發(fā)布至眾包平臺(tái),眾包平臺(tái)負(fù)責(zé)將這些任務(wù)分發(fā)給工作者。由于不同工作者提供的數(shù)據(jù)可能存在沖突,眾包平臺(tái)為了向請(qǐng)求者提供準(zhǔn)確答案,往往采用真值挖掘方法來(lái)解決數(shù)據(jù)沖突和挖掘真值。

2、隨著元宇宙概念的興起,眾包平臺(tái)在虛擬環(huán)境中得到了進(jìn)一步擴(kuò)展和應(yīng)用。元宇宙中包含了大量用戶生成的多源感知數(shù)據(jù),這些數(shù)據(jù)既包括數(shù)值數(shù)據(jù)和分類(lèi)數(shù)據(jù),也越來(lái)越多地涉及到非結(jié)構(gòu)化文本數(shù)據(jù)。例如,用戶在元宇宙中可能會(huì)提交與虛擬商品、虛擬身份或數(shù)字內(nèi)容相關(guān)的文本信息。在這種情況下,多源非結(jié)構(gòu)化文本數(shù)據(jù)呈現(xiàn)出復(fù)雜多樣的特性。具體來(lái)說(shuō),多源非結(jié)構(gòu)化文本數(shù)據(jù)包含口語(yǔ)化表達(dá)、情感化描述以及非標(biāo)準(zhǔn)化的格式。傳統(tǒng)的真值挖掘方法通常依賴(lài)于單一數(shù)據(jù)類(lèi)型或結(jié)構(gòu)化數(shù)據(jù),缺乏有效的非結(jié)構(gòu)化文本數(shù)據(jù)處理能力,導(dǎo)致其在元宇宙眾包環(huán)境中的適用性有限。

3、同時(shí),現(xiàn)有的真值挖掘方法大多是基于概率圖模型,通過(guò)設(shè)置先驗(yàn)參數(shù)推斷概率對(duì)不同的場(chǎng)景建模。然而,這些方法需要預(yù)設(shè)大量先驗(yàn)參數(shù),模型訓(xùn)練和推斷過(guò)程計(jì)算資源消耗巨大,并且隨著數(shù)據(jù)量的增長(zhǎng)其計(jì)算時(shí)間成指數(shù)級(jí)增加,無(wú)法滿足元宇宙眾包環(huán)境中高并發(fā)和實(shí)時(shí)性的需求。

4、此外,元宇宙中的用戶對(duì)智能服務(wù)的期望日益提高,追求高度個(gè)性化和高質(zhì)量的體驗(yàn)。這對(duì)真值挖掘方法提出了更高要求,需要其能夠精準(zhǔn)挖掘多源非結(jié)構(gòu)化文本數(shù)據(jù)的真值并生成符合用戶需求的結(jié)果。然而,基于概率圖模型的方法由于模型先驗(yàn)參數(shù)固定,難以靈活適應(yīng)用戶生成內(nèi)容的多樣性和動(dòng)態(tài)性。同時(shí),這些方法在不同場(chǎng)景和數(shù)據(jù)集上的表現(xiàn)差異較大,進(jìn)一步限制了其在元宇宙環(huán)境中滿足用戶個(gè)性化服務(wù)高標(biāo)準(zhǔn)需求的能力。

5、鑒于此,本發(fā)明提出了一種元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法。該方法可以解決現(xiàn)有技術(shù)在處理非結(jié)構(gòu)化文本數(shù)據(jù)時(shí)計(jì)算復(fù)雜度高、建模難度大以及適應(yīng)性差等問(wèn)題。此外,該方法通過(guò)收集并整合元宇宙眾包環(huán)境中多源感知數(shù)據(jù)的文本信息,推送符合用戶需求的智能服務(wù),可以提高元宇宙眾包環(huán)境中的服務(wù)質(zhì)量和用戶體驗(yàn)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明正是針對(duì)現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,提供一種元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法,通過(guò)分階段的高效處理和動(dòng)態(tài)自適應(yīng)特征生成機(jī)制,克服現(xiàn)有技術(shù)的不足,大幅提升真值發(fā)現(xiàn)的準(zhǔn)確性和效率。同時(shí),該方法能夠靈活適應(yīng)復(fù)雜多變的數(shù)據(jù)環(huán)境,為元宇宙中的智能服務(wù)提供有力支持。

2、為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:

3、一種元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法,包括以下階段:

4、a.?語(yǔ)義預(yù)處理階段:根據(jù)元宇宙眾包平臺(tái)獲取的數(shù)據(jù)構(gòu)建工作者集,任務(wù)集,眾包答案集,使用基于bert?(bidirectional?encoder?representations?fromtransformers)的上下文嵌入構(gòu)建眾包答案的高維內(nèi)容向量表示。使用kann-dbscan?(k-average?nearest?neighbordensity-based?spatial?clustering?of?applications?withnoise)算法對(duì)答案的高維內(nèi)容向量表示進(jìn)行自適應(yīng)聚類(lèi),為每個(gè)眾包答案分配一個(gè)類(lèi)別標(biāo)簽;

5、b.?真值優(yōu)化與特征生成階段:根據(jù)工作者集,任務(wù)集,眾包答案附帶的類(lèi)別標(biāo)簽集構(gòu)建真值挖掘模型。目的是最小化真值與眾包答案類(lèi)別標(biāo)簽之間的差異,進(jìn)而評(píng)估工作者的工作質(zhì)量。基于評(píng)估結(jié)果,從兩個(gè)維度生成特征,一個(gè)維度是類(lèi)別標(biāo)簽的置信度,另一個(gè)維度是類(lèi)別標(biāo)簽置信度的平均差分;

6、c.?任務(wù)聚類(lèi)與類(lèi)簇映射階段:對(duì)于具有生成特征的任務(wù),采用k均值聚類(lèi)算法進(jìn)行聚類(lèi),得到與任務(wù)類(lèi)別個(gè)數(shù)相等的簇。構(gòu)建每個(gè)簇的簇中類(lèi)別置信度集合,并選擇具有最大類(lèi)別置信度的類(lèi)別作為該簇中每個(gè)任務(wù)的類(lèi)別。將每個(gè)任務(wù)與其對(duì)應(yīng)的類(lèi)別一一映射,從而確定每個(gè)任務(wù)的真實(shí)類(lèi)別,最終獲得元宇宙眾包平臺(tái)上任務(wù)的真實(shí)答案。

7、上述方案中,語(yǔ)義預(yù)處理階段可以處理非結(jié)構(gòu)化文本數(shù)據(jù),克服現(xiàn)有技術(shù)在文本數(shù)據(jù)處理方面的不足;真值優(yōu)化與特征生成階段可以靈活適應(yīng)用戶生成內(nèi)容的多樣性和動(dòng)態(tài)性,克服現(xiàn)有技術(shù)在滿足用戶個(gè)性化服務(wù)高標(biāo)準(zhǔn)需求方面的不足;任務(wù)聚類(lèi)與類(lèi)簇映射階段可以輕量化處理大量復(fù)雜數(shù)據(jù),克服現(xiàn)有技術(shù)在元宇宙眾包環(huán)境中高并發(fā)和實(shí)時(shí)性需求方面的不足。

8、所述語(yǔ)義預(yù)處理階段具體步驟如下:

9、a1.?根據(jù)元宇宙眾包平臺(tái)獲取的數(shù)據(jù)定義并構(gòu)建工作者集合,任務(wù)集合,眾包答案集合,其中工作者集合表示為,表示工作者總數(shù),任務(wù)集合表示為?,表示任務(wù)總數(shù),每個(gè)工作者眾包答案集合表示為,表示工作者對(duì)任務(wù)的眾包答案,在此基礎(chǔ)上,每個(gè)工作者對(duì)每個(gè)任務(wù)提交的眾包答案表示為一個(gè)三元組,三元組集合;

10、a2.?定義高維內(nèi)容向量表示集合

11、,使用基于bert的上下文嵌入構(gòu)建眾包答案集合

12、的高維內(nèi)容向量表示集合;

13、a3.?使用kann-dbscan算法對(duì)答案的高維內(nèi)容向量表示集合進(jìn)行自適應(yīng)聚類(lèi),為每個(gè)眾包答案分配一個(gè)類(lèi)別標(biāo)簽。

14、步驟a3具體包括以下步驟:

15、a3.1?定義對(duì)任意任務(wù)有個(gè)眾包答案,相應(yīng)的高維內(nèi)容向量表示集合為

16、,

17、對(duì)于任意兩個(gè)向量和,計(jì)算兩者之間的余弦距離,構(gòu)建出距離矩陣,

18、a3.2對(duì)距離矩陣的每一行進(jìn)行降序排序;

19、a3.3定義距離矩陣均值,計(jì)算距離矩陣中每一列的距離矩陣均值,生成個(gè);

20、a3.4定義最小個(gè)數(shù),表示為距離矩陣中每一列任意兩個(gè)向量距離小于矩陣均值的向量個(gè)數(shù)的均值,計(jì)算,生成個(gè),其中表示為距離矩陣中每一列任意兩個(gè)向量距離小于矩陣均值的向量集合,

21、,

22、a3.5對(duì)每一對(duì)參數(shù),進(jìn)行遍歷,使用算法對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)。

23、a3.5中,算法具體包括以下步驟:

24、a3.5.1?隨機(jī)選擇未被訪問(wèn)過(guò)的向量,計(jì)算出,

25、a3.5.2?如果,向量和一起形成一個(gè)新的集群,以同樣的方式遞歸處理當(dāng)前簇中所有未被訪問(wèn)的向量,以擴(kuò)展集群;

26、a3.5.3?如果,向量就是噪聲向量;

27、a3.5.4?對(duì)其他未被訪問(wèn)過(guò)的向量,重復(fù)執(zhí)行步驟a3.5.1到a3.5.3,直到所有的向量都屬于某個(gè)集群或是噪聲向量;

28、a3.5.5?所有的噪聲向量也形成一個(gè)集群;

29、a3.5.6?返回所有的集群集。

30、步驟b中,真值優(yōu)化與特征生成階段,包括以下步驟:

31、b1.?經(jīng)過(guò)語(yǔ)義預(yù)處理階段,每個(gè)工作者對(duì)每個(gè)任務(wù)提交的眾包答案都附帶一個(gè)類(lèi)別標(biāo)簽,表示為一個(gè)四元組,四元組集合,定義工作者的工作質(zhì)量集合,定義并構(gòu)建工作者提交的所有任務(wù)的類(lèi)別標(biāo)簽集合,定義所有任務(wù)的真值集合,表示為任務(wù)的真值;

32、b2.?構(gòu)建真值挖掘模型,定義目標(biāo)函數(shù),其中約束條件為,當(dāng)時(shí),損失函數(shù),當(dāng)時(shí),損失函數(shù),

33、b3.?初始化任意工作者的工作質(zhì)量 , ,

34、b4.?最小化目標(biāo)函數(shù),迭代進(jìn)行b5和b6兩個(gè)步驟直至目標(biāo)函數(shù)收斂,獲得每個(gè)工作者的工作質(zhì)量和所有任務(wù)的真值;

35、b5.?更新真值,

36、b6.?更新工作者質(zhì)量,

37、b7.?定義并構(gòu)建類(lèi)別集合,表示類(lèi)別個(gè)數(shù),對(duì)對(duì)每個(gè)任務(wù)來(lái)說(shuō),任意類(lèi)別標(biāo)簽都有相應(yīng)的類(lèi)別與之對(duì)應(yīng),即,這個(gè)任務(wù)所有類(lèi)別標(biāo)簽是的工作者的集合表示為,

38、b8.?定義每個(gè)任務(wù)的類(lèi)別置信度集合,,表示任務(wù)所有眾包答案的類(lèi)別是的工作者質(zhì)量之和,

39、b9.?計(jì)算類(lèi)別置信度,構(gòu)建每個(gè)任務(wù)的類(lèi)別置信度集合,也是每個(gè)任務(wù)的特征集合,其中類(lèi)別置信度滿足

40、,

41、b10.?給每個(gè)任務(wù)的特征集合添加一個(gè)附加特征,,構(gòu)建最終的特征集合。

42、步驟c中,任務(wù)聚類(lèi)與類(lèi)簇映射階段包括以下步驟:

43、c1.?使用k均值聚類(lèi)算法對(duì)所有具有生成特征的任務(wù)進(jìn)行聚類(lèi),得到與類(lèi)別數(shù)k相等的簇,

44、c2.?定義簇中類(lèi)置信度集合,每個(gè)簇的簇中類(lèi)置信度集合

45、,,

46、表示簇中類(lèi)別標(biāo)簽是的任務(wù);

47、c3.?計(jì)算簇中類(lèi)置信度集合,

48、c4.?對(duì)每個(gè)簇選取,

49、,將簇中的每個(gè)任務(wù)映射到相應(yīng)的類(lèi)別中,以此確定每個(gè)任務(wù)的真實(shí)類(lèi)別,最終獲得元宇宙眾包平臺(tái)上任務(wù)的真實(shí)答案。

50、c1.?使用k均值聚類(lèi)算法對(duì)所有具有生成特征的任務(wù)進(jìn)行聚類(lèi),得到與類(lèi)別數(shù)k相等的簇,具體包括以下步驟:

51、c1.1?定義k均值聚類(lèi)算法中的簇,為簇的個(gè)數(shù),設(shè)置簇?cái)?shù)為任務(wù)中的類(lèi)數(shù),即,

52、c1.2?定義簇中心,對(duì)任意,選擇最大的任務(wù)作為每個(gè)簇的初始中心,如果任務(wù)已經(jīng)被選作簇中心,則按降序選擇下一個(gè)的任務(wù)作為簇的初始中心,以此類(lèi)推;

53、c1.3?計(jì)算每個(gè)任務(wù)與每個(gè)簇的初始中心之間的歐氏距離,將每個(gè)任務(wù)分配給最接近它的簇;

54、c1.4?對(duì)每個(gè)簇,重新計(jì)算簇的中心,簇的中心是簇中所有任務(wù)的均值;

55、c1.5?重復(fù)步驟c1.3和c1.4,直到簇中心不再改變;

56、c1.6?返回個(gè)簇。

57、一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述的元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法。

58、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)指令,該計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法。

59、有益效果:本發(fā)明提供的一種元宇宙眾包環(huán)境下多源非結(jié)構(gòu)化文本服務(wù)的真值挖掘方法,與現(xiàn)有技術(shù)相比,具有以下有益效果:

60、(1)本發(fā)明通過(guò)三個(gè)階段——語(yǔ)義預(yù)處理階段、真值優(yōu)化與特征生成階段、以及任務(wù)聚類(lèi)與類(lèi)簇映射階段,實(shí)現(xiàn)了復(fù)雜非結(jié)構(gòu)化文本數(shù)據(jù)的高效真值挖掘。該分階段處理方式不僅顯著提升了處理效率,還確保了真值挖掘的精確性和可靠性。在元宇宙這一高度互動(dòng)和復(fù)雜的環(huán)境中,這種分階段方式能夠靈活適應(yīng)多源感知數(shù)據(jù),提升整體服務(wù)質(zhì)量;

61、(2)在語(yǔ)義預(yù)處理階段,本發(fā)明引入了基于bert的上下文嵌入和kann-dbscan算法?;赽ert的上下文嵌入能夠深度挖掘文本數(shù)據(jù)的語(yǔ)義信息,為高維內(nèi)容向量的構(gòu)建提供支持。kann-dbscan算法則通過(guò)對(duì)高維內(nèi)容向量進(jìn)行聚類(lèi),精準(zhǔn)識(shí)別并隔離噪聲數(shù)據(jù)。該組合策略不僅高效處理了非結(jié)構(gòu)化文本數(shù)據(jù),還為后續(xù)的真值挖掘奠定了堅(jiān)實(shí)基礎(chǔ);

62、(3)在真值優(yōu)化與特征生成階段,本發(fā)明設(shè)計(jì)了迭代優(yōu)化機(jī)制和自適應(yīng)特征生成機(jī)制。迭代優(yōu)化機(jī)制可以動(dòng)態(tài)更新工作者質(zhì)量和真值,自適應(yīng)特征生成機(jī)制可以根據(jù)工作者的工作質(zhì)量動(dòng)態(tài)生成類(lèi)別標(biāo)簽的置信度特征,并結(jié)合置信度的平均差分特征,增強(qiáng)對(duì)工作者行為數(shù)據(jù)波動(dòng)的容忍度,進(jìn)而提高了系統(tǒng)的魯棒性;

63、(4)在任務(wù)聚類(lèi)與類(lèi)簇映射階段,本發(fā)明利用了k均值聚類(lèi)算法生成與任務(wù)類(lèi)別數(shù)相等的簇,并基于類(lèi)別置信度最高值,精準(zhǔn)完成任務(wù)與類(lèi)別的映射,最終確定元宇宙眾包平臺(tái)上任務(wù)的真實(shí)答案。該階段通過(guò)輕量化處理方法,高效應(yīng)對(duì)海量復(fù)雜數(shù)據(jù),有效降低計(jì)算和資源負(fù)擔(dān),克服了現(xiàn)有技術(shù)在元宇宙眾包環(huán)境中面臨的高并發(fā)和實(shí)時(shí)性需求不足的問(wèn)題;

64、(5)本發(fā)明的方法不僅顯著提高了真值挖掘的效率和精確性,還為元宇宙中的智能服務(wù)提供了強(qiáng)大的數(shù)據(jù)支撐。通過(guò)整合多源眾包數(shù)據(jù)并優(yōu)化數(shù)據(jù)質(zhì)量,本發(fā)明為元宇宙中的各類(lèi)智能應(yīng)用(如個(gè)性化推薦、虛擬助手等)提供了更準(zhǔn)確可靠的基礎(chǔ)數(shù)據(jù),不僅推動(dòng)智能服務(wù)的創(chuàng)新發(fā)展,還顯著提升用戶體驗(yàn),滿足用戶對(duì)高度個(gè)性化、高質(zhì)量智能服務(wù)的需求。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
布拖县| 平阳县| 海林市| 崇阳县| 花垣县| 南宫市| 增城市| 武邑县| 北碚区| 永平县| 洱源县| 普兰县| 铅山县| 宁乡县| 台前县| 武汉市| 长宁区| 甘德县| 张家界市| 高碑店市| 义乌市| 禄劝| 衡南县| 镇宁| 保定市| 拜城县| 永济市| 离岛区| 云阳县| 平利县| 南部县| 安义县| 仁化县| 蕲春县| 安多县| 余姚市| 大邑县| 交口县| 华宁县| 绥中县| 偏关县|