基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法

文檔序號(hào)：40435774發(fā)布日期：2024-12-24 15:09閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及自然語言處理，特別是涉及一種基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法。

背景技術(shù)：

1、隨著科技的不斷進(jìn)步，手機(jī)已成為人們?nèi)粘Ｉ钪凶畛Ｓ玫奈锲分?。?xùn)練模型完成移動(dòng)端界面文本內(nèi)容問答任務(wù)，將有助于模型更好理解移動(dòng)端的數(shù)字文本內(nèi)容，從而進(jìn)一步提升用戶界面元素的注釋、總結(jié)和導(dǎo)航等任務(wù)的完成效率，這對人機(jī)交互和人類交流的發(fā)展具有重要意義。目前，隨著多模態(tài)大語言模型的迅速發(fā)展，文本問題的解答取得了顯著進(jìn)展。許多閉源領(lǐng)先模型在某些方面甚至已經(jīng)超越了人類水平，表現(xiàn)出卓越的性能。然而，大部分開源模型的性能仍然明顯落后于這些閉源模型，其主要原因之一是開源模型缺乏足夠的訓(xùn)練數(shù)據(jù)來進(jìn)行全面訓(xùn)練。相應(yīng)的，在移動(dòng)端的數(shù)字文本內(nèi)容問答任務(wù)上，由于人工標(biāo)注的難度等問題，訓(xùn)練多模態(tài)大模型以完成相關(guān)任務(wù)更是困難重重。

2、鑒于此，克服該現(xiàn)有技術(shù)所存在的缺陷是本技術(shù)領(lǐng)域亟待解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題是提供一種基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法。

2、本發(fā)明采用如下技術(shù)方案：

3、一種基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法，包括：

4、在步驟201中，提取圖片文本內(nèi)容，利用多模態(tài)大模型生成手機(jī)截屏圖片的文本內(nèi)容描述，以獲取和圖片中文本有關(guān)的內(nèi)容信息；

5、在步驟202中，將手機(jī)截屏圖片和步驟201生成的文本內(nèi)容描述作為多模態(tài)大模型的輸入，構(gòu)建指令驅(qū)動(dòng)多模態(tài)大模型生成關(guān)于手機(jī)截屏圖片文本內(nèi)容的問答對；

6、在步驟203中，利用步驟201生成的文本內(nèi)容描述和步驟202生成的問答對結(jié)合構(gòu)建指令，對步驟202生成的問答對進(jìn)行篩選。

7、優(yōu)選的，所述提取圖片文本內(nèi)容，利用多模態(tài)大模型生成手機(jī)截屏圖片的文本內(nèi)容描述，以獲取和圖片中文本有關(guān)的內(nèi)容信息，具體包括：

8、將手機(jī)截屏圖片作為多模態(tài)大模型的輸入，使多模態(tài)大模型描述輸入圖片中的文本內(nèi)容；

9、將得到的文本內(nèi)容描述再次作為多模態(tài)大模型的輸入，直接使多模態(tài)大模型判斷文本內(nèi)容描述中是否包含無意義并且重復(fù)出現(xiàn)的文本內(nèi)容；

10、如果文本內(nèi)容描述中不包含重復(fù)部分，則多模態(tài)大模型成功獲取該張手機(jī)截屏圖片的文本內(nèi)容描述；否則，多模態(tài)大模型未能成功獲取該張手機(jī)截屏圖片的文本內(nèi)容描述。

11、優(yōu)選的，所述將手機(jī)截屏圖片和步驟201生成的文本內(nèi)容描述作為多模態(tài)大模型的輸入，構(gòu)建指令驅(qū)動(dòng)多模態(tài)大模型生成關(guān)于手機(jī)截屏圖片文本內(nèi)容的問答對，具體包括：

12、構(gòu)建一個(gè)包含多條指令的指令庫，每次生成問答對時(shí)隨機(jī)從指令庫中抽取一個(gè)指令使用；

13、在多模態(tài)大模型生成問答對結(jié)束后，將生成的問答對再次作為輸入，使用多模態(tài)大模型判斷最終生成結(jié)果中的問答對個(gè)數(shù)是否達(dá)到指定個(gè)數(shù)，并檢查輸出內(nèi)容是否符合預(yù)設(shè)的格式要求；

14、如果多模態(tài)大模型輸出結(jié)果中的問答對個(gè)數(shù)未能達(dá)到指定個(gè)數(shù)或者多模態(tài)大模型輸出的內(nèi)容格式不符合格式要求，則不使用本輪生成的問答對作為最終結(jié)果，而是再次從指令庫中隨機(jī)抽取不重復(fù)的一個(gè)指令驅(qū)動(dòng)多模態(tài)大模型完成問答對的生成；

15、重復(fù)以上步驟直到多模態(tài)大模型生成的問答對符合個(gè)數(shù)要求和格式要求；

16、如果使用完指令庫中的所有指令都沒有獲得符合預(yù)期的結(jié)果，則直接判定該張圖片的問答對生成失敗。

17、優(yōu)選的，所述指令庫中的指令分為兩種類型：加強(qiáng)思維鏈的指令和指定多模態(tài)大模型身份的指令。

18、優(yōu)選的，所述加強(qiáng)思維鏈的指令的構(gòu)建方法，具體包括：

19、在指令中強(qiáng)調(diào)多模態(tài)大模型需要按步仔細(xì)思考來完成任務(wù)；

20、在指令中強(qiáng)調(diào)輸入的圖像為手機(jī)截屏圖片；

21、判斷步驟201是否獲取了文本內(nèi)容描述，如果獲取了圖片的文本內(nèi)容描述，則將該部分內(nèi)容加入指令作為輸入，并在指令中強(qiáng)調(diào)需要根據(jù)輸入的文本內(nèi)容和圖片來總結(jié)整個(gè)圖片的文本信息；否則指令驅(qū)動(dòng)多模態(tài)大模型先描述整個(gè)圖片的內(nèi)容，再根據(jù)輸入的圖片以及多模態(tài)大模型生成的圖片內(nèi)容來總結(jié)整個(gè)圖片文本信息；

22、指令中表明多模態(tài)大模型需要根據(jù)總結(jié)的圖片文本信息和輸入的圖片生成預(yù)設(shè)數(shù)量有意義且正確的問答對，并保證生成的問答對盡可能不引入外部知識(shí)；

23、在指令中提供一個(gè)輸出的樣例，并強(qiáng)調(diào)多模態(tài)大模型應(yīng)該按照提供的樣例格式輸出總結(jié)的圖片文本信息以及生成的問答對。

24、優(yōu)選的，所述指定多模態(tài)大模型身份的指令的構(gòu)建方法，具體包括：

25、指定大模型的身份為手機(jī)助手或手機(jī)使用者；

26、當(dāng)指定多模態(tài)大模型的身份為手機(jī)助手時(shí)，在指令中表明輸入的手機(jī)截屏圖片為手機(jī)用戶正在使用的手機(jī)界面，并表明多模態(tài)大模型的任務(wù)是幫助用戶使用手機(jī)；檢測步驟201是否成功獲取手機(jī)截屏圖片的文本內(nèi)容描述；如果步驟201成功獲取了文本內(nèi)容描述，則將該部分內(nèi)容加入指令作為外部知識(shí)，并強(qiáng)調(diào)多模態(tài)大模型需要根據(jù)文本內(nèi)容描述和輸入的手機(jī)截屏圖片來總結(jié)整個(gè)手機(jī)屏幕中包含的文本信息；否則指令驅(qū)動(dòng)多模態(tài)大模型盡可能詳細(xì)閱讀手機(jī)屏幕截圖中的文本內(nèi)容并及總結(jié)整個(gè)圖片文本信息；在指令中表明多模態(tài)大模型需要根據(jù)圖片以及圖片的文本信息，模擬手機(jī)用戶使用該手機(jī)界面時(shí)遇到的問題，并作為手機(jī)助手，根據(jù)圖片給出對應(yīng)的有意義的、不引入外部知識(shí)的回答來幫助用戶解決問題；在指令中包含一個(gè)輸出的樣例，并強(qiáng)調(diào)多模態(tài)大模型需要按照提供的樣例格式輸出總結(jié)的手機(jī)截屏圖片文本信息以及模擬出來的問答對；

27、當(dāng)指定多模態(tài)大模型的身份為手機(jī)使用者時(shí)，在指令中表明輸入的手機(jī)截屏圖片為用戶正在使用的手機(jī)界面；檢測步驟201是否成功獲取手機(jī)截屏圖片的文本內(nèi)容描述；如果步驟201獲取了圖片的文本內(nèi)容描述，則在指令中表明多模態(tài)大模型需要根據(jù)文本內(nèi)容描述和輸入的手機(jī)屏幕截圖來總結(jié)自己使用這個(gè)手機(jī)屏幕截圖時(shí)看到的文本信息；否則在指令中表明多模態(tài)大模型需要仔細(xì)閱讀手機(jī)屏幕截圖，并詳細(xì)總結(jié)其中的文本信息；

28、多模態(tài)大模型結(jié)合手機(jī)截屏圖片，模擬手機(jī)用戶在使用手機(jī)的過程中，看到該手機(jī)屏幕時(shí)產(chǎn)生的問題，并結(jié)合圖片和文本信息對這些問題給出對應(yīng)的、有意義的、不引入外部知識(shí)的回答；

29、在指令中提供一個(gè)輸出的樣例，并要求多模態(tài)大模型按照提供的樣例格式輸出多模態(tài)大模型總結(jié)的圖片文本信息以及生成的問答對。

30、優(yōu)選的，所述利用步驟201生成的文本內(nèi)容描述和步驟202生成的問答對結(jié)合構(gòu)建指令，對步驟202生成的問答對進(jìn)行篩選，具體包括：

31、構(gòu)建指令驅(qū)動(dòng)多模態(tài)大模型利用思維鏈對生成的問答對進(jìn)行自糾正；

32、構(gòu)建指令驅(qū)動(dòng)大語言模型篩選掉生成的問答對中和手機(jī)截屏圖片中的文字無關(guān)的問答對。

33、優(yōu)選的，所述構(gòu)建指令驅(qū)動(dòng)多模態(tài)大模型利用思維鏈對生成的問答對進(jìn)行自糾正，具體包括：

34、在指令中表明多模態(tài)大模型的身份是圖片分析專家；

35、向多模態(tài)大模型輸入手機(jī)截屏圖片、步驟202輸出的圖片文本信息以及生成的問答對中的問題；

36、在指令中要求多模態(tài)大模型結(jié)合圖片以及圖片文本信息，給出與輸入的問題對應(yīng)的、盡可能簡潔的回答，并且生成的回答應(yīng)該只與圖片文本信息相關(guān)，且不引入外部知識(shí)；

37、指令給出回答對應(yīng)的理由，并表明回答的理由需要能在輸入的圖片中找到對應(yīng)的線索；

38、在指令中提供輸出的樣例，并強(qiáng)調(diào)多模態(tài)大模型按照該樣例格式逐個(gè)輸出問題、問題對應(yīng)的回答以及回答對應(yīng)的線索；

39、使用該步驟最后得到的結(jié)果替換步驟202生成的回答進(jìn)行后續(xù)篩選。

40、優(yōu)選的，所述構(gòu)建指令驅(qū)動(dòng)大語言模型篩選掉生成的問答對中和手機(jī)截屏圖片中的文字無關(guān)的問答對，具體包括：

41、判斷步驟201是否有成功獲取手機(jī)截屏圖片的文本內(nèi)容描述；

42、如果成功獲取了手機(jī)截屏圖片的文本內(nèi)容描述，則將文本內(nèi)容描述和上一步生成的問題作為輸入；

43、在指令中要求大語言模型判斷該問題是否與輸入的文本內(nèi)容描述相關(guān)；

44、如果步驟201中未能成功獲取手機(jī)截屏圖片中的文本內(nèi)容描述，則將步驟202總結(jié)的圖片文本信息和上一步生成的問題作為輸入，構(gòu)建指令要求大語言模型判斷輸入的問題是否與輸入的圖片文本信息相關(guān)；

45、根據(jù)大語言模型的判斷，篩選掉問答對中和手機(jī)截屏圖片中的文本內(nèi)容無關(guān)的問答，最終得到高質(zhì)量的問答對數(shù)據(jù)。

46、第二方面，本發(fā)明還提供了一種基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成裝置，用于實(shí)現(xiàn)第一方面所述的基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法，所述裝置包括：

47、至少一個(gè)處理器；以及，與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述處理器執(zhí)行，用于執(zhí)行第一方面所述的基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法。

48、第三方面，本發(fā)明還提供了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，該計(jì)算機(jī)可執(zhí)行指令被一個(gè)或多個(gè)處理器執(zhí)行，用于完成第一方面所述的方法。

49、第四方面，提供了一種芯片，包括：處理器和接口，用于從存儲(chǔ)器中調(diào)用并運(yùn)行存儲(chǔ)器中存儲(chǔ)的計(jì)算機(jī)程序，執(zhí)行如第一方面的方法。

50、第五方面，提供了一種包含指令的計(jì)算機(jī)程序產(chǎn)品，當(dāng)該指令在計(jì)算機(jī)或處理器上運(yùn)行時(shí)，使得計(jì)算機(jī)或處理器執(zhí)行如第一方面的方法。

51、本發(fā)明通過利用多模態(tài)大模型提取手機(jī)屏幕截圖文本內(nèi)容信息，將文本內(nèi)容信息和手機(jī)截屏圖片作為輸入，通過構(gòu)建強(qiáng)調(diào)思維鏈、指定大模型身份等方法構(gòu)建多條指令組成指令庫，驅(qū)動(dòng)多模態(tài)大模型生成和圖片文本內(nèi)容相關(guān)的數(shù)量和格式合適的問答對。除此之外，還利用多模態(tài)大模型和大語言模型對生成的問答對進(jìn)行自糾和篩選，從而保證最終生成的問答對的準(zhǔn)確性。這個(gè)利用多模態(tài)大模型和大語言模型自動(dòng)處理手機(jī)屏幕截屏的流程，能高效生成高質(zhì)量問答對訓(xùn)練數(shù)據(jù)，來幫助提升多模態(tài)大模型在移動(dòng)端數(shù)字文本理解任務(wù)中的性能。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉禹良,匡嚞玢,伏凌,羅琪頔,黎宇哲,宋家俊,朱泠皞,白翔
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

上一篇：Tray盤的制作方法
上一篇：點(diǎn)焊機(jī)治具的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多模態(tài)大模型的手機(jī)截屏文本內(nèi)容問答對生成方法