專利名稱:一種智能虛擬交互方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機操作技術(shù)領(lǐng)域,尤其是涉及一種人與計算機交互的方法。
背景技術(shù):
人機交互(Human-Computer Interaction)是計算機學科中一個新的分支學科。它是計算機科學和認知心理學兩大科學相結(jié)合的產(chǎn)物,它涉及當前許多熱門的計算機技術(shù),如可用性工程、人工智能、自然語言處理、多媒體系統(tǒng)等,同時也是吸收了語言學、人機工程學和社會學的研究成果,是一門交叉性、邊緣性、綜合性的學科。而隨著計算機應用領(lǐng)域的不斷擴大,廣大的軟件研制人員和計算機用戶迫切地需要符合“簡單、自然、友好、一致”原則的人機界面。事實上,幾乎所有優(yōu)秀的系統(tǒng)設計和成功的軟件產(chǎn)品都必定涉及到友好的人機界面。沒有好的交互界面,系統(tǒng)的性能再好也不能算是一個好的系統(tǒng)。
當今的計算機開發(fā)已經(jīng)從單一的實現(xiàn)功能轉(zhuǎn)向以用戶為中心的設計方法。微軟、IBM,、ORACLE這些大企業(yè)的產(chǎn)品用戶在二維界面方面做得很完善。其實這正是他們?yōu)檫m應時代發(fā)展不惜代價利用統(tǒng)計學的方法跟蹤、調(diào)查、實驗、分析用戶的操作習慣和審美取向。簡單地說就是他們肯花大價錢搞清楚用戶到底喜歡什么樣的操作界面。這些做法當然都是最有效的,最符合科學規(guī)律的,也最能解決我們在界面設計中碰到的各種問題。
盡管目前計算機二維界面已經(jīng)被開發(fā)得較完善,但是仍有不足之處?,F(xiàn)在計算機輸出的內(nèi)容已經(jīng)可以快速、連續(xù)地顯示彩色圖像,其信息顯示量非常大。而人們的輸入?yún)s還是使用鍵盤一個又一個地敲擊,因而,計算機的輸入帶寬是很低的。另外非精確交互技術(shù)性差,精確交互技術(shù)是指能用一種技術(shù)來完全說明用戶交互目的的交互方式,鍵盤和鼠標器均需用戶精確輸入。而人們的動作或思想往往并不很精確,計算機應該理解人的要求,甚至于糾正人的錯誤,應具有智能化的界面。沒有充分發(fā)揮多通道界面的功能,多通道界面指在充分利用一個以上的感覺和運動通道的互補特性來捕捉用戶的意向,從而增進人機交互中的自然性。人的感覺通道有視覺、聽覺、觸覺、嗅覺和平衡等;人的運動通道有手、嘴、眼、頭、足及身體等。現(xiàn)在,計算機操作時,人的眼和手十分累,效率也不高。若將聽、說和手、眼等協(xié)同動作,采用多通道、以自然方式交互,可以實現(xiàn)高效人機通信,也可以由人或機器選擇最佳反應通道,從而不會使某一通道負擔過重。即加快了操作速度又減少了等待的時間。
人們對未來操作界面設計方案仍然希望以人為中心。以用戶對界面的需求變化為出發(fā)點,使用戶界面的外在形式和內(nèi)部機制能符合不同用戶的需要,這就是以人為中心的設計思想。特定人的語音識別技術(shù)將使計算機能理解人們的要求,是一種重要的輸入界面和手段。魚眼(Fisheye)技術(shù)使屏幕觀察(或光標)位置附近的內(nèi)容被放大,便于用戶觀察。在傳統(tǒng)的人機系統(tǒng)中,人被認為是操作者,人去適應機器;在一般的人機系統(tǒng)中,人被稱為用戶,能與機器對話,但無主動控制能力;而在虛擬現(xiàn)實系統(tǒng)中,人能夠成為主動的參與者,機器將對人的各種動作做出反應。各種系統(tǒng)才能方便人們的學習和使用。新一代的用戶界面應該支持高的輸入帶寬,快速大批量地輸入信息。語音、圖像及姿勢等的輸入和理解是今后的發(fā)展方向。
發(fā)明內(nèi)容
針對目前計算機操作存在的不足,為了實現(xiàn)以人為中心、除鍵盤和鼠標操作工具以外的其他方式操作計算機的目的,基于人與人的交互理念,發(fā)明了一種智能虛擬交互方法。
本發(fā)明采取的技術(shù)方案是一種智能虛擬交互方法,其技術(shù)特點是首先在三維桌面系統(tǒng)中創(chuàng)建一個較為逼真的三維立體虛擬人或動物,此人或動物不僅可以發(fā)音說話,而且還能夠具有一些行為動作。然后將此虛擬人或動物與語音識別相連接,同時還與操作系統(tǒng)中的文檔管理、運行軟件的啟動、關(guān)閉等相連接,使該虛擬人或動物可以進行計算機中的各種操作。
當打開計算機時,所創(chuàng)建的虛擬人或動物自動走到前臺,主動說話詢問用戶想要做什么?用戶可以用語言與其對話,告知其想要計算機所做的事,例如打開某文檔或啟動某程序或打開瀏覽器上網(wǎng)等,然后計算機中的虛擬人或動物根據(jù)語言指令將進行相關(guān)的服務操作。無需用戶利用鍵盤或鼠標進行一步一步地操作,即靠人與虛擬人或動物的交互來操作計算機。
由于在計算機中創(chuàng)建了虛擬人或動物,使語音識別技術(shù)的應用更加人性化。目前語音識別技術(shù)對于特定人的幾百個語言指令的識別已達到實用化程度,但是由于人們不習慣與機器進行語言交流,因此語音識別技術(shù)難以在計算機的操作中被推廣使用。利用在計算機中創(chuàng)建虛擬人或動物的方法,使人感到是與計算機中的虛擬人或動物在進行交互,而不是與枯燥的機器在進行交互,很容易被人們所接受。由于在計算機中有了虛擬人或動物,使人與計算機的交互更加自然、更加容易。
在計算機中所創(chuàng)建的虛擬人或動物不僅要具有真實感,而且具有說話和做各種動作的功能。當操作者與該虛擬人或動物對話時,如果對操作者所發(fā)出的語言指令未能“聽懂”(識別)時,就按虛擬人自身的理解反問一次。例如操作者說“請將WEB打開!”,虛擬人或動物按自己的理解反問“是讓我將外部文檔打開嗎?”,操作者若說不是,就請再重復一遍指令,直到操作者說是或?qū)r,虛擬人或動物即按指令進行操作,同時將操作者第一次所發(fā)出的語言指令存儲下來,使下一次再發(fā)出同樣的指令能夠立即識別出來。當操作者經(jīng)常使用自己的計算機時,此計算機中的虛擬人或動物對操作者的語言指令就會理解的越來越正確,操作的速度也就越來越快。
當操作者操作其他計算機時可以將自己計算機中的虛擬人或動物對自己語言的理解特征拷入到其他計算機中,使其他計算機也具有同樣能夠很快聽懂自己語言指令的虛擬人或動物。這中方法使人利用語言指令操作計算機很快就能擺脫鼠標和鍵盤,使語音操作計算機得到普及應用。由于計算機中所創(chuàng)建的虛擬人或動物與計算機中的文檔、應用程序及配置管理等在內(nèi)部事先已連接好,無需操作者再按照計算機中操作系統(tǒng)所規(guī)定的步驟進行一步一步操作,因此對不熟悉計算機操作系統(tǒng)的人也將會使用計算機。本發(fā)明可以不必學習操作系統(tǒng)的操作方法就可以利用自然語言使計算機為使用者服務,而且對計算機的操作既快捷、又方便。
本發(fā)明實際有益效果是1、人與計算機的交互更加人性化,使操作者感到是人與人的交互,而不是人與機器的交互;2、在計算機中創(chuàng)建的較為逼真的虛擬人或動物,使語音識別技術(shù)在計算機操作中的應用更加容易被操作者所接受,有利于語音識別技術(shù)的推廣應用和發(fā)展;3、人們不必學習操作系統(tǒng)的操作步驟同樣可以快捷、方便地操作計算機;4、為計算機的操作提供了一種有效、實用的新途徑。
圖1智能虛擬交互方法的主流程圖。
圖2在三維桌面系統(tǒng)中導入的虛擬人圖。
圖3虛擬人動作圖(a為轉(zhuǎn)身;b為行走)。
圖4虛擬人在桌面系統(tǒng)中語音交互流程圖。
圖5虛擬人啟動游戲的場景圖。
具體實施例方式
下面結(jié)合附圖和具體實施實例對本發(fā)明作進一步說明。
根據(jù)流程圖1首先利用3DSMax工具制作出三維立體人(創(chuàng)建動物可用同樣的技術(shù)),并創(chuàng)建出轉(zhuǎn)身、行走等一些規(guī)范性動作,然后導入到三維桌面系統(tǒng)中,如圖2所示。虛擬人模型是Model類,其中最為重要的是CalCoreModel*m_calCoreModel成員變量。通過調(diào)用Model類的onInit方法來進行虛擬人信息的加載。從而分別載入配置文件中對應意義的數(shù)據(jù)文件。最后所有的信息都被放入m_calCoreModel中。同樣可以完成對m_vectorCoreAnimation、m_vectorCoreMesh和m_vectorCoreMaterial的載入。在載入材質(zhì)文件的過程中,有帶紋理圖的情況,這時需要用紋理圖ponytail.tga生成對應的紋理對象,將紋理對象號也存入CalCoreMaterial對象中。
每個生成的CalCoreMaterial對象對應著一個MeterialID,而每個CalCoreMesh對象在載入時會得到本mesh對應的MeterialID,這樣在幾何頂點與材質(zhì)紋理之間就可以進行正確關(guān)聯(lián)。最終,生成核心對象m_calCoreModel,完成虛擬人的導入。
將虛擬人導入到三維桌面系統(tǒng)后,當開機進入三維桌面系統(tǒng)時或當光標觸碰到該虛擬人時,虛擬人即說出“需要我做什么?”等簡單對話,如圖2所示,該虛擬人具有語音識別和發(fā)音功能。此項功能的基本設計是當計算機啟動后,虛擬人掛接的語音識別和發(fā)音軟件同時啟動,當操作者發(fā)出的語言指令被虛擬人聽懂(識別出來)后,即回答“遵命!”,同時按指令執(zhí)行相應的操作。當被執(zhí)行的操作文檔或軟件在本地空間時,虛擬人可以站立不動或只有轉(zhuǎn)身動作,如圖3a所示;當被執(zhí)行的文檔或軟件不在本地空間時,虛擬人將轉(zhuǎn)身走出此空間去打開文檔或應用軟件,然后再走回來,如圖3b所示。
當虛擬人沒有聽懂(未識別出來)或不能確定操作者所發(fā)的指令時,就按虛擬人自己識別出的意思(或理解的內(nèi)容“你是要讓我做…嗎?”)回答一遍。操作者若認為不對,可以再重復一次此指令,直到虛擬人回答正確,操作者再說“是的”,然后虛擬人回答“遵命!”即執(zhí)行操作。如流程圖4所示,此時將操作者第一次發(fā)出的指令與虛擬人回答正確的最后一次相匹配,當下一次操作者再發(fā)此指令時,虛擬人可以很快識別出來,將直接回答“遵命!”。即這種特定語音的特征將被記錄下來,經(jīng)過一段時間的交互,虛擬人將能夠很快“聽懂”特定操作者的語音指令,實際上是一個學習的過程。將這種特定語音特征與虛擬人捆綁在一起,可以拷貝到優(yōu)盤中隨身攜帶(實際上只要將特定語音的識別特征拷貝到優(yōu)盤中即可)。當使用其他裝有虛擬人的計算機時,操作者將此虛擬人語音識別特征拷入到這臺計算機中,使虛擬人不必再重新學習特定操作者的語音特征,即可與使用自己原有的計算機一樣,最終實現(xiàn)每個操作者都有自己的服務秘書——虛擬人。
如主流程圖1所示,虛擬人可以直接進行文件管理、上網(wǎng)查詢、收發(fā)郵件、各種配置等操作。虛擬人不僅具有各種查詢功能,例如“幫我查找某文檔”、“某郵件是否收到”、“今天是什么日子”等;而且虛擬人還具有記憶功能,對于操作者安排給虛擬人的計劃能夠按時提醒和操作,例如操作者可以告知虛擬人“當接收到某郵件時,請立即轉(zhuǎn)發(fā)給另外某人”;“請?zhí)嵝盐以诿魈煜挛缛プ瞿呈隆?;“請將某文檔于后天發(fā)給某人”等。虛擬人的智能化是根據(jù)操作者的語意寫出文檔,甚至可以根據(jù)操作者說出的題目或大概意識自動在本地機或網(wǎng)上搜尋相關(guān)內(nèi)容,然后形成文檔,再由操作者進行修改。所創(chuàng)建的虛擬人與現(xiàn)實中的秘書具有相似的基本功能和作用,使所用的計算機成為一個得力的、并具有活力和生機的秘書。
該項發(fā)明利用虛擬人的方法,基于人與人交互的形式,利用語音交互來實現(xiàn)對計算機的操作。利用3DSMax首先實現(xiàn)了三維人體模型的制作,并在此基礎上實現(xiàn)了人體的各種動作,然后將三維人體模型和各種基本動作導入到三維桌面系統(tǒng)中。并將導入的三維人體的各種動作與應用軟件相掛接,最終實現(xiàn)自然語言命令虛擬人來操作計算機的目的。利用該技術(shù)同樣可以實現(xiàn)對各種文檔的操作,以及對計算機操作系統(tǒng)內(nèi)部操作和相互間的管理等需要用戶所做的事。這一技術(shù)的實現(xiàn)標志著在計算機中的虛擬人可以代替人進行計算機操作,該項發(fā)明方法在計算機操作方面開創(chuàng)了人與人的交互模式。
在目前已有的技術(shù)基礎上,只要裝上語音識別和發(fā)音軟件,開機時自動開啟語音識別發(fā)音程序,當光標碰到虛擬人時,虛擬人將會自動“說話”詢問并請求用戶需要她做什么,用戶可以對虛擬人用語言發(fā)出指令,虛擬人將會為用戶進行煩瑣的計算機操作。這種人與人交互理念的實現(xiàn),使計算機的操作增加了智能化功能,這是目前所使用的操作系統(tǒng)所不具有的。在操作系統(tǒng)中實現(xiàn)智能化的人與人的交互模式,這一創(chuàng)新將對計算機的操作更加簡單、快捷。同時為計算機的操作開創(chuàng)了一個新的發(fā)展方向。
該項發(fā)明使人機界面更加友好,對計算機操作如同現(xiàn)實生活中人與人的交互一樣,不必學習如何操作計算機的各種步驟,因為虛擬人與這些操作在內(nèi)部都連接,只要給虛擬人下指令就可以了。如圖5所示,是用戶命令虛擬人打開一個游戲的場景,不需要用戶利用鼠標在繁多的文檔中點來點去地尋找,虛擬人為用戶操作計算機給予了很好的服務。
隨著計算機行業(yè)的不斷發(fā)展,三維桌面系統(tǒng)將會被廣泛推廣應用,計算機將會更加接近現(xiàn)實生活。將現(xiàn)實生活中的場景和操作方式在計算機中實現(xiàn),不僅拉近了計算機與用戶的距離,而且將會積極促進計算機的發(fā)展?;诂F(xiàn)實生活人與人交互的理念,發(fā)明這種智能虛擬交互方法,使計算機的操作更加人性化和智能化,并具有更好的實用性和推廣應用前景。
權(quán)利要求
1.一種智能虛擬交互方法,在計算機操作系統(tǒng)中創(chuàng)建虛擬人或動物,其特征是顯示在計算機桌面系統(tǒng)上,可以嘴部開合、眨眼、站立、轉(zhuǎn)身、行走等基本動作的虛擬人或動物;虛擬人或動物與語音識別和發(fā)音軟件相連接,與計算機操作系統(tǒng)中的文檔、應用軟件、計算機配置管理相連接。
2.根據(jù)權(quán)利要求1所述的一種智能虛擬交互方法,其特征是虛擬人或動物可以記錄特定人的語音特征,此語音特征可以拷貝到其他計算機中的虛擬人或動物上。
3.根據(jù)權(quán)利要求1所述的一種智能虛擬交互方法,其特征是虛擬人或動物在執(zhí)行操作指令的同時做出一定的動作。
全文摘要
本發(fā)明屬于計算機操作技術(shù)領(lǐng)域,尤其是涉及一種人與計算機交互的方法。這種智能虛擬交互方法是在計算機操作系統(tǒng)中創(chuàng)建虛擬人或動物,并與語音識別和發(fā)音軟件相連接,能夠發(fā)音和識別語音指令。所創(chuàng)建的虛擬人或動物顯示在計算機桌面系統(tǒng)中,與操作系統(tǒng)中的文檔、應用軟件及配置管理等相連接。虛擬人或動物在執(zhí)行指令時,能夠做出一定的動作,如同現(xiàn)實生活中的人與人交互,而不是與枯燥的機器在進行交互,很容易被人們所接受。本發(fā)明方法使人與計算機的交互更加自然、更加容易。操作者可以不必學習操作系統(tǒng)的操作方法就可以利用自然語言進行計算機操作,而且對計算機的操作既快捷、又方便。
文檔編號G06F3/048GK1889029SQ200610103470
公開日2007年1月3日 申請日期2006年7月24日 優(yōu)先權(quán)日2006年7月24日
發(fā)明者劉金剛 申請人:劉金剛