欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

搜索系統(tǒng)和相應(yīng)方法

文檔序號:8909170閱讀:817來源:國知局
搜索系統(tǒng)和相應(yīng)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及電子捜索系統(tǒng),例如電子捜索引擎,化及用于電子捜索的相應(yīng)的方法。 技術(shù)背景
[0002] 傳統(tǒng)上,捜索引擎已被設(shè)計(jì)成返回相關(guān)文件(例如網(wǎng)頁)來響應(yīng)用戶查詢。要做 到該一點(diǎn),捜索引擎將用戶查詢(包括關(guān)鍵字)與分配給特定網(wǎng)頁的索引項(xiàng)或標(biāo)簽進(jìn)行比 較。如果用戶輸入的關(guān)鍵字和網(wǎng)頁索引項(xiàng)匹配,則該捜索引擎會返回與用戶查詢相關(guān)的網(wǎng) 頁。
[0003] 然而,該方法存在一些缺點(diǎn)。為了使用傳統(tǒng)捜索引擎,用戶必須將他的捜索查詢提 煉成若干相關(guān)的關(guān)鍵字,或短問題,并且,在一般情況下,該捜索的結(jié)果高度取決于用戶對 于關(guān)鍵字的選擇。傳統(tǒng)捜索引擎并不能處理大量輸入文本或自然語言文本。此外,傳統(tǒng)捜 索引擎局限于返回一個(gè)或多個(gè)特定文件作為結(jié)果。
[0004] 此外,如果與特定網(wǎng)頁相關(guān)聯(lián)的索引項(xiàng)集不包括其中的一個(gè)關(guān)鍵字,那么傳統(tǒng)捜 索引擎可化會錯(cuò)誤地把網(wǎng)頁作為不相關(guān)的網(wǎng)頁丟棄。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供可W解決傳統(tǒng)捜索引擎的弊端的一些捜索系統(tǒng)和捜索方法。
[0006] 本發(fā)明設(shè)及概率驅(qū)動捜索系統(tǒng),該系統(tǒng)可W考慮到一系列證據(jù)源,來將相關(guān)的內(nèi) 容提供給用戶?;诿鞔_的捜索查詢或某些其它文本輸入,本發(fā)明的系統(tǒng)和方法使用統(tǒng)計(jì) 模型來將相關(guān)的內(nèi)容建議提供給用戶,所述統(tǒng)計(jì)模型由與可識別的多段內(nèi)容相關(guān)聯(lián)的數(shù)據(jù) 集推導(dǎo)出。
[0007] 本發(fā)明的第一個(gè)方面在于提供了一種捜索系統(tǒng)。所述捜索系統(tǒng)用于:接收文本輸 入,針對多段內(nèi)容中的每一段生成該段內(nèi)容與給定的文本輸入之間存在相關(guān)性的似然性的 估計(jì),并選擇性地輸出作為內(nèi)容建議的一段或多段最相關(guān)的內(nèi)容。
[0008] 所述捜索系統(tǒng)的優(yōu)選實(shí)施例包括統(tǒng)計(jì)模型。所述統(tǒng)計(jì)模型在與一段內(nèi)容相關(guān)聯(lián)的 文本上進(jìn)行訓(xùn)練,其中所述與一段內(nèi)容相關(guān)聯(lián)的文本是從多個(gè)不同的數(shù)據(jù)源中提取出的。 該系統(tǒng)用于;接收文本輸入,并通過統(tǒng)計(jì)模型生成該段內(nèi)容與給定的文本輸入之間存在相 關(guān)性的似然性的估計(jì)。
[0009] 在一個(gè)優(yōu)選實(shí)施例中,統(tǒng)計(jì)模型在一些特征上訓(xùn)練,該些特征是從與該段內(nèi)容相 關(guān)聯(lián)的文本中提取出的。其中所述系統(tǒng)還包括;特征提取機(jī)構(gòu),其用于從文本輸入中提取多 個(gè)(一些)特征;W及關(guān)聯(lián)機(jī)構(gòu),其用于W所述文本輸入的各特征查詢統(tǒng)計(jì)模型,從而生成 該段內(nèi)容與給定的文本輸入之間存在相關(guān)性的似然性的估計(jì)。
[0010] 優(yōu)選地,所述系統(tǒng)包括在與多段內(nèi)容相關(guān)聯(lián)的文本上訓(xùn)練的多個(gè)統(tǒng)計(jì)模型。所述 系統(tǒng)用于;通過與多段內(nèi)容中的每一段相關(guān)聯(lián)的統(tǒng)計(jì)模型,生成所述多段內(nèi)容中的各段內(nèi) 容與給定的文本輸入之間存在相關(guān)性的似然性的估計(jì)。
[0011] 所述系統(tǒng)可用于根據(jù)相關(guān)性將所述多段內(nèi)容排序,并確定一段或多段最相關(guān)的內(nèi) 容。
[0012] 所述系統(tǒng)可用于輸出所述一段或多段最相關(guān)的內(nèi)容中的各段內(nèi)容的至少一個(gè)代 表。
[0013] 所述系統(tǒng)可用于輸出一段或多段最相關(guān)的內(nèi)容。
[0014] 該段內(nèi)容可W是特定的實(shí)體或與特定實(shí)體相關(guān)聯(lián)的內(nèi)容。
[0015] 所述系統(tǒng)可用于輸出與所述一段或多段最相關(guān)的內(nèi)容相關(guān)聯(lián)的一個(gè)或多個(gè)實(shí)體 的至少一個(gè)代表。
[0016] 所述系統(tǒng)可W包括在與一段或多段內(nèi)容有關(guān)的非文本數(shù)據(jù)上訓(xùn)練的統(tǒng)計(jì)模型。優(yōu) 選地,所述系統(tǒng)用于接收非文本證據(jù),并通過在非文本數(shù)據(jù)上訓(xùn)練的統(tǒng)計(jì)模型,生成該段內(nèi) 容與給定的非文本證據(jù)之間存在相關(guān)性的似然性估計(jì)。
[0017] 所述系統(tǒng)可W包括用于對文本輸入進(jìn)行分類的分類器。
[0018] 所述分類器可W用于對多個(gè)在文本上訓(xùn)練的統(tǒng)計(jì)模型中的每一個(gè)模型按內(nèi)容類 型分類,對文本輸入按內(nèi)容類型分類,并確定與所述文本輸入屬于相同內(nèi)容類型的多個(gè)統(tǒng) 計(jì)模型的子集。優(yōu)選地,所述關(guān)聯(lián)引擎用于W文本輸入的各特征來查詢統(tǒng)計(jì)模型的子集的 各統(tǒng)計(jì)模型,W生成與所述模型的子集的各模型相關(guān)聯(lián)的各段內(nèi)容與給定的文本輸入之間 存在相關(guān)性的似然性估計(jì)。
[0019] 所述系統(tǒng)可W包括在自然語言文本上訓(xùn)練的第一語言模型和在對話文本上訓(xùn)練 的第二語言模型。所述分類器可W用于將一部分文本輸入與第一、第二模型進(jìn)行比較,W將 該部分文本輸入分類為自然語言或?qū)υ捳Z言。優(yōu)選地,如果該部分文本輸入分類為對話語 言,則所述系統(tǒng)用于丟棄該部分文本輸入。
[0020] 文本輸入可W通過用戶輸入到系統(tǒng)中??商娲?,文本輸入不通過用戶輸入到系 統(tǒng)中。例如,無需用戶干預(yù),將文本輸入提供給系統(tǒng),例如該系統(tǒng)可接收來自,但不限于,電 視或無線電廣播、因特網(wǎng)網(wǎng)頁、電子郵件會話、新聞推送等的文本輸入。
[0021] 所述系統(tǒng)可W用于根據(jù)多個(gè)證據(jù)源生成多段內(nèi)容的相關(guān)性的似然性估計(jì),其中所 述多個(gè)證據(jù)源之一是文本輸入。所述系統(tǒng)因此可W用于接收多個(gè)證據(jù)。
[0022] 優(yōu)選地,所述系統(tǒng)包括內(nèi)容數(shù)據(jù)庫,在該內(nèi)容數(shù)據(jù)庫中各段內(nèi)容與多個(gè)數(shù)據(jù)集類 型(例如文本、用戶點(diǎn)擊歷史等)相關(guān)聯(lián)。優(yōu)選地,各段內(nèi)容與內(nèi)容類型(例如,電影、文獻(xiàn) 等)相關(guān)聯(lián)。優(yōu)選地,所述內(nèi)容數(shù)據(jù)庫包括至少一種基于語言的與各段內(nèi)容相關(guān)聯(lián)的統(tǒng)計(jì) 模型,其中所述至少一個(gè)基于語言的統(tǒng)計(jì)模型在與所述一段內(nèi)容相關(guān)聯(lián)的文本數(shù)據(jù)集上訓(xùn) 練。優(yōu)選地,所述系統(tǒng)用于將所述輸入文本提供給多個(gè)基于語言的統(tǒng)計(jì)模型,W生成各段內(nèi) 容與給定的輸入文本之間存在相關(guān)性的似然性估計(jì)。優(yōu)選地,所述系統(tǒng)除使用輸入文本之 夕F,還使用非文本證據(jù)來生成該似然性估計(jì)。
[0023] 基于語言的統(tǒng)計(jì)模型是在文本上訓(xùn)練過的統(tǒng)計(jì)模型。
[0024] 本發(fā)明的第二個(gè)方面在于,提供一種用于提供一個(gè)或多個(gè)內(nèi)容建議的捜索內(nèi)容的 方法。所述方法包括;接收文本輸入,對多段內(nèi)容中的各各段內(nèi)容,生成該段內(nèi)容與給定的 文本輸入之間存在相關(guān)性的似然性估計(jì),并選擇性地輸出作為內(nèi)容建議的一段或多段最相 關(guān)的內(nèi)容。
[0025] 在一優(yōu)選實(shí)施例中,所述方法為用于確定一段內(nèi)容是否與文本輸入相關(guān)的方法。 所述方法包括:在捜索系統(tǒng)接收文本輸入,并通過在與一段內(nèi)容相關(guān)聯(lián)的文本上訓(xùn)練的統(tǒng) 計(jì)模型,生成該段內(nèi)容與給定的文本輸入之間存在相關(guān)性的似然性估計(jì)。所述與該段內(nèi)容 相關(guān)聯(lián)的文本是從多個(gè)不同的數(shù)據(jù)源中提取出的。
[0026] 在一優(yōu)選實(shí)施例中,所述統(tǒng)計(jì)模型在從與該段內(nèi)容相關(guān)聯(lián)的所述文本中提取的特 征上訓(xùn)練。所述方法進(jìn)一步包括;通過特征提取機(jī)構(gòu)從所述文本輸入中提取特征,并通過關(guān) 聯(lián)機(jī)構(gòu)W文本輸入的各特征查詢統(tǒng)計(jì)模型,W生成該段內(nèi)容與給定的文本輸入之間存在相 關(guān)性的似然性估計(jì)。
[0027] 優(yōu)選地,所述方法包括使用了與多段內(nèi)容相關(guān)聯(lián)的文本上訓(xùn)練的多個(gè)統(tǒng)計(jì)模型的 似然性估計(jì)生成步驟,所述似然性估計(jì)生成步驟具體為:通過與所述多段內(nèi)容中的各段內(nèi) 容相關(guān)聯(lián)的統(tǒng)計(jì)模型,生成多段內(nèi)容中的各段內(nèi)容與給定的文本輸入之間存在相關(guān)性的似 然性估計(jì)
[0028] 所述方法可W進(jìn)一步包括;根據(jù)相關(guān)性將所述多段內(nèi)容排序,并確定一段或多段 最相關(guān)的內(nèi)容。
[0029] 所述方法可W進(jìn)一步包括;輸出所述一段或多段最相關(guān)的內(nèi)容中的各段內(nèi)容的至 少一個(gè)代表。
[0030] 所述方法可W進(jìn)一步包括;輸出一段或多段最相關(guān)的內(nèi)容。
[0031] 所述一段內(nèi)容可W是特定的實(shí)體。所述一段內(nèi)容可W與特定實(shí)體相關(guān)聯(lián),所述方 法進(jìn)一步包括:輸出與所述一段或多段最相關(guān)的內(nèi)容相關(guān)聯(lián)的一個(gè)或多個(gè)實(shí)體的至少一個(gè) 代表。
[0032] 所述方法可W包括;通過在與一段或多段內(nèi)容相關(guān)的非文本數(shù)據(jù)上訓(xùn)練的統(tǒng)計(jì)模 型,生成多段內(nèi)容中的各段內(nèi)容與給定的非文本數(shù)據(jù)之間存在相關(guān)性的似然性估計(jì)。
[0033] 本發(fā)明的一個(gè)實(shí)施例中,所述方法包括;通過分類器對文本輸入進(jìn)行分類。
[0034] 所述方法可W包括;通過分類器對在文本上訓(xùn)練的所述多個(gè)統(tǒng)計(jì)模型中的每一個(gè) 按內(nèi)容類型分類,對文本輸入按內(nèi)容類型分類,W及確定與所述文本輸入屬于相同內(nèi)容類 型的多個(gè)統(tǒng)計(jì)模型的子集。
[00巧]所述方法包括;通過所述關(guān)聯(lián)引擎,W文本輸入的各特征來查詢統(tǒng)計(jì)模型的子集 的各統(tǒng)計(jì)模型,W及生成各段內(nèi)容與給定的文本輸入之間存在相關(guān)性的似然性估計(jì),其中 所述各段內(nèi)容與所述模型的子集的各模型相關(guān)聯(lián)。
[0036] 所述系統(tǒng)可W包括;在自然語言文本上訓(xùn)練的第一語言模型和在對話文本上訓(xùn)練 的第二語言模型,而所述方法可W包括;通過分類器,將一部分文本輸入與第一、第二模型 進(jìn)行比較;并將該部分文本輸入分類為自然語言或?qū)υ捳Z言。所述方法可W進(jìn)一步包括: 當(dāng)該部分文本輸入分類為對話語言時(shí)丟棄該部分文本輸入。
[0037] 所述文本輸入可W通過用戶輸入到系統(tǒng)中??商娲?,所述文本輸入不通過用戶 輸入到系統(tǒng)中。
[0038] 優(yōu)選地,根據(jù)多個(gè)證據(jù)源生成所述多段內(nèi)容的相關(guān)性的似然性估計(jì),其中所述多 個(gè)證據(jù)源之一是文本輸入。所述方法可W包括;接收一個(gè)或多個(gè)額外的證據(jù)。
[0039] 優(yōu)選地,生成上述估計(jì)的步驟包括:除了基于輸入文本外還基于非文本證據(jù)進(jìn)行 估計(jì)。
[0040] 本發(fā)明的第=個(gè)方面在于,提供了一種包括計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)程序產(chǎn)品, 在所述計(jì)算機(jī)可讀介質(zhì)上存儲有計(jì)算機(jī)程序手段,該計(jì)算機(jī)程序手段用于使處理器執(zhí)行W 上所描述的任何一種方法。
【附圖說明】
[0041] 通過參考下面的附圖,進(jìn)一步的解釋本發(fā)明。
[0042] 圖1是根據(jù)本發(fā)明的高層系統(tǒng)架構(gòu)的方框圖。
[0043] 其中,圖1中各標(biāo)記分別為;用戶5,關(guān)聯(lián)引擎10,內(nèi)容數(shù)據(jù)庫20,內(nèi)容建議30,多 個(gè)證據(jù)源50,其它證據(jù)51,內(nèi)容類型證據(jù)52,用戶證據(jù)53,語境證據(jù)54,焦點(diǎn)證據(jù)55,分類 器60。
【具體實(shí)施方式】
[0044]"內(nèi)容"為本領(lǐng)域技術(shù)人員所公知的術(shù)語,并且可包括,但不限于W下之一;文件、 新聞報(bào)道、視頻、圖像、應(yīng)用程序、聲音片段、文本片段等。在本申請的上下文中,"一段內(nèi)容" 指特定內(nèi)容(例如,特定的電影、書籍、新聞報(bào)道、應(yīng)用程序等),所述特定內(nèi)容與從多個(gè)不 同的數(shù)據(jù)源(例如,轉(zhuǎn)入應(yīng)用程序的鏈接、應(yīng)用程序的文本、對于該應(yīng)用程序的評論、應(yīng)用 程序的下載數(shù)量等)中提取的數(shù)據(jù)相關(guān)聯(lián),該種數(shù)據(jù)可W包括文本和非文本(如點(diǎn)擊歷史 記錄)數(shù)
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
新乡县| 北辰区| 滨海县| 定日县| 甘德县| 北海市| 高雄县| 河东区| 长垣县| 通许县| 陇南市| 渭源县| 磐石市| 余姚市| 阿城市| 永春县| 巢湖市| 新津县| 磐石市| 平远县| 自贡市| 宜宾市| 华亭县| 芷江| 余姚市| 台江县| 东兰县| 治县。| 南康市| 苏尼特右旗| 治多县| 桐庐县| 方城县| 阜新市| 岳池县| 鹤庆县| 宁夏| 韶山市| 深泽县| 金川县| 公安县|