欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本的相關(guān)性計算方法和裝置制造方法

文檔序號:6509621閱讀:260來源:國知局
一種文本的相關(guān)性計算方法和裝置制造方法
【專利摘要】本發(fā)明實施方式提出一種文本的相關(guān)性計算方法和裝置。方法包括:接收第一字符串和第二字符串;計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符串的語義相關(guān)性特征值;基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第一字符串與第二字符串的相關(guān)性特征值。本發(fā)明實施方式提高了相關(guān)性判定的準確率,節(jié)約了存儲空間并降低了成本。
【專利說明】一種文本的相關(guān)性計算方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施方式涉及互聯(lián)網(wǎng)應(yīng)用【技術(shù)領(lǐng)域】,更具體地,涉及一種文本的相關(guān)性計 算方法和裝置。

【背景技術(shù)】
[0002] 隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)(Internet)在人們的日常生活、 學習和工作中發(fā)揮的作用也越來越大。互聯(lián)網(wǎng)上的各種應(yīng)用層出不窮。
[0003] 搜索廣告是互聯(lián)網(wǎng)廣告生態(tài)系統(tǒng)中一項非常重要的業(yè)務(wù),它依附于搜索引擎,本 質(zhì)上是基于關(guān)鍵詞的售賣匹配。廣告主在商業(yè)推廣的數(shù)據(jù)庫中,除了提供用于展示的廣告 標題、描述之外,還要附加一些與該廣告具有一定相關(guān)性的關(guān)鍵詞(即購買詞),并指定匹配 類型及出價以及定向匹配目標流量(即符合檢索意圖的用戶)。在經(jīng)典的匹配流程中,購買 詞形成了對廣告的直接索引。當用戶的查詢詞與廣告主的購買詞"匹配",相關(guān)性達到一定 程度,即認為滿足了廣告觸發(fā)的初選條件(這里假設(shè)先忽略其他定向及過濾環(huán)節(jié)),可以拉 取對應(yīng)的廣告(標題、描述)出來做進一步的后續(xù)精選,例如點擊率預(yù)估、廣告排序、展示策 略選擇等。
[0004] 在檢索(Retrieve)階段,廣告系統(tǒng)會利用用戶的查詢串,使用多種在線、離線的策 略做購買詞匹配。這里找到的購買詞都是廣告主在填寫物料時指定的、與廣告標題及描述 相關(guān)的短文本。在線上系統(tǒng)中度量查詢詞(query)與候選購買詞(bidterm)的相關(guān)性的本 質(zhì)是短文本之間的相關(guān)性。
[0005] 傳統(tǒng)上有很多基于字符串字面匹配的方法,離線在線的評估方法也有差別,都存 在一定的局限性。Google的Sahami等人提出利用短文本的網(wǎng)頁搜索結(jié)果作為語義擴展, 在此基礎(chǔ)上計算短文本之間的語義相關(guān)性,比單純的基于詞的效果更好。馬薩諸塞大學的 Metzler和Microsoft的Dumais等人也嘗試了多種短文本表示的方法用于計算語義相關(guān) 性。
[0006] 然而,傳統(tǒng)的基于文檔中詞向量空間模型的計算方法,在短文本上面臨特征稀疏 的問題。同時,由于短文本的分詞結(jié)果依賴于語言模型,并不能保證不同詞切分的一致,也 會在一定程度上加劇向量的稀疏。因此,傳統(tǒng)的基于文檔中詞向量空間模型的計算方法,具 有相關(guān)性判定準確率不高的缺點。
[0007] 而且,在傳統(tǒng)的基于文檔中詞向量空間模型的計算方法中,需要大量存儲空間來 儲存詞向量,因此還浪費了存儲空間并提高了成本。


【發(fā)明內(nèi)容】

[0008] 本發(fā)明實施方式提出一種文本的相關(guān)性計算方法,以提高相關(guān)性判定的準確率。
[0009] 本發(fā)明實施方式提出一種文本的相關(guān)性計算裝置,以提高相關(guān)性判定的準確率。 [0010] 本發(fā)明實施方式的技術(shù)方案如下:
[0011] 一種文本的相關(guān)性計算方法,該方法包括:
[0012] 接收第一字符串和第二字符串;
[0013] 計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符 串的語義相關(guān)性特征值;
[0014] 基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第一字 符串與第二字符串的相關(guān)性特征值。
[0015] 一種文本的相關(guān)性計算裝置,該裝置包括字符串接收單元、相關(guān)性特征值計算單 元和相關(guān)性特征值擬合單元,其中:
[0016] 字符串接收單元,用于接收第一字符串和第二字符串;
[0017] 相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串的文本相關(guān)性特征值 以及第一字符串與第二字符串的語義相關(guān)性特征值;
[0018] 相關(guān)性特征值擬合單元,用于基于邏輯回歸模型將所述文本相關(guān)性特征值與語義 相關(guān)性特征值擬合成第一字符串與第二字符串的相關(guān)性特征值。
[0019] 從上述技術(shù)方案可以看出,在本發(fā)明實施方式中,接收第一字符串和第二字符串; 計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符串的語義 相關(guān)性特征值;基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第 一字符串與第二字符串的相關(guān)性特征值。由此可見,本發(fā)明實施方式避免了基于文檔中詞 向量空間模型的計算方法,因此避免了特征稀疏的問題,從而提高了相關(guān)性判定的準確率, 而且節(jié)約了存儲空間并降低了成本。
[0020] 而且,本發(fā)明實施方式提出基于編輯距離、最長公共子序列等字符串層面的文本 相關(guān)性作為基礎(chǔ)特征,它們能從多個維度表達短串間文本相似度,能夠較好處理很多短文 本不規(guī)范、分詞不準或不一致的情況。
[0021] 另外,本發(fā)明實施方式提出基于文本分類、概率隱含語義分析的相關(guān)性特征,可以 充分挖掘短文本與構(gòu)成短文本的單詞之間的隱含關(guān)系,從而計算兩個短文本之間的類別聯(lián) 系和主題聯(lián)系,形成對文本相關(guān)性的特征補充。
[0022] 還有,本發(fā)明實施方式提出了基于詞的網(wǎng)頁搜索結(jié)果的相關(guān)性特征,依賴的詞典 資源數(shù)目可控,單機存儲空間、計算速度都有很大幅度的改進,使得在線實現(xiàn)短串間的輕量 級語義相關(guān)性計算成為可能。

【專利附圖】

【附圖說明】
[0023] 圖1為根據(jù)本發(fā)明實施方式文本的相關(guān)性計算方法流程圖;
[0024] 圖2為根據(jù)本發(fā)明實施方式的相關(guān)性計算裝置結(jié)構(gòu)圖。

【具體實施方式】
[0025] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進一步 的詳細描述。
[0026] 在各種應(yīng)用中,經(jīng)常會涉及到兩個短文本的相關(guān)性計算。兩個短文本的相關(guān) 性指二者在語義上存在的關(guān)聯(lián)程度,但不一定在字面上相似。相關(guān)性是一個比相似度 (Similarity)更廣泛的概念,在很多產(chǎn)品和系統(tǒng)中都具有重要意義。短文本是指長度較短 的字符串,比如在某些網(wǎng)絡(luò)應(yīng)用中不超過38個漢字等。
[0027] 購買詞(Bidterm)是競價廣告系統(tǒng)中廣告主提交的用于競價的購買詞;查詢詞 (Query)是搜索引擎中用戶提交的搜索關(guān)鍵詞。查詢詞和購買詞一般都是長度較短的文本 字符串,可以把所有的查詢詞和購買詞統(tǒng)稱為短文本。
[0028] 圖1為根據(jù)本發(fā)明實施方式文本的相關(guān)性計算方法流程圖。
[0029] 如圖1所示,該方法包括:
[0030] 步驟101 :接收第一字符串和第二字符串。
[0031] 在這里,第一字符串和第二字符串優(yōu)選均為短文本。比如,第一字符串和第二字符 串分別可以是查詢詞、購買詞等等。
[0032] 步驟102 :計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與 第二字符串的語義相關(guān)性特征值。
[0033] 文本層面的相關(guān)性特征主要度量短串之間的文本相似度。文本層面的相關(guān)性特征 只利用到了短串的文本信息,可以通過高效的優(yōu)化算法即時計算得到。
[0034] 比如,可以計算第一字符串與第二字符串基于編輯距離的相關(guān)性特征值,和/或 計算第一字符串與第二字符串基于最長公共子序列的相關(guān)性特征值。
[0035] 語義層面的相關(guān)性特征主要度量短串之間的概念、意義的相似度。
[0036] 在一個實施方式中,計算第一字符串與第二字符串的語義相關(guān)性特征值包括:
[0037] 構(gòu)建行業(yè)類別特征詞詞典(比如一級行業(yè)類別特征詞詞典);
[0038] 針對第一字符串,根據(jù)行業(yè)類別特征詞詞典獲取每個詞所屬的類別分布,然后將 各個詞的類別分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到第一字符串類別分 布;針對第二字符串,根據(jù)行業(yè)類別特征詞詞典獲取每個詞所屬的類別分布,然后將各個詞 的類別分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到第二字符串類別分布;
[0039] 計算第一字符串和第二字符串的類別分布的余弦夾角相似度,以得到第一字符串 和第二字符串的語義相關(guān)性特征值。
[0040] 優(yōu)選地,所述構(gòu)建行業(yè)類別特征詞詞典包括:
[0041] 基于人工標注的行業(yè)類別特征詞集合,采用全文匹配分類方式對各個網(wǎng)頁進行分 類;
[0042] 對于擁有分類屬性的網(wǎng)頁進行全文切詞,抽取類別特征詞,并將所抽取的類別特 征詞合并入所述行業(yè)類別特征詞集合,以構(gòu)建行業(yè)類別特征詞詞典。
[0043] 在一個實施方式中,計算第一字符串與第二字符串的語義相關(guān)性特征值包括:
[0044] 針對第一字符串,獲取每個詞所屬的主題分布,然后將該第一字符串中所有詞的 主題分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第一字符串的主題分布; 針對第二字符串,獲取每個詞所屬的主題分布,然后將該第二字符串中所有詞的主題分布 乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第二字符串的主題分布;
[0045] 計算第一字符串和第二字符串的主題分布的余弦夾角相似度,以得到第一字符串 和第二字符串的語義相關(guān)性特征值。
[0046] 在一個實施方式中,計算第一字符串與第二字符串的語義相關(guān)性特征值包括:計 算第一字符串與第二字符串基于統(tǒng)計機器翻譯的相關(guān)性特征值。
[0047] 在一個實施方式中,計算第一字符串與第二字符串的語義相關(guān)性特征值包括:計 算第一字符串與第二字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的語義相關(guān)性特征值。
[0048] 實際上,可以同時采用多種計算方式計算第一字符串與第二字符串的文本相關(guān)性 特征值。比如可以計算第一字符串與第二字符串基于編輯距離的相關(guān)性特征值,并計算第 一字符串與第二字符串基于最長公共子序列的相關(guān)性特征值,再將基于編輯距離的相關(guān)性 特征值以及基于最長公共子序列的相關(guān)性特征值同時作為計算出的文本相關(guān)性特征值以 參與步驟103的擬合計算。
[0049] 類似地,可以同時采用多種計算方式計算第一字符串與第二字符串的語義相關(guān)性 特征值。
[0050] 比如:計算第一字符串與第二字符串的語義相關(guān)性特征值包括下列中的至少一 個:
[0051] 計算第一字符串與第二字符串的基于編輯距離的相關(guān)性特征值;計算第一字符串 與第二字符串的基于最長公共子序列的相關(guān)性特征值;計算第一字符串與第二字符串的 基于文本分類的相關(guān)性特征值;計算第一字符串與第二字符串的基于概率潛在語義分析 (PLSA)的主題相關(guān)性特征值;計算第一字符串與第二字符串的基于統(tǒng)計機器翻譯的相關(guān)性 特征值;計算第一字符串與第二字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的相關(guān)性特征值。
[0052] 然后將所有計算出的語義相關(guān)性特征值參與步驟103的擬合計算。
[0053] 步驟103 :基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合 成第一字符串與第二字符串的相關(guān)性特征值。
[0054] 在這里,針對計算出的第一字符串與第二字符串的文本相關(guān)性特征值以及語義相 關(guān)性特征值,構(gòu)建特征向量;
[0055] 利用所述特征向量構(gòu)建訓(xùn)練樣例,并針對所述訓(xùn)練樣例使用二分類邏輯回歸模型 做訓(xùn)練,分別得到文本相關(guān)性特征值的權(quán)重、語義相關(guān)性特征值的權(quán)重以及偏置;
[0056] 利用文本相關(guān)性特征值的權(quán)重、文本相關(guān)性特征值、語義相關(guān)性特征值的權(quán)重、語 義相關(guān)性特征值以及偏置,計算所述相關(guān)性特征值。
[0057] 下面更詳細地描述本發(fā)明實施方式的文本的相關(guān)性計算方法。
[0058] 本發(fā)明解決的問題形式定義如下:
[0059] 給定兩個短文本1\、T2,計算反映其語義關(guān)聯(lián)程度的語義相關(guān)性RCT1, T2),其中 R(T1J2) e [0, 1]。
[0060] 對于一個短文本T,其字符串長度用|τ|表示,其分詞結(jié)果表示為Tit1Vut nJU 1\、T2的分詞結(jié)果分別為 Tftnt12. ·· tln,T2-t2it22. ·· t2n〇
[0061] 首先對兩個短文本分別計算多維度的相關(guān)性特征,然后使用邏輯回歸模型將多個 維度的相關(guān)性特征分值擬合成一個最終的語義相關(guān)性得分。
[0062] 具體如下:
[0063] 對于計算倆個短文本之間的文本相關(guān)性特征值,即計算文本層面的相關(guān)性特征, 由于文本層面的相關(guān)性特征主要度量短串之間的文本相似度,只利用到了短串的文本信 息,因此可以通過高效的優(yōu)化算法即時計算得到。
[0064] 比如:
[0065] (1)、基于編輯距離的相關(guān)性計算文本相關(guān)性特征值
[0066] 編輯距離(Edit Distance),又稱Levenshtein距離,是指兩個字符串之間,由一 個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字 符,插入一個字符,刪除一個字符。
[0067] 兩個短文本T1J2的編輯距離EditDist (T1, T2),可以通過時間復(fù)雜度0( I T11 * I T21) 的動態(tài)規(guī)劃算法計算得到。
[0068] 兩個短文本基于編輯距離的相關(guān)性特征計算公式如下:

【權(quán)利要求】
1. 一種文本的相關(guān)性計算方法,其特征在于,該方法包括: 接收第一字符串和第二字符串; 計算第一字符串與第二字符串的文本相關(guān)性特征值以及第一字符串與第二字符串的 語義相關(guān)性特征值; 基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成第一字符串 與第二字符串的相關(guān)性特征值。
2. 根據(jù)權(quán)利要求1所述的文本的相關(guān)性計算方法,其特征在于,所述計算第一字符串 與第二字符串的文本相關(guān)性特征值包括: 計算第一字符串與第二字符串基于編輯距離的相關(guān)性特征值,和/或計算第一字符串 與第二字符串基于最長公共子序列的相關(guān)性特征值。
3. 根據(jù)權(quán)利要求1所述的文本的相關(guān)性計算方法,其特征在于,所述計算第一字符串 與第二字符串的語義相關(guān)性特征值包括: 構(gòu)建行業(yè)類別特征詞詞典; 針對第一字符串,根據(jù)行業(yè)類別特征詞詞典獲取每個詞所屬的類別分布,然后將各個 詞的類別分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到第一字符串類別分布; 針對第二字符串,根據(jù)行業(yè)類別特征詞詞典獲取每個詞所屬的類別分布,然后將各個詞的 類別分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到第二字符串類別分布; 計算第一字符串和第二字符串的類別分布的余弦夾角相似度,以得到第一字符串和第 二字符串的語義相關(guān)性特征值。
4. 根據(jù)權(quán)利要求3所述的文本的相關(guān)性計算方法,其特征在于, 所述構(gòu)建行業(yè)類別特征詞詞典包括: 基于人工標注的行業(yè)類別特征詞集合,采用全文匹配分類方式對各個網(wǎng)頁進行分類; 對于擁有分類屬性的網(wǎng)頁進行全文切詞,抽取類別特征詞,并將所抽取的類別特征詞 合并入所述行業(yè)類別特征詞集合,以構(gòu)建行業(yè)類別特征詞詞典。
5. 根據(jù)權(quán)利要求1所述的文本的相關(guān)性計算方法,其特征在于, 所述計算第一字符串與第二字符串的語義相關(guān)性特征值包括: 針對第一字符串,獲取每個詞所屬的主題分布,然后將該第一字符串中所有詞的主題 分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第一字符串的主題分布;針對 第二字符串,獲取每個詞所屬的主題分布,然后將該第二字符串中所有詞的主題分布乘以 該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第二字符串的主題分布; 計算第一字符串和第二字符串的主題分布的余弦夾角相似度,以得到第一字符串和第 二字符串的語義相關(guān)性特征值。
6. 根據(jù)權(quán)利要求1所述的文本的相關(guān)性計算方法,其特征在于, 所述計算第一字符串與第二字符串的語義相關(guān)性特征值包括:計算第一字符串與第二 字符串基于統(tǒng)計機器翻譯的相關(guān)性特征值。
7. 根據(jù)權(quán)利要求1所述的文本的相關(guān)性計算方法,其特征在于, 所述計算第一字符串與第二字符串的語義相關(guān)性特征值包括:計算第一字符串與第二 字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的語義相關(guān)性特征值。
8. 根據(jù)權(quán)利要求1-7中任一項所述的文本的相關(guān)性計算方法,其特征在于,所述基于 邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān)性特征值擬合成相關(guān)性特征值包括: 針對計算出的第一字符串與第二字符串的文本相關(guān)性特征值以及語義相關(guān)性特征值, 構(gòu)建特征向量; 利用所述特征向量構(gòu)建訓(xùn)練樣例,并針對所述訓(xùn)練樣例使用二分類邏輯回歸模型做訓(xùn) 練,分別得到文本相關(guān)性特征值的權(quán)重、語義相關(guān)性特征值的權(quán)重以及偏置; 利用文本相關(guān)性特征值的權(quán)重、文本相關(guān)性特征值、語義相關(guān)性特征值的權(quán)重、語義相 關(guān)性特征值以及偏置,計算所述相關(guān)性特征值。
9. 根據(jù)權(quán)利要求1-7中任一項所述的文本的相關(guān)性計算方法,其特征在于, 所述計算第一字符串與第二字符串的語義相關(guān)性特征值包括下列中的至少一個: 計算第一字符串與第二字符串的基于編輯距離的相關(guān)性特征值; 計算第一字符串與第二字符串的基于最長公共子序列的相關(guān)性特征值; 計算第一字符串與第二字符串的基于文本分類的相關(guān)性特征值; 計算第一字符串與第二字符串的基于概率潛在語義分析PLSA的主題相關(guān)性特征值; 計算第一字符串與第二字符串的基于統(tǒng)計機器翻譯的相關(guān)性特征值; 計算第一字符串與第二字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的相關(guān)性特征值。
10. -種文本的相關(guān)性計算裝置,其特征在于,該裝置包括字符串接收單元、相關(guān)性特 征值計算單元和相關(guān)性特征值擬合單元,其中: 字符串接收單元,用于接收第一字符串和第二字符串; 相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串的文本相關(guān)性特征值以及 第一字符串與第二字符串的語義相關(guān)性特征值; 相關(guān)性特征值擬合單元,用于基于邏輯回歸模型將所述文本相關(guān)性特征值與語義相關(guān) 性特征值擬合成第一字符串與第二字符串的相關(guān)性特征值。
11. 根據(jù)權(quán)利要求10所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串基于編輯距離的相關(guān)性特 征值,和/或計算第一字符串與第二字符串基于最長公共子序列的相關(guān)性特征值。
12. 根據(jù)權(quán)利要求10所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于構(gòu)建行業(yè)類別特征詞詞典;針對第一字符串,根據(jù)行業(yè)類 別特征詞詞典獲取每個詞所屬的類別分布,然后將各個詞的類別分布乘以該詞的全局逆文 本頻率指數(shù)權(quán)重再累加,以得到第一字符串類別分布;針對第二字符串,根據(jù)行業(yè)類別特征 詞詞典獲取每個詞所屬的類別分布,然后將各個詞的類別分布乘以該詞的全局逆文本頻率 指數(shù)權(quán)重再累加,以得到第二字符串類別分布;計算第一字符串和第二字符串的類別分布 的余弦夾角相似度,以得到第一字符串和第二字符串的語義相關(guān)性特征值。
13. 根據(jù)權(quán)利要求12所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于基于人工標注的行業(yè)類別特征詞集合,采用全文匹配分 類方式對各個網(wǎng)頁進行分類;對于擁有分類屬性的網(wǎng)頁進行全文切詞,抽取類別特征詞,并 將所抽取的類別特征詞合并入所述行業(yè)類別特征詞集合,以構(gòu)建行業(yè)類別特征詞詞典。
14. 根據(jù)權(quán)利要求10所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于針對第一字符串,獲取每個詞所屬的主題分布,然后將該 第一字符串中所有詞的主題分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第 一字符串的主題分布;針對第二字符串,獲取每個詞所屬的主題分布,然后將該第二字符串 中所有詞的主題分布乘以該詞的全局逆文本頻率指數(shù)權(quán)重再累加,以得到該第二字符串的 主題分布;計算第一字符串和第二字符串的主題分布的余弦夾角相似度,以得到第一字符 串和第二字符串的語義相關(guān)性特征值。
15. 根據(jù)權(quán)利要求10所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于計算第一字符串與第二字符串基于統(tǒng)計機器翻譯的相關(guān) 性特征值,和/或計算第一字符串與第二字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的語義相關(guān)性 特征值。
16. 根據(jù)權(quán)利要求10-15中任一項所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值擬合單元,用于針對計算出的第一字符串與第二字符串的文本相關(guān)性特 征值以及語義相關(guān)性特征值,構(gòu)建特征向量;利用所述特征向量構(gòu)建訓(xùn)練樣例,并針對所述 訓(xùn)練樣例使用二分類邏輯回歸模型做訓(xùn)練,分別得到文本相關(guān)性特征值的權(quán)重、語義相關(guān) 性特征值的權(quán)重以及偏置;利用文本相關(guān)性特征值的權(quán)重、文本相關(guān)性特征值、語義相關(guān)性 特征值的權(quán)重、語義相關(guān)性特征值以及偏置,計算所述相關(guān)性特征值。
17. 根據(jù)權(quán)利要求10-15中任一項所述的文本的相關(guān)性計算裝置,其特征在于, 相關(guān)性特征值計算單元,用于計算執(zhí)行下列中的至少一個: 計算第一字符串與第二字符串的基于編輯距離的相關(guān)性特征值; 計算第一字符串與第二字符串的基于最長公共子序列的相關(guān)性特征值; 計算第一字符串與第二字符串的基于文本分類的相關(guān)性特征值; 計算第一字符串與第二字符串的基于概率潛在語義分析PLSA的主題相關(guān)性特征值; 計算第一字符串與第二字符串的基于統(tǒng)計機器翻譯的相關(guān)性特征值; 計算第一字符串與第二字符串基于網(wǎng)頁搜索結(jié)果的詞粒度的相關(guān)性特征值。
【文檔編號】G06F17/30GK104424279SQ201310388496
【公開日】2015年3月18日 申請日期:2013年8月30日 優(yōu)先權(quán)日:2013年8月30日
【發(fā)明者】赫南, 張文斌, 姚伶伶, 王莉峰, 何琪, 張博 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
上饶县| 金乡县| 五莲县| 乌兰浩特市| 大竹县| 东乡| 昆明市| 金坛市| 吴忠市| 方正县| 房山区| 潮州市| 铜梁县| 汕头市| 墨竹工卡县| 张家港市| 泌阳县| 广安市| 思茅市| 灌阳县| 德令哈市| 武隆县| 云林县| 延安市| 南城县| 平山县| 西峡县| 绥江县| 阜新| 巴青县| 三都| 台湾省| 九龙县| 师宗县| 岳阳市| 泰顺县| 修武县| 海城市| 略阳县| 承德县| 来凤县|