所描述的各實施例可W提供組織的內(nèi)容的其他基礎(chǔ) 設(shè)施。
[0026]存儲器120可包括硬盤驅(qū)動器、光盤驅(qū)動器、USB閃存驅(qū)動器、驅(qū)動器陣列、或其任 意組合。存儲器120可包括組織器模塊122。組織器模塊122可W標(biāo)識脊柱文檔,標(biāo)識相關(guān) 的文檔內(nèi)的子文檔,W及確定每一子文檔和脊柱文檔之間的關(guān)系。在某些示例中,每一子文 檔和脊柱文檔之間的關(guān)系可包括冗余子文檔、重復(fù)子文檔、互補(bǔ)子文檔,W及匹配子文檔, 等等。在某些實施例中,可W從相關(guān)的文檔集合中標(biāo)識脊柱文檔。集合中的剩余文檔可被 稱為相關(guān)的文檔。相關(guān)的文檔中的每一個都可包括任何合適數(shù)量的子文檔,可W基于章節(jié) 或段落等等來標(biāo)識子文檔。此處引用的子文檔包括文本的任何合適的部分或文檔內(nèi)的其他 內(nèi)容。組織器模塊122可W確定每一子文檔相對于脊柱文檔的相關(guān)性分?jǐn)?shù)。此處引用的相 關(guān)性分?jǐn)?shù)可包括子文檔的信息匹配脊柱文檔的一個章節(jié)的子主題的概率。例如,組織器模 塊122可W使用任何合適的數(shù)據(jù)結(jié)構(gòu),諸如矢量或陣列等等,來存儲與每一子文檔相關(guān)的 信息。在某些實施例中,可W使用矢量來存儲每一單詞在一子文檔中的出現(xiàn)次數(shù)。下面參 考圖2比較詳細(xì)地討論了計算相關(guān)性分?jǐn)?shù)。
[0027]在某些實施例中,組織器模塊122也可W顯示子文檔和脊柱文檔之間的關(guān)系。在 某些示例中,組織器模塊122可W提供突出顯示的相關(guān)的文檔,其中,每一子文檔和脊柱文 檔之間的關(guān)系利用不同的陰影或顏色來呈現(xiàn)。在一個示例中,可W提供圖表,該圖表指出每 一子文檔和脊柱文檔之間的關(guān)系。下面參考圖3和4比較詳細(xì)地討論了用于顯示子文檔和 脊柱文檔之間的關(guān)系的各種技術(shù)。
[002引可W理解,圖1的框圖并不意在表示計算系統(tǒng)100將包括圖1中所示的全部組件。 相反,計算系統(tǒng)100可包括較少的或圖1中未示出的額外的組件(例如,另外的應(yīng)用、另外 的模塊,另外的存儲器設(shè)備、另外的網(wǎng)絡(luò)接口等等)。此外,組織器模塊122的任何一個功能 還可W部分地或完全地在硬件中和/或在處理器102中實現(xiàn)。例如,功能可W利用專用集 成電路,W在處理器102中實現(xiàn)的邏輯,或W云計算環(huán)境118中的處理器,或在任何其他設(shè) 備中實現(xiàn)。
[0029] 圖2是用于提供組織的內(nèi)容的示例方法的流程圖。方法200可W利用諸如圖1的 計算系統(tǒng)100之類的計算系統(tǒng)來實現(xiàn)。
[0030] 在框202,組織器模塊122從文檔集合中標(biāo)識脊柱文檔,其中,脊柱文檔包括多個 章節(jié)。在某些實施例中,脊柱文檔的每一章節(jié)都可W與特定子主題相關(guān)。例如,脊柱文檔的 每一章節(jié)都可包括與脊柱文檔的一般主題的特定方面相關(guān)的文本。在某些實施例中,脊柱 文檔被標(biāo)識為就一個主題的權(quán)威性的文檔,諸如WIKIPEDIA?頁面,等等,被標(biāo)識為包含 最多子文檔的文檔,或包含最多數(shù)量的文檔中的至少一個子文檔的文檔。在一個實施例中, 脊柱文檔通過選擇具有與捜索查詢的最高相關(guān)性的文檔、選擇帶有最高字?jǐn)?shù)的文檔、選擇 權(quán)威性的文檔(諸如WIKIPEDIA影頁面)或選擇帶有最高捜索排序的文檔等等來標(biāo)識脊 柱文檔。例如,可W從諸如法律查詢或醫(yī)學(xué)查詢等等之類的捜索查詢來標(biāo)識脊柱文檔的主 題。
[0031] 在框204,組織器模塊122將文檔拆分為多個子文檔。在某些實施例中,子文檔可 W設(shè)及可W與脊柱文檔的主題相關(guān)的子主題。例如,子主題可W設(shè)及脊柱文檔的主題的按 時間順序的歷史,或與脊柱文檔的主題相關(guān)的任何其他主題。在某些實施例中,可W使用任 何合適的粒度來從相關(guān)的文檔拆分子文檔。例如,文檔可W具有標(biāo)識子文檔的章節(jié)標(biāo)題。在 某些實施例中,可W使用任何合適類型的格式化來將相關(guān)的文檔拆分為子文檔。例如,可W 使用段落格式化、章節(jié)格式化、小節(jié)格式化或句子格式化等等,來將文檔拆分為子文檔。
[0032] 在框206,組織器模塊122將子文檔映射到脊柱文檔的對應(yīng)的章節(jié)。在某些實施例 中,子文檔基于每一子文檔的相關(guān)性分?jǐn)?shù)被映射到脊柱文檔的章節(jié)。在某些示例中,相關(guān)性 分?jǐn)?shù)可W基于一組計算。例如,相關(guān)性分?jǐn)?shù)可W基于脊柱文檔的章節(jié)中的單詞的矢量表示 和子文檔文本的單詞的矢量表示的余弦。在某些實施例中,矢量的每一條目都可W對應(yīng)于 子文檔或脊柱文檔中的單詞。相關(guān)性分?jǐn)?shù)也可W基于脊柱文檔的章節(jié)標(biāo)題中的單詞的矢量 表示和子文檔的標(biāo)題中的單詞的矢量表示的余弦。在某些實施例中,相關(guān)性分?jǐn)?shù)也可W基 于脊柱文檔的章節(jié)中的名詞的矢量表示和對應(yīng)的子文檔中的名詞的矢量表示的余弦。在某 些示例中,矢量表示可W基于TFIDF算法。在一個實施例中,相關(guān)性分?jǐn)?shù)也可W基于由BM25 算法確定的相似度。詞頻-逆文檔頻率(此處也被稱為TFID巧矢量表示可W存儲每一單 詞在一個章節(jié)或文本的標(biāo)題中的出現(xiàn)次數(shù)。在某些實施例中,使用計算諸如"a"和"an"等 等之類的常用字的技術(shù)。例如,可W將一個子文檔中的一個單詞的出現(xiàn)次數(shù)除W集合中的 文檔的數(shù)量,W歸一化子文檔的TFIDF矢量表示?;痑piBM25算法(此處也被稱為BM25) 可W根據(jù)子文檔對于特定查詢的相關(guān)性來排序子文檔,其中,查詢可W是任意長度,例如, 來自脊柱文檔的特定章節(jié)的單詞。例如,BM25相關(guān)性分?jǐn)?shù)可W基于來自該樣的捜索查詢的 單詞在子文檔內(nèi)的出現(xiàn)次數(shù)指示子文檔的相關(guān)性。
[0033] 在某些實施例中,相關(guān)性分?jǐn)?shù)可W基于BM25相似度分?jǐn)?shù)或兩個TFIDF矢量的余 弦。可W基于兩個矢量的內(nèi)積來計算兩個矢量的余弦相似度。在一個實施例中,兩個矢量 的余弦可W指出,一個子文檔和脊柱文檔的章節(jié)的相似度。在某些示例中,可W歸一化余弦 相似度。例如,組織器模塊122可W將最低余弦相似度值映射到零值,并將最高余弦相似度 值映射到1值。在某些實施例中,可W存儲余弦相似度值和經(jīng)歸一化的值兩者。在某些示 例中,如果余弦相似度值的范圍很小,當(dāng)歸一化余弦相似度值時,組織器模塊122也可W考 慮額外的信息。在某些實施例中,可W使用基于TFIDF的和基于BM25的相似度分?jǐn)?shù)及其他 合適的特征(諸如子文檔長度)的任何合適的組合來確定相關(guān)性分?jǐn)?shù)。例如,可W使用諸 如邏輯回歸、線性回歸、決策樹、神經(jīng)網(wǎng)絡(luò),W及支持矢量機(jī)等等之類的任何合適的技術(shù)或 技術(shù)的組合,來計算子文檔和脊柱文檔之間的相似度。此處引用的相關(guān)性分?jǐn)?shù)可包括子文 檔的信息匹配脊柱文檔的一個章節(jié)的子主題的概率。
[0034] 在某些實施例中,相關(guān)性分?jǐn)?shù)及其他度量,諸如子文檔長度和脊柱文檔的域可靠 性,等等,被輸入到分類器中,該分類器可W輸出一個子文檔匹配脊柱文檔的一章節(jié)的概 率。在某些實施例中,分類器可W使用邏輯回歸、線性回歸、決策樹、神經(jīng)網(wǎng)絡(luò),W及支持矢 量機(jī),等等,來產(chǎn)生一個子文檔匹配脊柱文檔的一章節(jié)的概率的輸出。在某些示例中,相關(guān) 性分?jǐn)?shù)及其他度量可W通過將分類器的輸出與預(yù)定的結(jié)果進(jìn)行比較來訓(xùn)練分類器。例如, 可W將分類器的輸出與來自眾包的任務(wù)的結(jié)果進(jìn)行比較,在該些任務(wù)中,裁判判斷一個子 文檔是否匹配脊柱文檔的一章節(jié),等等。
[00巧]在框208,組織器模塊122基于對文檔集合的捜索來顯示子文檔。在某些實施例 中,組織器模塊122可W捜索文檔的集合,查找?guī)в懈哂诩怪臋n的一章節(jié)的闊值的相關(guān) 性分?jǐn)?shù)的子文檔。在某些實施例中,可W基于一個文檔中的文本與脊柱文檔的關(guān)系來突出 顯示該文檔。如上文所討論的,相關(guān)的文檔和脊柱文檔之間的關(guān)系可W指示冗余信息、補(bǔ)充 信息,W及匹配信息。在某些示例中,每一關(guān)系都可W用突出顯示的不同的著色或顏色指 示,W描繪一個文檔中的文本和脊柱文檔之間的關(guān)系。例如,脊柱文檔中也討論的子文檔中 的冗余信息可W顯為著色的或突出顯示的。下面參考圖3和4比較詳細(xì)地討論了顯示子文 檔和脊柱文檔之間的關(guān)系。
[0036] 在某些實施例中,圖表也可W顯示文檔的每一章節(jié)與脊柱文檔的關(guān)系。例如,圖表 可W指示文檔是否包含冗余信息、補(bǔ)充信息,或匹配信息等等。在框210,過程流結(jié)束。
[0037] 圖2的流程圖不旨在指示方法200的步驟將W任何特定順序執(zhí)行,或在每一情況 下都包括方法200的全部步驟。例如,在標(biāo)識脊柱文檔之前,可W將文檔拆分成子文檔。此 夕F,方法200還可W重復(fù)任何合適的迭代次數(shù)。例如,在標(biāo)識脊柱文檔并且標(biāo)識子文檔和脊 柱文檔之間的關(guān)系之后,組織器模塊122可W檢測一組讀取的文檔或子文檔。組織器模塊 122可W基于用戶的在諸如web瀏覽器、電子閱讀器,W及文字處理程序等等之類的各種應(yīng) 用中的查看的文檔的歷史來檢測一組讀取的文檔。在某些實施例中,組織器模塊122可W 基于該組讀取的文檔來更新脊柱文檔。例如,組織器模塊122可W從相關(guān)的文檔的集合中 刪除該組讀取的文檔。在某些實施例中,組織器模塊122也可W使用額外的關(guān)系指示符來 指示子文檔屬于一組讀取的文檔。在某些示例中,組織器模塊122可W重新計算脊柱文檔 (包括W前讀取的文檔)W及沒有被查看的子文檔之間的關(guān)系。例如,脊柱文檔和相關(guān)的 文檔的顯示可W被更新,W指出未查看的子文檔和脊柱文檔W及該組讀取的文檔之間的關(guān) 系。
[003引圖3是顯示來自與脊柱文檔相關(guān)的子文檔的信息的示例的圖示。顯示300包括脊 柱文檔標(biāo)題302、擴(kuò)展按鈕304,W及脊柱文檔文本306。脊柱文檔標(biāo)題302指示脊柱文檔的 主題和脊柱文檔文本306包括脊柱文檔的各章節(jié)。在某些實施例中,擴(kuò)展按