欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型的制作方法

文檔序號(hào):12887255閱讀:256來(lái)源:國(guó)知局

本發(fā)明涉及一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型



背景技術(shù):

目前搜索引擎只針對(duì)文本進(jìn)行搜索,還不能有效對(duì)音樂(lè)、圖片和視頻等多媒體文件進(jìn)行搜索,原因主要是多媒體數(shù)據(jù)量太大;如何索引多媒體文件;進(jìn)而對(duì)處理過(guò)的多媒體文件檢索。現(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對(duì)多媒體文件進(jìn)行精準(zhǔn)檢索。

網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它從因特網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的http協(xié)議,根據(jù)超級(jí)鏈接和網(wǎng)絡(luò)文檔檢索的方法遍歷因特網(wǎng)信息空間。因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,http給每種要通過(guò)網(wǎng)絡(luò)傳輸?shù)膶?duì)象都打上了名為mime類型的數(shù)據(jù)格式標(biāo)簽。統(tǒng)一資源定位符(url)是資源標(biāo)識(shí)符最常見(jiàn)的形式。url描述了一臺(tái)特定服務(wù)器上某資源的特定位置。元素文件(metafile)可提供有關(guān)頁(yè)面的元信息,如針對(duì)搜索引擎和更新頻度的描述和關(guān)鍵詞,可針對(duì)元素的關(guān)鍵詞進(jìn)行索引。

url是必要的,因?yàn)樗浅跏紨?shù)據(jù)集的來(lái)源,這個(gè)過(guò)程中仍然會(huì)涉及到網(wǎng)絡(luò)爬蟲。然而,僅有這個(gè)初始數(shù)據(jù)集是不夠的??梢詫⑺鼈円曌骱A康脑紨?shù)據(jù),需要進(jìn)一步地分類和提煉。這種提煉在資源描述框架(rdf)的幫助下完成。同一個(gè)詞可以有不同的含義甚至不同的用法。這種歧義問(wèn)題可以用本體(ontology)-即含義的匯集來(lái)解決。

但基于url、rdf、ontology的語(yǔ)義搜索與主流網(wǎng)絡(luò)兼容性不夠。目前,最簡(jiǎn)單的方式是在網(wǎng)頁(yè)中直接嵌入描述。要想讓網(wǎng)頁(yè)的結(jié)構(gòu)更清晰,可使用html5中新的語(yǔ)義元素。這些元素可以為它們標(biāo)注的內(nèi)容賦予額外的含義。網(wǎng)絡(luò)爬蟲已經(jīng)在檢查一些html5的語(yǔ)義元素了,這樣可以收集到它們索引的頁(yè)面的更多信息。

網(wǎng)絡(luò)搜索的數(shù)據(jù)往往是高維的,其維數(shù)甚至達(dá)到百萬(wàn)數(shù)量級(jí)。發(fā)現(xiàn)和利用高維數(shù)據(jù)中的低維結(jié)構(gòu),在網(wǎng)絡(luò)搜索中顯得尤為重要。另外,在網(wǎng)絡(luò)搜索中,人們只能觀察到少量元素,希望根據(jù)這些有限的信息,能夠猜測(cè)出未看到的大量元素,從而恢復(fù)一個(gè)未知的低秩矩陣或近似低秩矩陣。

假定已知數(shù)據(jù)已排列成一高維數(shù)據(jù)或樣本矩陣。估計(jì)一低維子空間的問(wèn)題稱為低秩矩陣逼近。當(dāng)?shù)椭染仃嚮驑颖揪仃嚨哪承┰乇粐?yán)重?fù)p壞時(shí),能夠自動(dòng)識(shí)別被損壞的元素,精確地恢復(fù)原低秩矩陣。在網(wǎng)絡(luò)搜索中,需要將一個(gè)數(shù)據(jù)矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和,并且希望同時(shí)恢復(fù)低秩矩陣與稀疏矩陣,以便于進(jìn)行語(yǔ)義搜索。

本發(fā)明提供了一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型,通過(guò)metafile的關(guān)鍵詞對(duì)url進(jìn)行索引,與相關(guān)關(guān)鍵詞建立映射;將詞與網(wǎng)絡(luò)文檔的相關(guān)性進(jìn)行編碼,作為網(wǎng)絡(luò)文檔-詞矩陣的元素;再將網(wǎng)絡(luò)文檔-詞矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和;低秩矩陣檢索在所有網(wǎng)絡(luò)文檔中共同使用的常見(jiàn)單詞;稀疏矩陣檢索每個(gè)網(wǎng)絡(luò)文檔與其他網(wǎng)絡(luò)文檔相區(qū)別的少數(shù)幾個(gè)關(guān)鍵詞;利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索,并構(gòu)建基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型。本發(fā)明包括以下特征:

發(fā)明技術(shù)方案

1.一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索架構(gòu),其具體步驟如下:

1)通過(guò)metafile的關(guān)鍵詞對(duì)url進(jìn)行索引,與相關(guān)關(guān)鍵詞建立映射;

2)將詞與網(wǎng)絡(luò)文檔的相關(guān)性進(jìn)行編碼,作為網(wǎng)絡(luò)文檔-詞矩陣的元素;

3)再將網(wǎng)絡(luò)文檔-詞矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和;

4)低秩矩陣檢索在所有網(wǎng)絡(luò)文檔中共同使用的常見(jiàn)單詞;

5)稀疏矩陣檢索每個(gè)網(wǎng)絡(luò)文檔與其他網(wǎng)絡(luò)文檔相區(qū)別的少數(shù)幾個(gè)關(guān)鍵詞;

6)利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索。

2.基于權(quán)利要求1的架構(gòu),構(gòu)建基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型。

附圖說(shuō)明

附圖1是基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型圖。

具體實(shí)施方式

這種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型,包括如下步驟特征:

1)通過(guò)metafile的關(guān)鍵詞對(duì)url進(jìn)行索引,與相關(guān)關(guān)鍵詞建立映射;

2)將詞與網(wǎng)絡(luò)文檔的相關(guān)性進(jìn)行編碼,作為網(wǎng)絡(luò)文檔-詞矩陣的元素;

3)再將網(wǎng)絡(luò)文檔-詞矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和;

4)低秩矩陣檢索在所有網(wǎng)絡(luò)文檔中共同使用的常見(jiàn)單詞;

5)稀疏矩陣檢索每個(gè)網(wǎng)絡(luò)文檔與其他網(wǎng)絡(luò)文檔相區(qū)別的少數(shù)幾個(gè)關(guān)鍵詞;

6)利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索;

7)構(gòu)建基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型。



技術(shù)特征:

技術(shù)總結(jié)
本發(fā)明公開一種基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型,通過(guò)METAFILE的關(guān)鍵詞對(duì)URL進(jìn)行索引,與相關(guān)關(guān)鍵詞建立映射;將詞與網(wǎng)絡(luò)文檔的相關(guān)性進(jìn)行編碼,作為網(wǎng)絡(luò)文檔?詞矩陣的元素;再將網(wǎng)絡(luò)文檔?詞矩陣分解為一個(gè)低秩矩陣與一個(gè)稀疏矩陣之和;低秩矩陣檢索在所有網(wǎng)絡(luò)文檔中共同使用的常見(jiàn)單詞;稀疏矩陣檢索每個(gè)網(wǎng)絡(luò)文檔與其他網(wǎng)絡(luò)文檔相區(qū)別的少數(shù)幾個(gè)關(guān)鍵詞;利用關(guān)鍵詞對(duì)網(wǎng)絡(luò)文檔進(jìn)行語(yǔ)義檢索,并構(gòu)建基于語(yǔ)義的網(wǎng)絡(luò)文檔智能檢索原型。

技術(shù)研發(fā)人員:張軍;陳曉峰;戴建榮
受保護(hù)的技術(shù)使用者:上海德衡數(shù)據(jù)科技有限公司
技術(shù)研發(fā)日:2017.06.29
技術(shù)公布日:2017.11.07
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安宁市| 调兵山市| 昭平县| 会昌县| 越西县| 新田县| 上栗县| 沙坪坝区| 江北区| 东港市| 灌云县| 霍林郭勒市| 东丰县| 蕲春县| 上林县| 茶陵县| 临朐县| 宜川县| 安徽省| 南开区| 阳新县| 邮箱| 沁阳市| 石景山区| 新沂市| 温宿县| 读书| 确山县| 榆树市| 博白县| 甘孜县| 新乡市| 平罗县| 福州市| 格尔木市| 普陀区| 宝兴县| 青河县| 马龙县| 屯昌县| 始兴县|