两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

Web信息采集系統(tǒng)的制作方法

文檔序號:6431321閱讀:224來源:國知局
專利名稱:Web信息采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。
背景技術(shù)
隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著人們的生活。而在網(wǎng)上發(fā)展最為迅猛WWW技術(shù)已逐漸成為Internet上最重要的信息發(fā)布和傳輸方式。然而,Web信息的急速膨脹,在給人們提供豐富的資源的同時,又使人們對它們的有效使用方面面臨一個巨大的挑戰(zhàn)。

發(fā)明內(nèi)容
針對這一情況,本發(fā)明發(fā)明了一種Web信息米集系統(tǒng),該系統(tǒng)包括URL處理器、協(xié) 議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配
URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序;
所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。本發(fā)明發(fā)明的Web信息采集系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。


圖I為本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明發(fā)明的Web信息采集系統(tǒng)的結(jié)構(gòu)示意圖如圖I所示,該系統(tǒng)包括URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;
所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ;
所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及 BBS ;
所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測;
所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換;
所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引;
所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
權(quán)利要求
1.Web信息采集系統(tǒng),其特征在于,包括 URL處理器、協(xié)議處理器、重復(fù)內(nèi)容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫; 所述的URL處理器,其用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL ; 所述的協(xié)議處理器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括 HTTP、FTP、Gopher 以及 BBS ; 所述的重復(fù)內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測; 所述的URL提取器,其用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換; 所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結(jié)果傳輸?shù)経RL處理器用于排序; 所述的語義信息解析器,其用于對文本內(nèi)容建立索引; 所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要。
全文摘要
本發(fā)明涉及信息采集領(lǐng)域,尤其涉及一種Web信息采集系統(tǒng)。該系統(tǒng)包括用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL的URL處理器;用于通過各種Web協(xié)議完成數(shù)據(jù)的采集的協(xié)議處理器;用于對鏡像頁面和內(nèi)容中的重復(fù)內(nèi)容進行檢測的重復(fù)內(nèi)容檢測器;用于對已經(jīng)經(jīng)過重復(fù)內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉(zhuǎn)換的URL提取器;用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結(jié)構(gòu)等語義信息的Meta信息獲取器;以及用于對文本內(nèi)容建立索引的語義信息解析器;和用于存儲經(jīng)過重復(fù)內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta信息、主題和摘要的數(shù)據(jù)庫。該系統(tǒng)提高了一般Web信息采集的能力,方便了人們對網(wǎng)絡(luò)信息資源的使用。
文檔編號G06F17/30GK102955795SQ201110243359
公開日2013年3月6日 申請日期2011年8月24日 優(yōu)先權(quán)日2011年8月24日
發(fā)明者丁力 申請人:句容今太科技園有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
昌黎县| 锦州市| 绥德县| 万全县| 沁水县| 饶平县| 都昌县| 西安市| 无为县| 蒲城县| 云安县| 平阴县| 哈巴河县| 泾川县| 伊宁县| 深水埗区| 印江| 修文县| 桐柏县| 莒南县| 芮城县| 文山县| 黑水县| 金山区| 福建省| 天门市| 泾源县| 洮南市| 本溪| 瑞丽市| 宜宾县| 彩票| 曲阜市| 南投市| 辽宁省| 灵台县| 乌兰浩特市| 浦东新区| 临清市| 山阳县| 许昌市|