无码少妇xxxxx在线观看,japanese日本熟妇大屁股,无码h片在线观看网站无禁

相關(guān)推薦

基于Web信息采集技術(shù)研究

　　隨著Web上信息的迅速擴展，各項基于Web的服務(wù)也逐漸繁榮起來。作為這些信息服務(wù)的基礎(chǔ)和重要組成部分，Web信息采集正應(yīng)用于搜索引擎、站點結(jié)構(gòu)分析、頁面有效性分析、Web圖進化、用戶興趣挖掘以及個性化信息獲取等多種應(yīng)用和研究中。然而，隨著人們對提供的各項信息服務(wù)要求越來越高，傳統(tǒng)的基于整個Web的信息采集也越來越力不從心，它無法及時地采集到足夠的Web信息，也不能滿足人們?nèi)找嬖鲩L的個性化需求。為此，本文展開了對Web上局部范圍內(nèi)信息的有效采集研究，也就是基于主題的Web信息采集研究。

基于Web信息采集技術(shù)研究

　　根據(jù)我們在信息采集領(lǐng)域的長期積累以及國內(nèi)外在基于主題的信息采集領(lǐng)域的發(fā)展，本文在綜述了基本情況后提出了一個基于主題的Web信息采集結(jié)構(gòu)模型，這包括主題與起始URL選擇、Spider采集、頁面分析、URL與主題的相關(guān)性判定、以及頁面與主題的相關(guān)性判定等一系列步驟。我們分別給出了相關(guān)的處理算法和流程以及相應(yīng)的數(shù)據(jù)結(jié)構(gòu)，并針對研究過程中遇到的問題，提出了多個新的算法、判定規(guī)則和規(guī)律：

　　在Hub特性、Linkage/Sibling Locality特性、站點主題特性、Tunnel特性的基礎(chǔ)上，總結(jié)出了主題頁面在Web上的分布規(guī)律。

　　在定義主題和提出分類主題的基礎(chǔ)上，給出了主題選擇的方法。

　　采用Client/Server結(jié)構(gòu)的Spider系統(tǒng)，允許多機同時采集，實現(xiàn)了全面、高效并且靈活的信息搜集。

　　在分析了HTML語法的基礎(chǔ)上，給出了對html頁面的主題、鏈接、標(biāo)題的提取算法。

　　在URL與主題的相關(guān)性判定中，在擴展元數(shù)據(jù)方法RW、RWB和鏈接分析方法PageRank的基礎(chǔ)上提出了IPageRank算法。

　　在頁面與主題的相關(guān)性判定中，應(yīng)用在自然語言處理中比較成熟的基于關(guān)鍵詞的向量空間模型計算頁面與主題的相似度。

　　試驗結(jié)果顯示，我們的工作是有效的，我們的系統(tǒng)有很強的實用價值，特別是URL與主題的相關(guān)性判定中的IPageRank算法，有較大的突破。

【基于Web信息采集技術(shù)研究】相關(guān)文章：

基于PHPQuery的PHP通用采集類10-17

全國學(xué)前教育管理信息采集表06-26

2016年普通高考報名信息采集的注意事項09-08

全國學(xué)前教育管理信息幼兒基本采集表08-06