出版時(shí)間:2010-6 出版社:賈朝輝 中國(guó)人民大學(xué)出版社 (2010-06出版) 作者:賈朝輝 頁(yè)數(shù):157
前言
隨著科技的發(fā)展,信息的總量在迅速增長(zhǎng),網(wǎng)絡(luò)信息采集方式也在進(jìn)行著革命性的發(fā)展,對(duì)信息質(zhì)量的要求不斷提高。根據(jù)第25次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2009年年底,中國(guó)網(wǎng)民數(shù)量已經(jīng)達(dá)到3.8億,互聯(lián)網(wǎng)普及率穩(wěn)步上升,這既給網(wǎng)絡(luò)信息的采集與利用提出了更高的要求,也提供了現(xiàn)實(shí)基礎(chǔ)。本書(shū)從教學(xué)實(shí)踐出發(fā),理論和實(shí)踐相結(jié)合,系統(tǒng)地闡述了與網(wǎng)絡(luò)信息采集與利用的相關(guān)內(nèi)容。第一章為網(wǎng)絡(luò)信息資源概論;第二章介紹了網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù);第三章介紹了搜索引擎及其使用;第四章介紹了其他網(wǎng)絡(luò)信息資源及其使用;第五章介紹了聯(lián)機(jī)檢索技術(shù)及其應(yīng)用;第六章介紹了網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫(kù)信息采集;第七章介紹了非萬(wàn)維網(wǎng)網(wǎng)絡(luò)信息的采集;第八章介紹了網(wǎng)絡(luò)信息編輯;第九章介紹了網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集與分析。本書(shū)在編寫(xiě)過(guò)程中得到許多同行和北京第二外國(guó)語(yǔ)學(xué)院圖書(shū)館的大力支持,特別是中國(guó)人民大學(xué)出版社的大力支持,也參閱了大量的相關(guān)著作和網(wǎng)站,在此表示衷心的感謝!本書(shū)在編寫(xiě)過(guò)程中,注重內(nèi)容更新,緊跟現(xiàn)代檢索技術(shù)的發(fā)展,然而作者能力、知識(shí)有限,錯(cuò)誤、疏漏之處在所難免,請(qǐng)讀者予以批評(píng)指正。
內(nèi)容概要
《網(wǎng)絡(luò)信息采集與利用》從教學(xué)實(shí)踐出發(fā),理論和實(shí)踐相結(jié)合,系統(tǒng)地闡述了與網(wǎng)絡(luò)信息采集與利用的相關(guān)內(nèi)容。第一章為網(wǎng)絡(luò)信息資源概論;第二章介紹了網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù);第三章介紹了搜索引擎及其使用;第四章介紹了其他網(wǎng)絡(luò)信息資源及其使用;第五章介紹了聯(lián)機(jī)檢索技術(shù)及其應(yīng)用;第六章介紹了網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫(kù)信息采集;第七章介紹了非萬(wàn)維網(wǎng)網(wǎng)絡(luò)信息的采集;第八章介紹了網(wǎng)絡(luò)信息編輯;第九章介紹了網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集與分析。
書(shū)籍目錄
第1章 網(wǎng)絡(luò)信息資源概論第1節(jié) 互聯(lián)網(wǎng)概況第2節(jié) 網(wǎng)絡(luò)信息資源概述第3節(jié) 網(wǎng)絡(luò)信息資源的類(lèi)型第4節(jié) 網(wǎng)絡(luò)信息資源檢索第5節(jié) 網(wǎng)絡(luò)信息采集與利用的未來(lái)趨勢(shì)復(fù)習(xí)思考題第2章 網(wǎng)絡(luò)信息處理方式及關(guān)鍵技術(shù)第1節(jié) 文獻(xiàn)標(biāo)引理論第2節(jié) 檢索語(yǔ)言第3節(jié) 計(jì)算機(jī)信息檢索第4節(jié) 元數(shù)據(jù)技術(shù)第5節(jié) 中文自動(dòng)分詞處理技術(shù)第6節(jié) 文本自動(dòng)處理技術(shù)第7節(jié) 網(wǎng)絡(luò)信息挖掘復(fù)習(xí)思考題第3章 搜索引擎及其使用第1節(jié) 搜索引擎概述第2節(jié) 搜索技術(shù)基礎(chǔ)第3節(jié) 搜索引擎Google的使用第4節(jié) 百度搜索的使用第5節(jié) 特色搜索引擎復(fù)習(xí)思考題第4章 其他網(wǎng)絡(luò)信息資源及其使用第1節(jié) 網(wǎng)頁(yè)瀏覽器及使用技巧第2節(jié) 網(wǎng)絡(luò)目錄的利用第3節(jié) 虛擬圖書(shū)館資源的挖掘復(fù)習(xí)思考題第5章 聯(lián)機(jī)檢索技術(shù)及其應(yīng)用第1節(jié) 聯(lián)機(jī)檢索概述第2節(jié) 主要國(guó)際聯(lián)機(jī)檢索系統(tǒng)簡(jiǎn)介復(fù)習(xí)思考題第6章 網(wǎng)絡(luò)學(xué)術(shù)數(shù)據(jù)庫(kù)信息采集第1節(jié) 中國(guó)高等教育文獻(xiàn)保障系統(tǒng)第2節(jié) 萬(wàn)方數(shù)據(jù)資源系統(tǒng)第3節(jié) 中文全文型期刊數(shù)據(jù)庫(kù)——中國(guó)知網(wǎng)第4節(jié) 中文圖書(shū)數(shù)據(jù)庫(kù)第5節(jié) 綜合性數(shù)據(jù)庫(kù)——EIVillage第6節(jié) 全文電子期刊復(fù)習(xí)思考題第7章 非萬(wàn)維網(wǎng)網(wǎng)絡(luò)信息的采集第1節(jié) FTP第2節(jié) 郵件列表第3節(jié) Usenet第4節(jié) Telnet和BBS復(fù)習(xí)思考題第8章 網(wǎng)絡(luò)信息編輯第1節(jié) 信息篩選第2節(jié) 網(wǎng)絡(luò)信息制作復(fù)習(xí)思考題第9章 網(wǎng)絡(luò)競(jìng)爭(zhēng)情報(bào)采集與分析第1節(jié) 競(jìng)爭(zhēng)情報(bào)的基本概念第2節(jié) 競(jìng)爭(zhēng)情報(bào)的獲取第3節(jié) 競(jìng)爭(zhēng)情報(bào)的分析方法復(fù)習(xí)思考題參考文獻(xiàn)
章節(jié)摘錄
插圖:從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站采集網(wǎng)頁(yè)資料。為保證采集的資料最新,還會(huì)回訪(fǎng)已抓取過(guò)的網(wǎng)頁(yè)。網(wǎng)絡(luò)機(jī)器人采集的網(wǎng)頁(yè),還要經(jīng)過(guò)其他程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立網(wǎng)頁(yè)索引,才能添加到索引數(shù)據(jù)庫(kù)中。我們平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)你輸入關(guān)鍵詞進(jìn)行查詢(xún)時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫(kù)中找到符合關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)不同,排名規(guī)則也不盡相同,所以,當(dāng)我們以同一關(guān)鍵詞用不同的搜索引擎查詢(xún)時(shí),搜索結(jié)果也就不盡相同。大型全文搜索引擎的數(shù)據(jù)庫(kù)儲(chǔ)存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁(yè)索引,數(shù)據(jù)量高達(dá)幾千G甚至幾萬(wàn)G。但即使最大的搜索引擎建立超過(guò)二十億網(wǎng)頁(yè)的索引數(shù)據(jù)庫(kù),也只占到互聯(lián)網(wǎng)上普通網(wǎng)頁(yè)的30%,不同搜索引擎之間的網(wǎng)頁(yè)數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無(wú)法抓取索引的,也是我們無(wú)法用搜索引擎搜索到的。和全文搜索引擎一樣,分類(lèi)目錄的整個(gè)工作過(guò)程也同樣分為收集信息、分析信息和查詢(xún)信息三部分,只不過(guò)分類(lèi)目錄的收集、分析信息兩部分主要依靠人工完成。分類(lèi)目錄一般都有專(zhuān)門(mén)的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類(lèi)目錄的編輯,然后由編輯人員審核遞交的信息,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過(guò),分類(lèi)目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類(lèi)別和目錄中,所有這些收錄的站點(diǎn)同樣被存放在一個(gè)“索引數(shù)據(jù)庫(kù)”中。用戶(hù)在查詢(xún)信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類(lèi)目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引簿一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類(lèi)目錄的關(guān)鍵詞查詢(xún)只能在網(wǎng)站的名稱(chēng)、網(wǎng)址、簡(jiǎn)介等內(nèi)容中進(jìn)行,它的查詢(xún)結(jié)果也只是被收錄網(wǎng)站首頁(yè)的URL地址,而不是具體的頁(yè)面。分類(lèi)目錄就像一個(gè)電話(huà)號(hào)碼簿一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門(mén)別類(lèi)排在一起,大類(lèi)下面套著小類(lèi),一直到各個(gè)網(wǎng)站的詳細(xì)地址,一般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡(jiǎn)介,用戶(hù)不使用關(guān)鍵詞也可進(jìn)行查詢(xún),只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁(yè)的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。
編輯推薦
《網(wǎng)絡(luò)信息采集與利用》:21世紀(jì)高職高專(zhuān)規(guī)劃教材·新聞傳播系列
圖書(shū)封面
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版