出版時(shí)間:2011-8 出版社:電子工業(yè)出版社 作者:劉鵬 頁(yè)數(shù):456
Tag標(biāo)簽:無(wú)
內(nèi)容概要
作為谷歌云計(jì)算基礎(chǔ)架構(gòu)的模仿實(shí)現(xiàn),Hadoop堪稱業(yè)界最經(jīng)典的開(kāi)源云計(jì)算平臺(tái)軟件。《實(shí)戰(zhàn)Hadoop--開(kāi)啟通向云計(jì)算的捷徑》(作者劉鵬)是原著的Hadoop編程技術(shù)書籍,是云計(jì)算專家劉鵬教授繼《云計(jì)算》教材取得成功后,再次組織團(tuán)隊(duì)精心編寫的又一力作,其作者均來(lái)自擁有豐富實(shí)踐經(jīng)驗(yàn)的云計(jì)算技術(shù)研發(fā)和教學(xué)團(tuán)隊(duì)。
《實(shí)戰(zhàn)Hadoop--開(kāi)啟通向云計(jì)算的捷徑》強(qiáng)調(diào)動(dòng)手、強(qiáng)調(diào)實(shí)戰(zhàn),以風(fēng)趣幽默的語(yǔ)言和一系列生動(dòng)的實(shí)戰(zhàn)應(yīng)用案例,系統(tǒng)地講授了Hadoop的核心技術(shù)和擴(kuò)展技術(shù),包括:
HDFS、MapReduce、HBase、Hive、Pig、Cassandra、
Chukwa和ZooKeeper等,并給出了3個(gè)完整的Hadoop云計(jì)算綜合應(yīng)用實(shí)例,最后介紹了保障Hadoop平臺(tái)可靠性的方法。
本書讀者對(duì)象為各類云計(jì)算相關(guān)企業(yè)、高校和科研機(jī)構(gòu)的研發(fā)人員,亦適合作為高校研究生和本科生教材。
作者簡(jiǎn)介
劉鵬,清華大學(xué)博士,解放軍理工大學(xué)教授、學(xué)科帶頭人,中國(guó)云計(jì)算專家委員會(huì)委員。主要研究方向?yàn)樾畔⒕W(wǎng)格和云計(jì)算,完成科研課題18項(xiàng),發(fā)表論文70余篇,獲部級(jí)科技進(jìn)步獎(jiǎng)6項(xiàng)。曾奪得國(guó)際計(jì)算機(jī)排序比賽冠軍,并兩次奪得全國(guó)高??萍急荣愖罡擢?jiǎng),獲“全軍十大學(xué)習(xí)成才標(biāo)兵”、“南京十大杰出青年”和“清華大學(xué)學(xué)術(shù)新秀”等稱號(hào)。2002年首倡的“網(wǎng)格計(jì)算池”和2003年研發(fā)的“反垃圾郵件網(wǎng)格”分別為云計(jì)算和云安全的前身。創(chuàng)辦了知名的中國(guó)網(wǎng)格(chinagrid.net)和中國(guó)云計(jì)算(chinacloud.cn)網(wǎng)站。
書籍目錄
第1章 神奇的大象——Hadoop
1.1 初識(shí)神象
1.2 Hadoop初體驗(yàn)
1.2.1 了解Hadoop的構(gòu)架
1.2.2 查看Hadoop活動(dòng)
1.3 Hadoop族群
1.4 Hadoop安裝
1.4.1 在Linux系統(tǒng)中安裝Hadoop
1.4.2 在Windows系統(tǒng)中安裝Hadoop
1.4.3 站在象背上說(shuō)“hello”
1.4.4 Eclipse下的Hadoop應(yīng)用開(kāi)發(fā)
參考文獻(xiàn)
第2章 HDFS——不怕故障的海量存儲(chǔ)
第3章 分久必合——MapReduce
第4章 一張無(wú)限大的表——HBase
第5章 更上一層樓——MapReduce進(jìn)階
第6章 Hive——飛進(jìn)數(shù)據(jù)倉(cāng)庫(kù)的小蜜蜂
第7章 Pig——一頭什么都能吃的豬
第8章 Facebook的女神——Cassandra
第9章 Chukwa——收集數(shù)據(jù)的大烏龜
第10章 一統(tǒng)天下——ZooKeeper
第11章 綜合實(shí)戰(zhàn)1——打造一個(gè)搜索引擎
第12章 綜合實(shí)戰(zhàn)2——生物信息學(xué)應(yīng)用
第13章 綜合實(shí)戰(zhàn)3——移動(dòng)通信信令監(jiān)測(cè)與查詢
第14章 高枕無(wú)憂——Hadoop容錯(cuò)
章節(jié)摘錄
版權(quán)頁(yè):插圖:在對(duì)源文件進(jìn)行功能性處理之前,有必要對(duì)11.2.2節(jié)生成的源文件進(jìn)行一次預(yù)分析和過(guò)濾。主要原因有以下幾個(gè)。(1)在遇到故障并恢復(fù)爬行后,爬蟲會(huì)從日志文件的最近一頁(yè)(一頁(yè)包含20個(gè)帖子)重新繼續(xù)爬取工作。從最近一頁(yè)爬取保證了帖子不被遺漏,但是會(huì)導(dǎo)致有些帖子被重復(fù)爬?。ㄒ话悴粫?huì)超過(guò)2次)。為保證索引時(shí)指定文件的唯一性,有必要過(guò)濾相同帖子的記錄,保證帖子的唯一性。(2)爬取過(guò)程中,從遇到的帖子中抽取出的信息可能并不符合我們的要求,比如,源文件中可能會(huì)有之類的記錄。這樣的空信息記錄也必須過(guò)濾掉。對(duì)源文件進(jìn)行一次預(yù)分析和過(guò)濾以確保數(shù)據(jù)的完整性和正確性,可以避免后續(xù)步驟中由于數(shù)據(jù)不正確而引發(fā)的一些問(wèn)題。對(duì)元數(shù)據(jù)進(jìn)行預(yù)分析是海量數(shù)據(jù)處理過(guò)程中很必要也是很自然的一步。
媒體關(guān)注與評(píng)論
隨著計(jì)算模式從個(gè)人計(jì)算向云計(jì)算的發(fā)展,開(kāi)源軟件的比重和作用越來(lái)越大,現(xiàn)在多數(shù)云服務(wù)都基于開(kāi)源平臺(tái)Hadoop是國(guó)際著名的云計(jì)算開(kāi)源平臺(tái),本書通過(guò)許多實(shí)例,深入系統(tǒng)地分析了Hadoop的技術(shù)、源碼以及構(gòu)建實(shí)用系統(tǒng)的方法。為國(guó)內(nèi)產(chǎn)學(xué)研各界開(kāi)啟了一條通向云計(jì)算的捷徑。 ——中國(guó)工程院院士、中國(guó)電子學(xué)會(huì)計(jì)算專家委員會(huì)副主任 倪光南作為云計(jì)算基礎(chǔ)架構(gòu)的開(kāi)源軟件,Hadoop堪稱業(yè)界最成熟和經(jīng)典的案例該書是云計(jì)算業(yè)界專家劉鵬教授帶領(lǐng)科研團(tuán)隊(duì),基于多年研究心得,做了大量技術(shù)開(kāi)發(fā)和測(cè)試,以嚴(yán)謹(jǐn)?shù)膽B(tài)度和詼諧幽默的語(yǔ)言編寫的Hadoop實(shí)戰(zhàn)寶典。相信對(duì)推動(dòng)中國(guó)云計(jì)算技術(shù)的發(fā)展和應(yīng)用具有重要價(jià)值?! 信d通訊首席構(gòu)師、中國(guó)電子學(xué)會(huì)云計(jì)算專家委員會(huì)委員 羅圣美熱烈祝賀劉鵬教授主編的 實(shí)戰(zhàn)Hadoop——開(kāi)啟通向云計(jì)算的捷徑。一書出版發(fā)行,它將大力推動(dòng)我國(guó)云計(jì)算的應(yīng)用?! 迦A大學(xué)教授、中國(guó)電子學(xué)會(huì)云計(jì)算專家委員會(huì)委員 鄭緯民
編輯推薦
《實(shí)戰(zhàn)Hadoop:開(kāi)啟通向云計(jì)算的捷徑》:云計(jì)算核心研發(fā)團(tuán)隊(duì)剖析Hadoop:怎么裝?怎么編程?怎么解決實(shí)際問(wèn)題?
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載