出版時(shí)間:2012-6 出版社:科學(xué)出版社 作者:潘教峰、張曉林 頁(yè)數(shù):247 字?jǐn)?shù):264500
Tag標(biāo)簽:無(wú)
內(nèi)容概要
《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》系統(tǒng)介紹了地球與環(huán)境科學(xué)、生命與健康科學(xué)、數(shù)字信息基礎(chǔ)設(shè)施和數(shù)字化學(xué)術(shù)信息交流等方面基于海量數(shù)據(jù)的科研活動(dòng)、過(guò)程、方法和基礎(chǔ)設(shè)施,生動(dòng)揭示了在海量數(shù)據(jù)和無(wú)處不在網(wǎng)絡(luò)上發(fā)展起來(lái)的與實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這三種科研范式相輔相成的科學(xué)研究第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),進(jìn)一步探討了這種新范式的內(nèi)涵和內(nèi)容,包括利用多樣化工具不間斷采集科研數(shù)據(jù)、建立系統(tǒng)化工具和設(shè)施來(lái)管理整個(gè)數(shù)據(jù)生命周期、開(kāi)發(fā)基于科學(xué)研究問(wèn)題的數(shù)據(jù)分析及可視化工具與方法等,并深入探討了這種新范式對(duì)科學(xué)研究、科學(xué)教育、學(xué)術(shù)信息交流及科學(xué)家群體的長(zhǎng)遠(yuǎn)影響。
《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》將幫助從事科學(xué)研究、科技研究規(guī)劃、科技政策等領(lǐng)域的科研人員和管理者理解和把握科研環(huán)境與科研方法的革命性變化,也將為學(xué)術(shù)出版、文獻(xiàn)情報(bào)、科學(xué)數(shù)據(jù)及其他從事信息與知識(shí)管理的人士提供未來(lái)的戰(zhàn)略視角,同時(shí)也有助于有志于科學(xué)研究和學(xué)術(shù)信息交流管理的高層次學(xué)生了解未來(lái)的挑戰(zhàn)和需求。
作者簡(jiǎn)介
無(wú)
書籍目錄
譯者的話前言吉姆·格雷論eScience:科學(xué)方法的一次革命第一章 地球與環(huán)境一、引言二、格雷法則:以數(shù)據(jù)庫(kù)為中心的科學(xué)計(jì)算三、正在興起的環(huán)境應(yīng)用科學(xué)四、用數(shù)據(jù)重新定義生態(tài)科學(xué)五、海洋科學(xué)2020年遠(yuǎn)景六、拉近夜空:海量數(shù)據(jù)中的發(fā)現(xiàn)七、裝備地球:下一代傳感器網(wǎng)絡(luò)與環(huán)境科學(xué)第二章 健康與幸福一、引言二、醫(yī)療奇點(diǎn)與語(yǔ)義醫(yī)學(xué)時(shí)代三、發(fā)展中國(guó)家的醫(yī)療服務(wù):面臨的挑戰(zhàn)及可能的解決之道四、大腦神經(jīng)回路圖譜探索五、用于神經(jīng)生物學(xué)研究的計(jì)算顯微鏡六、數(shù)據(jù)密集型醫(yī)療保健的統(tǒng)一建模方法七、生物系統(tǒng)進(jìn)程代數(shù)模型的可視化第三章 科學(xué)的基礎(chǔ)框架一、引言二、科學(xué)新路徑?三、超越數(shù)據(jù)海嘯:發(fā)展基礎(chǔ)設(shè)施,處理生命科學(xué)數(shù)據(jù)四、多核計(jì)算與科學(xué)發(fā)現(xiàn)五、并行計(jì)算和云六、工作流工具對(duì)以數(shù)據(jù)為中心的研究的作用七、語(yǔ)義eScience:在下一代數(shù)字化推動(dòng)的科學(xué)研究中實(shí)現(xiàn)語(yǔ)義編碼八、數(shù)據(jù)密集科學(xué)可視化九、所有知識(shí)的平臺(tái):創(chuàng)建知識(shí)驅(qū)動(dòng)的研究基礎(chǔ)設(shè)施第四章 學(xué)術(shù)信息交流一、引言二、吉姆·格雷的第四范式和科學(xué)記錄的構(gòu)建三、以數(shù)據(jù)為中心的世界中的文本四、開(kāi)船了:走向機(jī)器友好的學(xué)術(shù)信息交流體系五、數(shù)據(jù)政策的未來(lái)之路六、我已經(jīng)看到了范式轉(zhuǎn)變,就是我們自己七、從Web2.0走向全球數(shù)據(jù)庫(kù)第五章 結(jié)語(yǔ)一、未來(lái)之路二、結(jié)論三、下一步四、致謝五、關(guān)于吉姆·格雷詞匯表照片和圖片鳴謝
章節(jié)摘錄
版權(quán)頁(yè): 插圖: 大多數(shù)的科學(xué)數(shù)據(jù)分析以分級(jí)步驟進(jìn)行。在第一步中,對(duì)數(shù)據(jù)子集進(jìn)行抽取,這一工作要通過(guò)過(guò)濾某些屬性(如去除錯(cuò)誤的數(shù)據(jù))或抽取數(shù)據(jù)列的垂直子集完成。在接下來(lái)的步驟中,通常以某種方式轉(zhuǎn)換或聚合數(shù)據(jù)。當(dāng)然,在更復(fù)雜的數(shù)據(jù)集中,這些模式往往伴隨著多個(gè)數(shù)據(jù)集的復(fù)雜連接,如外部校準(zhǔn)或抽取和分析一個(gè)基因序列的不同部分[8]。隨著數(shù)據(jù)集的日益增大,進(jìn)行大多數(shù)這些計(jì)算的最有效方法顯然是盡可能地使分析功能與數(shù)據(jù)密切結(jié)合,這也使大多數(shù)的模式很容易通過(guò)集合型的表述語(yǔ)言來(lái)表達(dá),這種語(yǔ)言的運(yùn)用可以從基于成本的查詢優(yōu)化、自動(dòng)并行化和索引中獲得巨大收益。 格雷及其合作者展示了幾個(gè)現(xiàn)有關(guān)系數(shù)據(jù)庫(kù)技術(shù)成功應(yīng)用于這方面的項(xiàng)目[9]。有一些項(xiàng)目以無(wú)縫的方法來(lái)整合用程序語(yǔ)言編寫的復(fù)雜類庫(kù),并將其作為底層數(shù)據(jù)庫(kù)引擎的擴(kuò)展[10,11]。 近年來(lái),Map Reduce 2已經(jīng)成為分布式數(shù)據(jù)分析和計(jì)算的普遍范式[12]。這種范式的原理類似于分布式分組和聚合的能力,這些能力已經(jīng)在并行關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中存在了一段時(shí)間。新一代的并行數(shù)據(jù)庫(kù)系統(tǒng),如Teradata、Aster Data和Vertica,已經(jīng)將這些能力重塑為“數(shù)據(jù)庫(kù)中的MapReduce”,并開(kāi)發(fā)出可以比較每種方法優(yōu)點(diǎn)的新基準(zhǔn)[13]。 與科學(xué)家連接 設(shè)計(jì)科學(xué)數(shù)據(jù)庫(kù)面臨的最具挑戰(zhàn)性的問(wèn)題是在數(shù)據(jù)庫(kù)建設(shè)者和對(duì)分析感興趣的專門領(lǐng)域科學(xué)家(domainscientists)之間建立起有效的交流。但大多數(shù)項(xiàng)目犯下了竭力追求“為所有人做所有事”(everything for everyone)的錯(cuò)誤。顯然,有一些特征要比其他一些特征更重要。因此,有必要對(duì)不同設(shè)計(jì)進(jìn)行折中,當(dāng)然,這也導(dǎo)致性能的折中。 吉姆·格雷提出了“20個(gè)詢問(wèn)”的啟發(fā)式規(guī)則。在他參與的每一個(gè)項(xiàng)目中,他都尋求研究人員想讓數(shù)據(jù)系統(tǒng)回答的最重要的20個(gè)問(wèn)題。他認(rèn)為,5個(gè)問(wèn)題不足以識(shí)別廣泛的模式,100個(gè)問(wèn)題將導(dǎo)致重點(diǎn)不突出。由于與人2譯者注:Map Reduce是Google開(kāi)發(fā)的分布式計(jì)算模型,在處理T級(jí)別以上巨量數(shù)據(jù)業(yè)務(wù)時(shí)有顯著優(yōu)勢(shì)。 類選擇有關(guān)的大多數(shù)決定都遵循“長(zhǎng)尾理論”(或所謂的1/f分布),詢問(wèn)中的相關(guān)信息根據(jù)重要性排序顯然是呈對(duì)數(shù)分布,大約在20(24.5)~100(26.5)范圍內(nèi)實(shí)現(xiàn)增益是適中的[14]。 “20個(gè)詢問(wèn)”規(guī)則是一種設(shè)計(jì)步驟的別稱,這種步驟使專門領(lǐng)域科學(xué)家和數(shù)據(jù)庫(kù)設(shè)計(jì)者可以對(duì)話,填補(bǔ)科學(xué)領(lǐng)域中使用的名詞和動(dòng)詞之間,以及數(shù)據(jù)庫(kù)中存儲(chǔ)的實(shí)體和關(guān)系之間的語(yǔ)義鴻溝。這些詢問(wèn)定義了專門領(lǐng)域科學(xué)家期望對(duì)數(shù)據(jù)庫(kù)提出的有關(guān)實(shí)體和關(guān)系方面的精確問(wèn)題集。這種重復(fù)實(shí)踐的結(jié)果是:專門領(lǐng)域科學(xué)家和數(shù)據(jù)庫(kù)之間可以使用共同的語(yǔ)言。 這種方法非常成功地使設(shè)計(jì)過(guò)程聚焦于系統(tǒng)必須支持的最重要特征,同時(shí)幫助專門領(lǐng)域科學(xué)家理解數(shù)據(jù)庫(kù)系統(tǒng)的折中,從而限制“特征的蠕變”。
編輯推薦
《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》以吉姆·格雷提出科學(xué)研究第四范式的著名演講開(kāi)篇,邀請(qǐng)國(guó)際著名科學(xué)家對(duì)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的理念、應(yīng)用和影響進(jìn)行了全面分析。第一部分,Dan Fay等人介紹了地球、環(huán)境、海洋、空間等領(lǐng)域的大數(shù)據(jù)環(huán)境與科學(xué)應(yīng)用;第二部分,Simon Mercer等人分析了醫(yī)學(xué)、認(rèn)知科學(xué)、生物系統(tǒng)、醫(yī)療服務(wù)等領(lǐng)域的數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn);第三部分,Daron Green等人提出了適應(yīng)大數(shù)據(jù)時(shí)代的科學(xué)信息與科學(xué)計(jì)算基礎(chǔ)設(shè)施面臨的挑戰(zhàn);第四部分,Lee Dirks等人對(duì)數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)給學(xué)術(shù)信息交流帶來(lái)的深刻變化做了描述。全書視野開(kāi)闊、思考深邃,既把握大勢(shì),又深入具體,為把握第四范式的要旨與含義提供了堅(jiān)實(shí)的基礎(chǔ)。
圖書封面
圖書標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載