出版時(shí)間:2012-7 出版社:清華大學(xué)出版社 作者:(美)Philipp K. Janert 頁(yè)數(shù):524 譯者:黃權(quán)
Tag標(biāo)簽:無(wú)
前言
本書(shū)展現(xiàn)了我在高科技行業(yè)的各個(gè)公司中從事數(shù)據(jù)工作所獲得的經(jīng)驗(yàn)。它匯聚了我所發(fā)現(xiàn)的許多最有用的概念和技術(shù),包括我希望自己能夠早點(diǎn)知道的主題——然而我沒(méi)有。 我所學(xué)的專(zhuān)業(yè)是物理,但我也從事了多年的軟件工程師工作。本書(shū)將反映出我這種雙重背景。一方面,本書(shū)是為程序員以及軟件領(lǐng)域的其他人士而寫(xiě):我假定你和我一樣,有能力通過(guò)自己動(dòng)手編程來(lái)輕松自如地操縱數(shù)據(jù)。另一方面,我思考數(shù)據(jù)的方式是由我的背景和教育決定的。作為一個(gè)物理學(xué)家,我不會(huì)只滿(mǎn)足于描述數(shù)據(jù)或者做黑盒式的預(yù)測(cè):分析的目的總是為了深入理解我們所觀察的數(shù)據(jù)是怎樣產(chǎn)生的?! 鬟_(dá)這種理解的工具就是模型:對(duì)所研究的系統(tǒng)進(jìn)行描述(換句話(huà)說(shuō),不只是對(duì)數(shù)據(jù)的描述!),必要時(shí)進(jìn)行簡(jiǎn)化但要保留相關(guān)的信息。一個(gè)模型可能很粗糙(就像一頭球形的牛),但如果它能夠幫助我們更好地理解系統(tǒng)的工作原理,那么它就是一個(gè)成功的模型。(精確度可以在之后獲得,如果確實(shí)需要的話(huà)。) 我對(duì)模型和簡(jiǎn)化描述的強(qiáng)調(diào)并不具有普遍性:其他作者和從業(yè)人員可能持有不同的看法。但是它們對(duì)于我的方法和觀點(diǎn)來(lái)說(shuō)是基本的?! ∵@本書(shū)相當(dāng)具有個(gè)人色彩。盡管我努力使之合理全面,但我所選擇的主題都是我認(rèn)為在實(shí)踐中相關(guān)和有用的——不管它們是否是“經(jīng)典”。本書(shū)還包含其他數(shù)據(jù)分析相關(guān)書(shū)中不涉及的主題。盡管它們既不新穎也非獨(dú)創(chuàng),但在數(shù)據(jù)分析這一特定背景下通常并不使用或討論它們——但我發(fā)現(xiàn)它們不可或缺?! ≡谡緯?shū)中,我提供了大量明確而具體的建議、意見(jiàn)和評(píng)估。這些評(píng)述反映了我的個(gè)人興趣、經(jīng)驗(yàn)和理解。我不敢說(shuō)我的觀點(diǎn)一定是正確的,請(qǐng)根據(jù)具體需要對(duì)我所說(shuō)的進(jìn)行評(píng)估和取舍。在我看來(lái),一個(gè)充分論證的明確立場(chǎng)比列出所有待選的可能算法更有用——即使后來(lái)你決定不同意我的觀點(diǎn)。價(jià)值并不存在于觀點(diǎn)中,而是存在于支持它的論據(jù)中。如果你的論據(jù)比我的好,或者僅僅只是更適合你,那么我也認(rèn)為自己已經(jīng)達(dá)到了我的目的!
內(nèi)容概要
《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》結(jié)合作者多年來(lái)從事數(shù)據(jù)分析工作的豐富經(jīng)驗(yàn),闡述了數(shù)據(jù)分析所涉及的概念和方法。本書(shū)四部分19章,主題包括如何通過(guò)圖表來(lái)觀察數(shù)據(jù),如何通過(guò)各種建模方法來(lái)分析數(shù)據(jù),然后著重闡述如何進(jìn)行數(shù)據(jù)挖掘,最后強(qiáng)調(diào)數(shù)據(jù)分析在商業(yè)和金融等領(lǐng)域的實(shí)際應(yīng)用。本書(shū)包含大量的模擬過(guò)程及結(jié)果展示,并通過(guò)實(shí)例來(lái)闡述如何使用開(kāi)源工具來(lái)進(jìn)行數(shù)據(jù)分析。通過(guò)本書(shū)的閱讀,讀者可以清楚地了解這些方法的實(shí)際用法及用途?! ”緯?shū)結(jié)構(gòu)合理,通俗易懂,適合數(shù)據(jù)分析愛(ài)好者和從業(yè)者閱讀,也適合以科學(xué)計(jì)算為工具的科研人員參考。同時(shí),本書(shū)還適用于計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程技術(shù)和其他相關(guān)專(zhuān)業(yè)本科或研究生的數(shù)據(jù)分析課程,是一本不錯(cuò)的參考書(shū)。
作者簡(jiǎn)介
作者:(美國(guó))雅奈特(Janert K.P.) 譯者:黃權(quán)、陸昌輝、鄒雪梅、費(fèi)柳鳳
書(shū)籍目錄
第1 章導(dǎo)論1 數(shù)據(jù)分析1 本書(shū)內(nèi)容2 關(guān)于講習(xí)班 3 關(guān)于數(shù)學(xué)4 需要具備的知識(shí) 6 本書(shū)不涉及的內(nèi)容6 第Ⅰ部分圖表:觀察數(shù)據(jù) 第2 章單一變量:形狀和分布 11 數(shù)據(jù)點(diǎn)和抖動(dòng)圖 12 直方圖和核密度估計(jì) 14 直方圖15 核密度估計(jì) 19 (選學(xué))如何選擇最優(yōu)帶寬 22 累積分布函數(shù)23 (選學(xué))概率圖分布和qq 圖分布的對(duì)比 25 秩序圖和上升圖 30 僅用于適當(dāng)時(shí)機(jī):匯總統(tǒng)計(jì)量和箱形圖 33 匯總統(tǒng)計(jì)量 33 box-and-whisker 圖 36 (講習(xí)班)numpy 38 numpy 實(shí)踐 38 numpy 詳解 41 擴(kuò)展閱讀 45 第3 章兩個(gè)變量:建立關(guān)系 47 散點(diǎn)圖 47 克服噪聲:平滑 48 樣條 50 loess51 示例 52 殘差 54 其他觀點(diǎn)及提醒55 對(duì)數(shù)圖 57 傾斜 61 線(xiàn)性回歸以及諸如此類(lèi)的方法 62 描述重要信息 66 圖形分析與圖形演示68 (講習(xí)班)matplotlib 69 交互式使用matplotlib 70 案例學(xué)習(xí):matplotlib 與loess73 控制屬性 74 matplotlib 對(duì)象模型及結(jié)構(gòu) 76 零碎知識(shí) 77 擴(kuò)展閱讀 78 第4 章以時(shí)間為變量: 時(shí)序分析 79 示例 79 任務(wù) 83 需求和現(xiàn)實(shí) 84 平滑處理 84 移動(dòng)平均法 85 指數(shù)平滑法 86 不要忽視顯而易見(jiàn)的東西 90 相關(guān)函數(shù) 91 示例 92 實(shí)現(xiàn)上的問(wèn)題 93 (選學(xué))過(guò)濾器和卷積 95 (講習(xí)班)scipy.signal 96 擴(kuò)展閱讀 98 第5 章多變量:圖形的多變量分析 99 假色圖100 概覽:多值圖 105 散點(diǎn)圖矩陣105 協(xié)作圖 107 變種 108 組成問(wèn)題 110 組成的改變110 多維組成:樹(shù)形圖和馬賽克圖112 新穎的曲線(xiàn)類(lèi)型116 標(biāo)識(shí)符116 平行坐標(biāo)圖117 交互式探索120 查詢(xún)和縮放121 連接和涂層121 大游覽與投影尋蹤121 工具 122 工作坊:多變量圖形工具123 R 123 實(shí)驗(yàn)工具124 python 的chaco 庫(kù)124 擴(kuò)展閱讀 125 第6 章插曲:數(shù)據(jù)分析會(huì)話(huà) 127 數(shù)據(jù)分析會(huì)話(huà)127 工作坊:gnuplot 軟件136 擴(kuò)展閱讀 138 第Ⅱ部分分析:數(shù)據(jù)建模 第7 章推算和粗略計(jì)算141 推算的原理 142 估計(jì)大小143 建立關(guān)聯(lián)145 使用數(shù)字146 10 的冪146 小擾動(dòng)147 對(duì)數(shù)148 更多示例149 我所知道的一些常見(jiàn)事(物) 的相關(guān)數(shù)字151 這些數(shù)字是否足夠好? 151 準(zhǔn)備工作:可行性和成本 153 完成之后:引用和 呈現(xiàn)數(shù)字154 (選學(xué))進(jìn)一步探索攝動(dòng)理論和誤差傳播 155 誤差傳播156 工作坊:Gnu科學(xué)庫(kù)(GSL)158 擴(kuò)展閱讀 161 第8 章縮放參數(shù)模型163 模型163 建模 164 模型的運(yùn)用和誤用 164 參數(shù)的縮放 165 縮放參數(shù)165 示例:維度參數(shù) 167 示例:優(yōu)化問(wèn)題 169 示例:成本模型 170 (選學(xué))縮放參數(shù)與 量綱分析172 其他理論174 平均場(chǎng)近似 175 背景知識(shí)和其他示例176 常見(jiàn)的時(shí)間演變方案 178 無(wú)限增長(zhǎng)和衰減現(xiàn)象178 約束增長(zhǎng):邏輯斯諦方程180 振蕩 181 案例學(xué)習(xí):多少臺(tái)服務(wù)器才是 最好的? 182 為什么要建模? 184 工作坊:Sage.184 擴(kuò)展閱讀188 第9 章關(guān)于概率模型的討論 191 9.1 二項(xiàng)分布和伯努利試驗(yàn)191 精確的結(jié)果192 利用伯努利試驗(yàn)建立平均場(chǎng)模型194 9.2 高斯分布和中心極限定理195 中心極限定理 195 中心項(xiàng)與尾項(xiàng) 197 為什么高斯分布如此實(shí)用? 198 (選學(xué))高斯積分199 冪律分布和非常規(guī)統(tǒng)計(jì)學(xué)201 冪律分布的用法203 (選學(xué))期望值為無(wú)限時(shí)的分布204 接下來(lái)的研究 206 其他分布 206 幾何分布207 泊松分布207 對(duì)數(shù)正態(tài)分布209 特殊用途的分布211 (選學(xué))案例學(xué)習(xí)——隨時(shí)間變化的單一訪(fǎng)問(wèn)者數(shù)量 211 工作坊:冪律分布215 擴(kuò)展閱讀 219 第10 章你真正需要了解的 經(jīng)典統(tǒng)計(jì)學(xué)知識(shí)221 起源221 統(tǒng)計(jì)學(xué)的定義 223 從統(tǒng)計(jì)學(xué)角度解釋 226 示例:公式測(cè)驗(yàn)vs 圖解法 229 控制實(shí)驗(yàn)vs 觀察研究 230 實(shí)驗(yàn)設(shè)計(jì)232 前景 234 (選學(xué))貝葉斯統(tǒng)計(jì)—— 另一種觀點(diǎn) 235 用頻率論來(lái)解釋概率235 用貝葉斯方法來(lái)理解概率 236 貝葉斯數(shù)據(jù)分析: 一個(gè)實(shí)際有效的例子238 貝葉斯推理:總結(jié)與討論 241 工作坊:關(guān)于R 243 擴(kuò)展閱讀249 第11 章插敘:數(shù)學(xué)大搜捕——大腳怪和最小二乘等253 如何平均均值 253 辛普森(悖論 254 標(biāo)準(zhǔn)差 256 如何計(jì)算258 (選學(xué))應(yīng)該選擇哪一個(gè)259 (選學(xué))標(biāo)準(zhǔn)誤差 259 最小二乘 260 統(tǒng)計(jì)參數(shù)估計(jì) 261 函數(shù)逼近263 擴(kuò)展閱讀 264 第Ⅲ部分計(jì)算:數(shù)據(jù)挖掘 …… 附錄A科學(xué)計(jì)算與數(shù)據(jù)分析的編程環(huán)境435 附錄B應(yīng)用:微積分447 附錄C 使用數(shù)據(jù)485 索引499
章節(jié)摘錄
版權(quán)頁(yè): 插圖: 我很喜歡假色圖,因?yàn)樗饶鼙A舳啃畔?,又能表示大量信息資料。然而,假色圖的準(zhǔn)確性主要取決于調(diào)色板的質(zhì)量。映射過(guò)程,就是將數(shù)值與顏色聯(lián)系在一起的過(guò)程。 讓我們快速回顧一下顏色和計(jì)算機(jī)圖形的相關(guān)知識(shí)。計(jì)算機(jī)圖形中的顏色常常是由一組數(shù)據(jù)指定的,而這組數(shù)據(jù)則由紅、綠、藍(lán)三種基本色彩元素強(qiáng)度來(lái)表示。雖然RGB三基色技術(shù)在技術(shù)層面上看似很好,但它并不是特別直觀。相反,我們傾向于從顏色的色調(diào)、飽和度和明暗度來(lái)考慮顏色表示問(wèn)題(例如,亮度或顏色的淺淡)。一般來(lái)說(shuō),色調(diào)包含彩虹的所有顏色(從紅到黃、綠、藍(lán)、紫)。奇怪的是,色譜似乎繞了一圈又回到本身,就像紫最終又平滑地漸變?yōu)榧t。(這種情況是因?yàn)椴屎缰猩V是按各種色彩的主要電磁頻率的順序來(lái)排列的。對(duì)于紫/品紅來(lái)說(shuō),它們沒(méi)有主要的頻率,而紫色是一種由低頻率的紅色和高頻率的藍(lán)色混合而成的色調(diào)。)大多數(shù)計(jì)算機(jī)圖形程序用色調(diào)—飽和度—明暗度(HSV)三基色技術(shù)來(lái)生成彩色圖形。 我們很難找到一個(gè)可靠的調(diào)色板設(shè)計(jì)方案。更不幸的是,人們的權(quán)宜心理和常識(shí)似乎常常導(dǎo)致設(shè)計(jì)出來(lái)的調(diào)色板非常糟糕。這里有一些想法和建議供大家參考。 保持簡(jiǎn)單 簡(jiǎn)單地使用紅、白、藍(lán)的調(diào)色板往往能產(chǎn)生非常好的效果。對(duì)于連續(xù)的顏色變化,可以使用藍(lán)—白—紅調(diào)色板,而對(duì)于分割任務(wù),可以使用一個(gè)白—藍(lán)—紅—白的調(diào)色板,分割線(xiàn)上使用藍(lán)—紅進(jìn)行過(guò)渡。 分割任務(wù)和平滑性改變的區(qū)別 分割任務(wù)(例如,找到超過(guò)一定閾值的所有點(diǎn),找出過(guò)零數(shù)據(jù)的分布情況)要求在區(qū)域兩邊的臨界線(xiàn)上都使用亮麗的色彩過(guò)渡,而一個(gè)數(shù)據(jù)集的平滑變化則要求用連續(xù)的顏色漸變來(lái)表示。當(dāng)然,可以在單個(gè)調(diào)色板中既使用顏色漸變,又使用強(qiáng)烈的對(duì)比色。 保持直觀上的有序性 在調(diào)色板中,可以將低值映射為冷色、高值映射為暖色,讓人從直觀上感覺(jué)井然有序。類(lèi)似的例子包括簡(jiǎn)單的藍(lán)—紅調(diào)色盤(pán)和“強(qiáng)烈、對(duì)比色系”(黑—紅—黃—白——稍后將討論為什么不建議使用“強(qiáng)烈的對(duì)比色”)。其他能讓人感覺(jué)盡然有序的調(diào)色方案是“改進(jìn)的彩虹”(包括藍(lán)—青—綠—黃—橙—紅—紫)和與地形圖(藍(lán)—青—綠—棕色—黃褐色—白)相似的“地理系列”。
媒體關(guān)注與評(píng)論
“一本通俗易懂的參考書(shū),有助于理解如何征服海量數(shù)據(jù)?!薄 狝ustin King,Mozolla資深Web開(kāi)發(fā)人員 “造就數(shù)據(jù)科學(xué)家的必讀工具書(shū)?!薄 狹ichael E. Driscoll,Dataspora的CEO兼創(chuàng)始人
編輯推薦
《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》結(jié)構(gòu)合理,通俗易懂,適合數(shù)據(jù)分析愛(ài)好者和從業(yè)者閱讀,也適合以科學(xué)計(jì)算為工具的科研人員參考。同時(shí),《數(shù)據(jù)之魅:基于開(kāi)源工具的數(shù)據(jù)分析》還適用于計(jì)算機(jī)科學(xué)、數(shù)學(xué)、工程技術(shù)和其他相關(guān)專(zhuān)業(yè)本科或研究生的數(shù)據(jù)分析課程,是一本不錯(cuò)的參考書(shū)。
名人推薦
“Google,F(xiàn)acebook,Amazon和Netflix,更別說(shuō)華爾街和制造業(yè)、零售業(yè)到保健行業(yè)的企業(yè),他們的成功越來(lái)越得益于選擇正確的工具從海量數(shù)據(jù)中抽取和挖掘出有意義、有價(jià)值的信息?,F(xiàn)在,‘?dāng)?shù)據(jù)科學(xué)家’是硅谷最搶手的人物。” ——Tim O'Reilly “一本通俗易懂的參考書(shū),有助于理解如何征服海量數(shù)據(jù)?!?——Allstin King. Mozilla資深Web開(kāi)發(fā)人員“造就數(shù)據(jù)科學(xué)家的必讀工具書(shū)?!?——Michael E.Driscoll. Dataspora的CE0兼創(chuàng)始人
圖書(shū)封面
圖書(shū)標(biāo)簽Tags
無(wú)
評(píng)論、評(píng)分、閱讀與下載
250萬(wàn)本中文圖書(shū)簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書(shū)網(wǎng) 手機(jī)版