出版時(shí)間:2012-2 出版社:機(jī)械工業(yè)出版社 作者:Matthew A. Russell 頁數(shù):316 譯者:師蓉
Tag標(biāo)簽:無
內(nèi)容概要
Facebook、Twitter和LinkedIn產(chǎn)生了大量寶貴的社交數(shù)據(jù),但是怎樣才能找出誰通過社交媒介正在進(jìn)行聯(lián)系?他們?cè)谟懻撔┦裁?或者他們?cè)谀膬?本書簡(jiǎn)潔而且具有可操作性,它將揭示如何回答這些問題甚至更多的問題。你將學(xué)到如何組合社交網(wǎng)絡(luò)數(shù)據(jù)、分析技術(shù),如何通過可視化幫助你找到你一直在社交世界中尋找的內(nèi)容,以及你聞所未聞的有用信息。
本書每章都介紹了在社交網(wǎng)絡(luò)的不同領(lǐng)域挖掘數(shù)據(jù)的技術(shù),這些領(lǐng)域包括博客和電子郵件。你所需要具備的就是一定的編程經(jīng)驗(yàn)和學(xué)習(xí)基本的Python工具的意愿。
通過本書,你將
. 獲得對(duì)社交網(wǎng)絡(luò)世界的直觀認(rèn)識(shí)
.
使用GitHub上靈活的腳本來獲取從諸如Twitter、Facebook和LinkedIn等社交網(wǎng)絡(luò)API中的數(shù)據(jù)
. 學(xué)習(xí)如何應(yīng)用便捷的Python工具來交叉分析你所收集的數(shù)據(jù)
. 通過XFN探討基于微格式的社交聯(lián)系
. 應(yīng)用諸如TF-IDF、余弦相似性、搭配分析、文檔摘要、派系檢測(cè)之類的先進(jìn)挖掘技術(shù)
. 通過基于HTML 5和JavaScript工具包的網(wǎng)絡(luò)技術(shù)建立交互式可視化
作者簡(jiǎn)介
馬修·羅塞爾(Matthew A.Russell),Digital Reasoning
Systems公司的技術(shù)副總裁和Zaffra公司的負(fù)責(zé)人,是熱愛數(shù)據(jù)挖掘、開源和Web應(yīng)用技術(shù)的計(jì)算機(jī)科學(xué)家。他也是《Dojo:
The Dofinitive
Guide》(O'Reilly出版社)的作者。在LinkedIn上聯(lián)系他或在Twitter上關(guān)注@ptwobrussell,可隨時(shí)關(guān)注他的最新動(dòng)態(tài)。
書籍目錄
前言
第1章 緒論:Twitter 數(shù)據(jù)的處理
Python 開發(fā)工具的安裝
Twitter 數(shù)據(jù)的收集和處理
小結(jié)
第2章 微格式:語義標(biāo)記和常識(shí)碰撞
XFN 和朋友
使用XFN 來探討社交關(guān)系
地理坐標(biāo):興趣愛好的共同主線
?。ㄒ越】档拿x)對(duì)菜譜進(jìn)行交叉分析
對(duì)餐廳評(píng)論的搜集
小結(jié)
第3章 郵箱:雖然老套卻很好用
mbox:Unix 的入門級(jí)郵箱
mbox+CouchDB= 隨意的Email 分析
將對(duì)話線程化到一起
使用SIMILE Timeline 將郵件“事件”可視化
分析你自己的郵件數(shù)據(jù)
小結(jié)
第4章 Twitter :朋友、關(guān)注者和Setwise 操作
REST 風(fēng)格的和OAuth-Cladded API
干練而中肯的數(shù)據(jù)采集器
友誼圖的構(gòu)建
小結(jié)
第5章 Twitter:tweet ,所有的tweet ,只有tweet
筆PK 劍:和tweet PK 機(jī)槍(?!?)
對(duì)tweet 的分析(每次一個(gè)實(shí)體)
并置潛在的社交網(wǎng)站(或#JustinBieber VS #TeaParty)
對(duì)大量tweet 的可視化
小結(jié)
第6章 LinkedIn :為了樂趣(和利潤(rùn)?)將職業(yè)網(wǎng)絡(luò)聚類
聚類的動(dòng)機(jī)
按職位將聯(lián)系人聚類
獲取補(bǔ)充個(gè)人信息
從地理上聚類網(wǎng)絡(luò)
小結(jié)
第7章 Google Buzz:TF-IDF 、余弦相似性和搭配
Buzz=Twitter+ 博客(???)
使用NLTK 處理數(shù)據(jù)
文本挖掘的基本原則
查找相似文檔
在二元語法中發(fā)Buzz
利用Gmail
在中斷之前試著創(chuàng)建一個(gè)搜索引擎……
小結(jié)
第8章 博客及其他:自然語言處理(等)
NLP :帕累托式介紹
使用NLTK 的典型NLP 管線
使用NLTK 檢測(cè)博客中的句子
對(duì)文件的總結(jié)
以實(shí)體為中心的分析:對(duì)數(shù)據(jù)的深層了解
小結(jié)
第9章 Facebook :一體化的奇跡
利用社交網(wǎng)絡(luò)數(shù)據(jù)
對(duì)Facebook 數(shù)據(jù)的可視化
小結(jié)
第10 章 語義網(wǎng):簡(jiǎn)短的討論
發(fā)展中的變革
人不可能只靠事實(shí)生活
期望
章節(jié)摘錄
版權(quán)頁:插圖:這幅圖雖然很簡(jiǎn)單,卻非常有趣。它連接了8個(gè)人,其中,DionAlmaer是共同的主線。然而,請(qǐng)注意,抓取一層或多層可能會(huì)引入圖中“與其他所有人都連接”的節(jié)點(diǎn)。單看圖的話,我們無法根據(jù)“同事”和“朋友”之間的關(guān)系,判別Dion與BenGalbraith的關(guān)系是否更為密切,但是如果他在“被他的超鏈接標(biāo)識(shí)的目標(biāo)”中提供了任何信息的話,我們就可以抓取Ben的XFN信息,搜索其他同事標(biāo)簽來構(gòu)建“誰與誰共事”的社交網(wǎng)絡(luò)。更多挖掘數(shù)據(jù)的知識(shí)請(qǐng)查看第6章,因?yàn)樗c同事和工作搭檔相關(guān)。對(duì)廣度優(yōu)先技術(shù)的簡(jiǎn)單分析一般我們不會(huì)停頓這么長(zhǎng)時(shí)間來分析該方法,但是由于這個(gè)示例是我們編寫的第一個(gè)真正的算法,而且我們會(huì)在本書中多次見到它,因此值得更仔細(xì)地對(duì)它進(jìn)行分析。一般來說,當(dāng)你檢查算法時(shí),必須考慮兩個(gè)標(biāo)準(zhǔn):效率和有效性。換一種說法就是:性能和質(zhì)量。任何算法的標(biāo)準(zhǔn)性能分析通常都包括分析它在最壞情況下的時(shí)間復(fù)雜度和空間復(fù)雜度,即對(duì)于一個(gè)大型數(shù)據(jù)集,執(zhí)行程序所花的時(shí)間和需要的內(nèi)存。我們采用的廣度優(yōu)先方法實(shí)質(zhì)上是廣度優(yōu)先搜索,只是我們并沒有真正執(zhí)行搜索,因?yàn)榻Y(jié)束條件并沒有把圖擴(kuò)展到最大深度或直到我們遍歷完所有節(jié)點(diǎn)。如果搜索了一些具體的東西,而不只是無限地抓取鏈接,它就可以被視為真正的廣度優(yōu)先搜索了。
媒體關(guān)注與評(píng)論
“本書是《Programming Collective Intelligence》一書的深入篇,它介紹通過Python從社交網(wǎng)站中采集數(shù)據(jù)的一種實(shí)踐方法?!薄 狫eff Hammerbacher.Cloudera首席科學(xué)家“對(duì)于探索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的一系列工具、技術(shù)和理論,本書給出了豐富、緊湊并實(shí)用的介紹?! 狝lex Martelli.Google高級(jí)主管工程師,《Python in a Nutshell》的作者
編輯推薦
《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》為Jolt生產(chǎn)效率大獎(jiǎng)獲獎(jiǎng)圖書。
圖書封面
圖書標(biāo)簽Tags
無
評(píng)論、評(píng)分、閱讀與下載
社交網(wǎng)站的數(shù)據(jù)挖掘與分析 PDF格式下載