社交網(wǎng)站的數(shù)據(jù)挖掘與分析

出版時(shí)間:2012-2  出版社:機(jī)械工業(yè)出版社  作者:Matthew A. Russell  頁數(shù):316  譯者:師蓉  
Tag標(biāo)簽:無  

內(nèi)容概要

  Facebook、Twitter和LinkedIn產(chǎn)生了大量寶貴的社交數(shù)據(jù),但是怎樣才能找出誰通過社交媒介正在進(jìn)行聯(lián)系?他們?cè)谟懻撔┦裁?或者他們?cè)谀膬?本書簡(jiǎn)潔而且具有可操作性,它將揭示如何回答這些問題甚至更多的問題。你將學(xué)到如何組合社交網(wǎng)絡(luò)數(shù)據(jù)、分析技術(shù),如何通過可視化幫助你找到你一直在社交世界中尋找的內(nèi)容,以及你聞所未聞的有用信息。
  本書每章都介紹了在社交網(wǎng)絡(luò)的不同領(lǐng)域挖掘數(shù)據(jù)的技術(shù),這些領(lǐng)域包括博客和電子郵件。你所需要具備的就是一定的編程經(jīng)驗(yàn)和學(xué)習(xí)基本的Python工具的意愿。
  通過本書,你將
  . 獲得對(duì)社交網(wǎng)絡(luò)世界的直觀認(rèn)識(shí)
  .
使用GitHub上靈活的腳本來獲取從諸如Twitter、Facebook和LinkedIn等社交網(wǎng)絡(luò)API中的數(shù)據(jù)
 . 學(xué)習(xí)如何應(yīng)用便捷的Python工具來交叉分析你所收集的數(shù)據(jù)
  . 通過XFN探討基于微格式的社交聯(lián)系
  . 應(yīng)用諸如TF-IDF、余弦相似性、搭配分析、文檔摘要、派系檢測(cè)之類的先進(jìn)挖掘技術(shù)
  . 通過基于HTML 5和JavaScript工具包的網(wǎng)絡(luò)技術(shù)建立交互式可視化

作者簡(jiǎn)介

  馬修·羅塞爾(Matthew A.Russell),Digital Reasoning
Systems公司的技術(shù)副總裁和Zaffra公司的負(fù)責(zé)人,是熱愛數(shù)據(jù)挖掘、開源和Web應(yīng)用技術(shù)的計(jì)算機(jī)科學(xué)家。他也是《Dojo:
The Dofinitive
Guide》(O'Reilly出版社)的作者。在LinkedIn上聯(lián)系他或在Twitter上關(guān)注@ptwobrussell,可隨時(shí)關(guān)注他的最新動(dòng)態(tài)。

書籍目錄

前言
第1章 緒論:Twitter 數(shù)據(jù)的處理
 Python 開發(fā)工具的安裝
 Twitter 數(shù)據(jù)的收集和處理
 小結(jié)
第2章 微格式:語義標(biāo)記和常識(shí)碰撞
 XFN 和朋友
 使用XFN 來探討社交關(guān)系
 地理坐標(biāo):興趣愛好的共同主線
?。ㄒ越】档拿x)對(duì)菜譜進(jìn)行交叉分析
 對(duì)餐廳評(píng)論的搜集
 小結(jié)
第3章 郵箱:雖然老套卻很好用
 mbox:Unix 的入門級(jí)郵箱
 mbox+CouchDB= 隨意的Email 分析
 將對(duì)話線程化到一起
 使用SIMILE Timeline 將郵件“事件”可視化
 分析你自己的郵件數(shù)據(jù)
 小結(jié)
第4章 Twitter :朋友、關(guān)注者和Setwise 操作
 REST 風(fēng)格的和OAuth-Cladded API
 干練而中肯的數(shù)據(jù)采集器
 友誼圖的構(gòu)建
 小結(jié)
第5章 Twitter:tweet ,所有的tweet ,只有tweet
 筆PK 劍:和tweet PK 機(jī)槍(?!?)
 對(duì)tweet 的分析(每次一個(gè)實(shí)體)
 并置潛在的社交網(wǎng)站(或#JustinBieber VS #TeaParty)
 對(duì)大量tweet 的可視化
 小結(jié)
第6章 LinkedIn :為了樂趣(和利潤(rùn)?)將職業(yè)網(wǎng)絡(luò)聚類
 聚類的動(dòng)機(jī)
 按職位將聯(lián)系人聚類
 獲取補(bǔ)充個(gè)人信息
 從地理上聚類網(wǎng)絡(luò)
 小結(jié)
第7章 Google Buzz:TF-IDF 、余弦相似性和搭配
 Buzz=Twitter+ 博客(???)
 使用NLTK 處理數(shù)據(jù)
 文本挖掘的基本原則
 查找相似文檔
 在二元語法中發(fā)Buzz
 利用Gmail
 在中斷之前試著創(chuàng)建一個(gè)搜索引擎……
 小結(jié)
第8章 博客及其他:自然語言處理(等)
 NLP :帕累托式介紹
 使用NLTK 的典型NLP 管線
 使用NLTK 檢測(cè)博客中的句子
 對(duì)文件的總結(jié)
 以實(shí)體為中心的分析:對(duì)數(shù)據(jù)的深層了解
 小結(jié)
第9章 Facebook :一體化的奇跡
 利用社交網(wǎng)絡(luò)數(shù)據(jù)
 對(duì)Facebook 數(shù)據(jù)的可視化
 小結(jié)
第10 章 語義網(wǎng):簡(jiǎn)短的討論
 發(fā)展中的變革
 人不可能只靠事實(shí)生活
 期望

章節(jié)摘錄

版權(quán)頁:插圖:這幅圖雖然很簡(jiǎn)單,卻非常有趣。它連接了8個(gè)人,其中,DionAlmaer是共同的主線。然而,請(qǐng)注意,抓取一層或多層可能會(huì)引入圖中“與其他所有人都連接”的節(jié)點(diǎn)。單看圖的話,我們無法根據(jù)“同事”和“朋友”之間的關(guān)系,判別Dion與BenGalbraith的關(guān)系是否更為密切,但是如果他在“被他的超鏈接標(biāo)識(shí)的目標(biāo)”中提供了任何信息的話,我們就可以抓取Ben的XFN信息,搜索其他同事標(biāo)簽來構(gòu)建“誰與誰共事”的社交網(wǎng)絡(luò)。更多挖掘數(shù)據(jù)的知識(shí)請(qǐng)查看第6章,因?yàn)樗c同事和工作搭檔相關(guān)。對(duì)廣度優(yōu)先技術(shù)的簡(jiǎn)單分析一般我們不會(huì)停頓這么長(zhǎng)時(shí)間來分析該方法,但是由于這個(gè)示例是我們編寫的第一個(gè)真正的算法,而且我們會(huì)在本書中多次見到它,因此值得更仔細(xì)地對(duì)它進(jìn)行分析。一般來說,當(dāng)你檢查算法時(shí),必須考慮兩個(gè)標(biāo)準(zhǔn):效率和有效性。換一種說法就是:性能和質(zhì)量。任何算法的標(biāo)準(zhǔn)性能分析通常都包括分析它在最壞情況下的時(shí)間復(fù)雜度和空間復(fù)雜度,即對(duì)于一個(gè)大型數(shù)據(jù)集,執(zhí)行程序所花的時(shí)間和需要的內(nèi)存。我們采用的廣度優(yōu)先方法實(shí)質(zhì)上是廣度優(yōu)先搜索,只是我們并沒有真正執(zhí)行搜索,因?yàn)榻Y(jié)束條件并沒有把圖擴(kuò)展到最大深度或直到我們遍歷完所有節(jié)點(diǎn)。如果搜索了一些具體的東西,而不只是無限地抓取鏈接,它就可以被視為真正的廣度優(yōu)先搜索了。

媒體關(guān)注與評(píng)論

“本書是《Programming Collective Intelligence》一書的深入篇,它介紹通過Python從社交網(wǎng)站中采集數(shù)據(jù)的一種實(shí)踐方法?!薄  狫eff Hammerbacher.Cloudera首席科學(xué)家“對(duì)于探索結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的一系列工具、技術(shù)和理論,本書給出了豐富、緊湊并實(shí)用的介紹?!  狝lex Martelli.Google高級(jí)主管工程師,《Python in a Nutshell》的作者

編輯推薦

《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》為Jolt生產(chǎn)效率大獎(jiǎng)獲獎(jiǎng)圖書。

圖書封面

圖書標(biāo)簽Tags

評(píng)論、評(píng)分、閱讀與下載


    社交網(wǎng)站的數(shù)據(jù)挖掘與分析 PDF格式下載


用戶評(píng)論 (總計(jì)102條)

 
 

  •     Facebook、Twitter和LinkedIn產(chǎn)生了大量寶貴的社交數(shù)據(jù),但是怎樣才能找出誰通過社交媒介正在進(jìn)行聯(lián)系?他們?cè)谟懻撔┦裁?或者他們?cè)谀膬?本書簡(jiǎn)潔而且具有可操作性,它將揭示如何回答這些問題甚至更多的問題。你將學(xué)到如何組合社交網(wǎng)絡(luò)數(shù)據(jù)、分析技術(shù),如何通過可視化幫助你找到你一直在社交世界中尋找的內(nèi)容,以及你聞所未聞的有用信息?! ”緯空露冀榻B了在社交網(wǎng)絡(luò)的不同領(lǐng)域挖掘數(shù)據(jù)的技術(shù),這些領(lǐng)域包括博客和電子郵件。你所需要具備的就是一定的編程經(jīng)驗(yàn)和學(xué)習(xí)基本的Python工具的意愿?! ⊥ㄟ^本書,你將   . 獲得對(duì)社交網(wǎng)絡(luò)世界的直觀認(rèn)識(shí)   .使用GitHub上靈活的腳本來獲取從諸如Twitter、Facebook和LinkedIn等社交網(wǎng)絡(luò)API中的數(shù)據(jù)  . 學(xué)習(xí)如何應(yīng)用便捷的Python工具來交叉分析你所收集的數(shù)據(jù)   . 通過XFN探討基于微格式的社交聯(lián)系   . 應(yīng)用諸如TF-IDF、余弦相似性、搭配分析、文檔摘要、派系檢測(cè)之類的先進(jìn)挖掘技術(shù)   . 通過基于HTML 5和JavaScript工具包的網(wǎng)絡(luò)技術(shù)建立交互式可視化
  •   SNS大數(shù)據(jù)分析必讀,但是引用了Twitter和Facebook的數(shù)據(jù),要通過網(wǎng)絡(luò)訪問需要一點(diǎn)額外的功夫,這個(gè)你懂的。Linkedin的數(shù)據(jù)時(shí)而可用時(shí)而不可用。
  •   如題,書里代碼不少,偏重應(yīng)用,對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)挖掘感興趣的童鞋可以看看~
  •   好書,介紹了很多python工具包和社交網(wǎng)站的api,就是twitter/facebook什么的還得翻墻,太糾結(jié)了...
  •   《社交網(wǎng)站的數(shù)據(jù)挖掘與分析》這本書很不錯(cuò)嘛。
  •   社交網(wǎng)站之間的競(jìng)爭(zhēng),歸根結(jié)底是數(shù)據(jù)之爭(zhēng)。針對(duì)社交網(wǎng)站的數(shù)據(jù)挖掘與分析,無疑能贏得更多的競(jìng)爭(zhēng)籌碼。
  •   感覺翻譯的不是很好,再加上個(gè)人對(duì)python不是很了解,對(duì)社交網(wǎng)絡(luò)的挖掘也是剛剛接觸,看著有些吃力。。。。
  •   這個(gè)是從事微博等社交網(wǎng)絡(luò)挖掘者的利器。不足之處是API運(yùn)行不太穩(wěn)定
  •   買過來看一下,需要用到社交網(wǎng)絡(luò)挖掘方面的知識(shí)
  •   這本書真是超級(jí)好,介紹了大量非常有用的工具,而且有很多我從前沒聽過的新概念、新方法,讀完之后可謂是受益良多。書中內(nèi)容要借助python來實(shí)現(xiàn),所以要有python基礎(chǔ),但是這點(diǎn)也不是關(guān)鍵,因?yàn)閜ython還是比較好學(xué)的,現(xiàn)學(xué)都不難。雖然講的是外國(guó)的社交網(wǎng)站,而且國(guó)內(nèi)還不能夠直接看到,但是移花接木,生活中還是可以用到的。
  •   現(xiàn)在火爆的社交網(wǎng)站,其中的數(shù)據(jù)的價(jià)值更是至高無上的
  •   先前下載一本英文版的,還是看中文的舒服,其中的代碼是用python寫的,主要是對(duì)faceook做數(shù)據(jù)挖掘與分析。
  •   書不錯(cuò),使用python的一些工具來數(shù)據(jù)挖掘
  •   從中也可體味社交網(wǎng)站的細(xì)微差別。
  •   主要是分析的國(guó)外三大網(wǎng)站的數(shù)據(jù)!
  •   用來入門不錯(cuò),實(shí)習(xí)的時(shí)候做大數(shù)據(jù),其中實(shí)驗(yàn)講的也不錯(cuò)。
  •   喜歡大數(shù)據(jù)的仁兄值得一看~~~
  •   比較專業(yè)的書 挖掘很好 可惜分析沒有
  •   但在中國(guó)測(cè)試,要翻墻去twitter
  •   Python簡(jiǎn)單易懂
  •   因?yàn)樗怯胮ython的,而且又是得獎(jiǎng)的
  •   很多案例,主要講facebook的,很實(shí)用。
  •   有技術(shù)有內(nèi)容,有講解有代碼
  •   書還是挺技術(shù)的,我承認(rèn)我買錯(cuò)了
  •   社會(huì)計(jì)算必備圖書
  •   這是目前最熱門的方向,好好學(xué)習(xí)一下,希望能有大的幫助
  •   剛剛到手,正在研讀。
  •   書的內(nèi)容很好,需要消耗很久哦
  •   這本書的內(nèi)容真的很不錯(cuò),但是感覺中文的翻譯并不是很好。
  •   貨剛到,現(xiàn)在開始讀
  •   還沒讀完,讀完再補(bǔ)
  •   有點(diǎn)難度,需要有py語言基礎(chǔ)
  •   幫助他人買的。
  •   3本書共比**便宜了14元!
  •   就喜歡實(shí)踐性的,nlltk那本書也如此
  •   感覺是好書,但還沒看,使用的語言,之前又不懂。以后有時(shí)間再慢慢看了
  •   第一次買,感覺不錯(cuò),都是經(jīng)典的書,內(nèi)容么話說,質(zhì)量也還好
  •   送給小朋友的,有趣且增加知識(shí)量,不錯(cuò)
  •   買了,還沒看,看后評(píng)價(jià)
  •   書不錯(cuò)很新很新鮮里面的各種也不錯(cuò)
  •   沒什么太特別的地方
  •   不錯(cuò)的書,很好很強(qiáng)大,只是還沒有看
  •   一本理論與實(shí)際緊密結(jié)合的好書,打開眼界。
  •   書很好,發(fā)貨也挺及時(shí)~
  •   很好,再說也還是這,呵呵
  •   暫無~~
  •   雖然不深 但是可以帶著入門
  •   拿到書了,挺滿意的。期待閱讀有收獲~
  •   很有深度不太好理解
  •   沒有給發(fā)票,書還沒看,應(yīng)該可以吧。。
  •   還滅有看
  •   很好書,專業(yè)性要求很強(qiáng)
  •   書品和人品一樣
  •   專業(yè),挺好的。
  •   這個(gè)書不錯(cuò)哈 這是給同事買來閱讀的 非常不錯(cuò)
  •   挺叼的樣子
  •   很喜歡,很快
  •   薄薄的,看看再說
  •   發(fā)貨快 送貨也及時(shí)
  •   真的是很專業(yè)很專業(yè)的一本書,好多代碼啊。對(duì)做數(shù)據(jù)分析的人來說,確實(shí)會(huì)很有用,但如果只是想進(jìn)行消費(fèi)者行為層面的數(shù)據(jù)挖掘,就未免太專業(yè)了點(diǎn)
  •   很好的數(shù)據(jù)挖掘概念,尤其在電商企業(yè)應(yīng)用中,會(huì)更好把握住用戶的“胃口”。
  •   很有用的一本書。不過例子全是國(guó)外的社交網(wǎng)站。
  •   入門級(jí)別的SNS數(shù)據(jù)分析,關(guān)系網(wǎng),時(shí)間線,聯(lián)系人等,對(duì)網(wǎng)絡(luò)語義的了解也是不錯(cuò)的選擇
  •   但是里面都是facebook、twitter的例子,怎么辦呢?只能干瞪眼
  •   不足之處是,作者用到許多國(guó)外網(wǎng)站的API,在國(guó)內(nèi)都訪問不了。因?yàn)槲覀冇袀ゴ蟮腉FW,你懂的。
    另外需要讀者有點(diǎn)python基礎(chǔ)。
  •   這本書很前沿,不過是用Python語言寫的。這讓學(xué)其他語言的還要先學(xué)一門語言。
    書前面說只要看了書的前幾頁就沒問題,但實(shí)際情況不是的,沒有一定的Python語言基礎(chǔ)或者其他語言的編程基礎(chǔ)看本書還是比較吃力的。不是傻瓜式,一說即會(huì)的那種教材!
  •   內(nèi)容還可以,就是facebook這些網(wǎng)站都不能上啊
  •   這個(gè)領(lǐng)域比較新的一本書,有一定收獲,但也不像傳說中的那么好
  •   公司購買,本人沒有閱讀過
  •   感覺還是蠻有用的
  •   書籍不錯(cuò),蠻有用的,SNS現(xiàn)在挺熱的,值得研究一下!
  •   不錯(cuò),業(yè)界比較早討論這個(gè)的書
  •   這本書的紙質(zhì)還不錯(cuò),就是內(nèi)容可能相對(duì)來說不夠精華。
  •   這本書的厚度和價(jià)錢的關(guān)系,體現(xiàn)了熱門知識(shí)的價(jià)值。
  •   書不錯(cuò),收貨也蠻快??上峭浟私o我寄發(fā)票,客服電話后說再另外寄給我,發(fā)票等待中!
  •   譯本肯定沒有原文的好啦,具體內(nèi)容還沒看
  •   內(nèi)容豐富,不過書看上去有點(diǎn)舊
  •   內(nèi)容不錯(cuò),就是薄了點(diǎn)
  •   書的印刷質(zhì)量還好。內(nèi)容很好 。
  •   都是算法,沒法看懂,講的通俗點(diǎn)就好了
  •   最近在看。
  •   翻譯得也很及時(shí),主題很時(shí)髦,推薦
  •   還要仔細(xì)地看
  •   這本書真的很爛,全是講如何去下載數(shù)據(jù)的,名不符實(shí)啊。關(guān)于數(shù)據(jù)挖掘講得非常的粗淺,沒有任何價(jià)值。
  •   原文書其實(shí)不錯(cuò)的。評(píng)論中對(duì)內(nèi)容有異議的朋友,恐怕是已經(jīng)入門的高手了。但是就我個(gè)人觀感來說這些基本的抓取方面的只是是QQ群和Google Group里面常年有人問的話題。有這么一本書來講解下是件好事情。買之前最好看看樣章和目錄。關(guān)于“分析”的事兒。原書名字中沒有講分析,Mining The Social Web。這書將數(shù)據(jù)挖掘還是挺專業(yè)的,初心入門者至少能從中學(xué)到挖掘的技術(shù),這比專門挨個(gè)翻博客試驗(yàn)要便捷省力得多。要埋怨就怨國(guó)內(nèi)的無良出版社策劃好了,為了銷量,楞要扯上分析二字。關(guān)于翻譯里面有很多句子不知所云,如果看過試讀的二章的話。這本書慢慢的翻譯會(huì)是本長(zhǎng)尾好書,英文版的看過之后感覺還是不錯(cuò),即使經(jīng)常性業(yè)余抓站的Python愛好者也會(huì)從中受益的。如果你買了,就直接看代碼好了。那是唯一沒翻譯壞了的好東西。書自身內(nèi)容4分翻譯 -5分書名 -5分
  •   標(biāo)題起的很新穎,但是看完了,發(fā)現(xiàn)大部分內(nèi)容是“挖掘”,而“分析”的部分講的很少通篇就是告訴你怎么寫代碼去抓數(shù)據(jù),然后有些什么好用的包之類的但是感覺吧,不是我想象中的內(nèi)容。因?yàn)橄筮@種主題,稍微有變成能力的人都可以做到對(duì)數(shù)據(jù)的抓取主要是想看看有什么新的分析思路,或者想看看作者從數(shù)據(jù)中能分析出些什么來而不是看作者怎么去抓數(shù)據(jù)...
  •   這本書2012年編寫的,twitter2013年升級(jí)了API接口。很多例子用不了,還要跑到網(wǎng)站上自己學(xué)習(xí)。建議買就買最新的第二版。這版很多知識(shí)都過時(shí)了
  •   最大的缺陷就是里邊的數(shù)據(jù)用不了。。Twitter,F(xiàn)acebook 是被禁的,要是能有本書講QQ或者校內(nèi)的開發(fā)平臺(tái),那就好了
  •   這本書是用Python和一些外部模塊來分析和挖掘郵件、Twitter、LinkedIn、Google Buzz、Facebook中的數(shù)據(jù),回答諸如誰是網(wǎng)絡(luò)中最有影響的人、最熱的話題是什么、誰是最話癆的人、誰與你相同朋友最多等等問題,對(duì)搞社交網(wǎng)站的人而言非常實(shí)用。國(guó)內(nèi)在社交網(wǎng)站的數(shù)據(jù)挖掘方面做得比較好的,豆瓣算一個(gè)。呵呵,不知豆瓣是如何做到的,看這個(gè)書能不能有一些啟發(fā)
  •   一直有人推薦,第一次看,希望不會(huì)失望!
  •   適合學(xué)習(xí)社交網(wǎng)絡(luò)數(shù)據(jù)挖掘
  •   書收到了,包裝很不錯(cuò),保護(hù)的很好。內(nèi)容還沒看
  •   如果想練習(xí)書中的例子,要學(xué)會(huì)python,還要會(huì)翻墻!
  •   書很好,可惜的就是國(guó)內(nèi)上不了那些網(wǎng)站,數(shù)據(jù)獲取是個(gè)大麻煩!
  •   換個(gè)說法吧,這個(gè)東西,對(duì)于不是用的主流語言寫的,要看,啊,還要學(xué)習(xí)一門新的語言,最少要先入門。
  •   根本就不是挖掘,也不是什么分析,只是用腳本語言抓網(wǎng)絡(luò)上的數(shù)據(jù),沒有挖掘,沒有分析,如果你不是用python,根本用不上,還有就是介紹的都是facebook與推特外國(guó)網(wǎng)站的抓取,如果你是大陸的,那么比如新浪的接口,根本不是一回事,買次數(shù)需謹(jǐn)慎。當(dāng)然你學(xué)的是python的話,可以參考下里面抓數(shù)據(jù)的思路,代碼也可以研究下。... 閱讀更多
  •   難~~要實(shí)時(shí)上機(jī),聯(lián)網(wǎng)操作
  •   建議改一下分類,跟營(yíng)銷沒什么關(guān)系
  •   書的整體有嚴(yán)重折痕 從正面到最后一頁都有 而且越是后面折痕越明顯影響閱讀非常不喜歡
  •   專門分析美國(guó)的社交網(wǎng)絡(luò),還有代碼
 

250萬本中文圖書簡(jiǎn)介、評(píng)論、評(píng)分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號(hào)-7