分子系統(tǒng)發(fā)生學(xué)

出版時間:2012-6  出版社:科學(xué)出版社  作者:黃原  頁數(shù):557  
Tag標(biāo)簽:無  

內(nèi)容概要

分子系統(tǒng)發(fā)生學(xué)是應(yīng)用分子數(shù)據(jù)重建系統(tǒng)發(fā)生關(guān)系的學(xué)科?!斗肿酉到y(tǒng)發(fā)生學(xué)》全面系統(tǒng)地論述了分子系統(tǒng)發(fā)生學(xué)的基礎(chǔ)、原理、方法及應(yīng)用。《分子系統(tǒng)發(fā)生學(xué)》由18章組成,可以歸納為五大部分:第一部分包括第1~3章,分別介紹了系統(tǒng)發(fā)生和系統(tǒng)樹的基本知識;第二部分包括第4~7章,是分子系統(tǒng)發(fā)生分析的基礎(chǔ),其中第4章和第5章是分子系統(tǒng)發(fā)生學(xué)的信息學(xué)基礎(chǔ),第6章是數(shù)據(jù)集系統(tǒng)發(fā)生信號評估,第7章討論了分子進(jìn)化模型及模型選擇原理與方法;第三部分中的第8~12章是各種系統(tǒng)發(fā)生分析方法,分別就目前主要的系統(tǒng)發(fā)生分析方法(距離矩陣法、簡約法、最大似然法、貝葉斯推論法和系統(tǒng)發(fā)生網(wǎng)絡(luò)法等)從原理、軟件操作、應(yīng)用及局限性等方面進(jìn)行了詳細(xì)的介紹,第13章討論了系統(tǒng)發(fā)生假設(shè)檢驗(yàn)的原理和方法,第14章討論了系統(tǒng)發(fā)生分析可靠性與影響因素;第四部分主要涉及各類數(shù)據(jù)集分析策略,其中第15章總結(jié)了不同類型數(shù)據(jù)的分析策略,第16章對復(fù)雜數(shù)據(jù)系統(tǒng)發(fā)生的分析策略與方法進(jìn)行了詳細(xì)地介紹,第17章是多基因數(shù)據(jù)分析策略和方法;最后一部分即第18章是系統(tǒng)樹的可視化、注釋與應(yīng)用方面的內(nèi)容?!斗肿酉到y(tǒng)發(fā)生學(xué)》可作為生物學(xué)、生物技術(shù)、生態(tài)學(xué)和生物信息學(xué)專業(yè)的本科生、研究生及科研人員學(xué)習(xí)分子系統(tǒng)發(fā)生學(xué)的教材或參考資料。

書籍目錄

前言第1章 系統(tǒng)發(fā)生學(xué)概論1.1 系統(tǒng)發(fā)生與系統(tǒng)發(fā)生學(xué)1.2 系統(tǒng)發(fā)生關(guān)系的含義1.2.1 表征關(guān)系1.2.2 分支關(guān)系1.2.3 遺傳關(guān)系1.2.4 系統(tǒng)發(fā)生關(guān)系1.2.5 年代關(guān)系1.2.6 地理分布關(guān)系1.3 分子系統(tǒng)發(fā)生分析的原理和假設(shè)1.3.1 分子系統(tǒng)發(fā)生分析的原理1.3.2 分子系統(tǒng)發(fā)生分析的假設(shè)1.3.3 分子數(shù)據(jù)的優(yōu)點(diǎn)1.4 分子系統(tǒng)發(fā)生學(xué)的方法論1.5 分子系統(tǒng)發(fā)生學(xué)的發(fā)展歷史1.6 系統(tǒng)發(fā)生分析的策略與步驟1.7 分子系統(tǒng)發(fā)生學(xué)的文獻(xiàn)資源1.7.1 分子系統(tǒng)發(fā)生學(xué)期刊1.7.2 分子系統(tǒng)發(fā)生學(xué)領(lǐng)域主要專著和教科書1.8 分子系統(tǒng)發(fā)生學(xué)的成就和問題第2章 系統(tǒng)發(fā)生分析基礎(chǔ)2.1 分子進(jìn)化基礎(chǔ)2.1.1 分子進(jìn)化的動力2.1.2 分子進(jìn)化的中性理論2.1.3 溯祖理論2.2 系統(tǒng)發(fā)生分析的分類學(xué)基礎(chǔ)2.2.1 系統(tǒng)發(fā)生與分類學(xué)的關(guān)系2.2.2 分類階元的系統(tǒng)發(fā)生意義2.3 性狀和性狀分析方法2.3.1 性狀的分類2.3.2 關(guān)于性狀的基本假設(shè)2.3.3 性狀進(jìn)化分析方法2.3.4 性狀的加權(quán)2.3.5 性狀的同源2.3.6 性狀的同型2.4 系統(tǒng)發(fā)生分析的數(shù)學(xué)基礎(chǔ)2.5 系統(tǒng)發(fā)生分析的統(tǒng)計(jì)學(xué)基礎(chǔ)2.5.1 概率分布2.5.2 系統(tǒng)發(fā)生的統(tǒng)計(jì)學(xué)檢驗(yàn)2.5.3 零假設(shè)與零模型2.5.4 常用檢驗(yàn)方法2.5.5 隨機(jī)數(shù)據(jù)及其在系統(tǒng)發(fā)生中的應(yīng)用2.6 理論系統(tǒng)發(fā)生學(xué)2.7 模擬系統(tǒng)發(fā)生研究2.7.1 系統(tǒng)樹的模擬2.7.2 序列的模擬2.7.3 系統(tǒng)發(fā)生模擬研究的優(yōu)勢2.8 系統(tǒng)發(fā)生分析的算法2.8.1 精確算法2.8.2 啟發(fā)式算法第3章 系統(tǒng)樹3.1 系統(tǒng)樹的概念和含義3.2 系統(tǒng)樹的要素3.2.1 系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)3.2.2 系統(tǒng)樹的節(jié)點(diǎn)3.2.3 系統(tǒng)樹的分枝和分枝長度3.3 演化歷史與系統(tǒng)樹的完整性3.4 系統(tǒng)樹表達(dá)的信息3.5 系統(tǒng)樹概念和表達(dá)形式的發(fā)展3.6 系統(tǒng)樹的類型3.6.1 樹狀圖與網(wǎng)狀圖3.6.2 有根樹和無根樹3.6.3 標(biāo)度樹與未標(biāo)度樹3.6.4 基因樹和物種樹3.6.5 基礎(chǔ)樹和合一樹、源樹和超樹3.6.6 期望樹與實(shí)際樹3.6.7 普適生命樹與完全樹3.6.8 二歧樹和多歧樹3.6.9 系統(tǒng)樹的表示形式3.7 系統(tǒng)樹的數(shù)學(xué)描述3.7.1 系統(tǒng)樹各部位的名稱3.7.2 二分樹及其表示方式3.7.3 二歧樹的性質(zhì)3.8 系統(tǒng)樹的賦根方法3.9 系統(tǒng)樹的生物學(xué)描述和解釋3.9.1 描述系統(tǒng)樹的基本術(shù)語3.9.2 系統(tǒng)樹的分類學(xué)解釋3.9.3 系統(tǒng)樹的進(jìn)化解釋第4章 系統(tǒng)發(fā)生信息學(xué)4.1 系統(tǒng)發(fā)生信息學(xué)概述4.2 系統(tǒng)發(fā)生信息學(xué)研究內(nèi)容4.3 系統(tǒng)發(fā)生數(shù)據(jù)文件格式4.3.1 數(shù)據(jù)文件格式4.3.2 格式轉(zhuǎn)換軟件4.3.3 系統(tǒng)樹文件格式4.4 系統(tǒng)發(fā)生分析軟件4.4.1 系統(tǒng)發(fā)生分析軟件概述4.4.2 系統(tǒng)發(fā)生分析軟件的編程語言4.4.3 系統(tǒng)發(fā)生分析軟件的使用4.5 PAUP*軟件及使用4.5.1 PAUP*軟件的歷史和版本4.5.2 PAUP*的安裝4.5.3 PAUP*的功能4.5.4 PAUP*命令及操作4.5.5 PAUP*使用的一般步驟4.5.6 ClustalX和PAUP*連用4.5.7 PAUP*4輔助軟件4.6 MEGA 5軟件包簡介4.7 DAMBE軟件包簡介4.8 Sea View 4軟件包簡介4.9 PHYLIP軟件包簡介4.10 系統(tǒng)發(fā)生的自動化分析工具4.11 系統(tǒng)發(fā)生網(wǎng)絡(luò)資源4.11.1 系統(tǒng)發(fā)生軟件目錄4.11.2 CIPRES4.11.3 分子進(jìn)化和系統(tǒng)發(fā)生專題研討會4.12 系統(tǒng)發(fā)生數(shù)據(jù)庫介紹4.12.1 系統(tǒng)發(fā)生知識數(shù)據(jù)庫4.12.2 生命之樹數(shù)據(jù)庫4.12.3 Species 2000數(shù)據(jù)庫4.12.4 NCBI分類數(shù)據(jù)庫4.13 系統(tǒng)發(fā)生信息學(xué)展望第5章 數(shù)據(jù)集準(zhǔn)備與序列比對5.1 分子數(shù)據(jù)的獲得5.1.1 自測數(shù)據(jù)5.1.2 序列拼接5.2 來源于公共數(shù)據(jù)庫的分子數(shù)據(jù)5.2.1 查看分類單元中已知基因序列分布的方法5.2.2 查看一個分類單元被提交到GenBank中序列數(shù)量的方法5.2.3 查看一個分類單元有序列記錄物種數(shù)量的方法5.2.4 數(shù)據(jù)庫序列獲取方法5.2.5 批量下載序列的方法5.2.6 比對序列數(shù)據(jù)庫5.3 序列比對5.3.1 比對的概念和分類5.3.2 序列比對的原理5.3.3 序列比對算法5.3.4 比對方法的分類5.4 常用比對軟件5.4.1 ClustalX5.4.2 T-Coffee5.4.3 DIALIGN5.4.4 MUSCLE和MAFFT5.4.5 ProAlign5.4.6 POA和ABA5.5 比對軟件的選擇5.6 不同類型的序列比對方法和策略5.6.1 DNA序列比對方法和策略5.6.2 RNA基因序列的比對方法與策略5.6.3 蛋白質(zhì)序列比對5.7 比對結(jié)果的美化顯示與格式轉(zhuǎn)化5.7.1 比對結(jié)果的美化和位點(diǎn)信息顯示5.7.2 比對結(jié)果的格式轉(zhuǎn)化5.8 比對與系統(tǒng)發(fā)生分析5.9 數(shù)據(jù)集中空位、模糊區(qū)、多態(tài)位點(diǎn)和丟失數(shù)據(jù)的處理5.9.1 數(shù)據(jù)集中空位的處理5.9.2 模糊比對序列的處理5.9.3 多態(tài)性狀的處理5.9.4 丟失數(shù)據(jù)的處理5.10 多源數(shù)據(jù)集組裝5.10.1 公共數(shù)據(jù)庫數(shù)據(jù)的組裝5.10.2 多基因數(shù)據(jù)的連接5.11 序列管理與數(shù)據(jù)提交5.11.1 序列管理5.11.2 系統(tǒng)發(fā)生數(shù)據(jù)提交第6章 數(shù)據(jù)集系統(tǒng)發(fā)生信號評估6.1 系統(tǒng)發(fā)生數(shù)據(jù)信號描述6.2 數(shù)據(jù)集質(zhì)量的評價6.2.1 數(shù)據(jù)集組成特征分析6.2.2 替換型式分析6.2.3 分子進(jìn)化參數(shù)計(jì)算6.2.4 替換飽和作圖6.3 系統(tǒng)發(fā)生信號與結(jié)構(gòu)分析6.3.1 序列數(shù)據(jù)系統(tǒng)發(fā)生信號強(qiáng)弱的評價6.3.2 系統(tǒng)發(fā)生信號評估軟件與方法6.3.3 系統(tǒng)發(fā)生信號組成結(jié)構(gòu)分析6.4 系統(tǒng)發(fā)生數(shù)據(jù)探索與實(shí)驗(yàn)性分析6.4.1 數(shù)據(jù)特征的探索6.4.2 系統(tǒng)發(fā)生數(shù)據(jù)的實(shí)驗(yàn)性分析第7章 進(jìn)化模型及其選擇7.1 進(jìn)化模型及其在系統(tǒng)發(fā)生分析中的作用7.2 系統(tǒng)發(fā)生模型7.3 形態(tài)性狀進(jìn)化模型7.4 DNA序列進(jìn)化模型7.4.1 DNA序列上發(fā)生的進(jìn)化改變7.4.2 同質(zhì)性模型7.4.3 堿基組成異質(zhì)性模型7.4.4 Indel模型7.5 RNA進(jìn)化模型7.5.1 結(jié)構(gòu)RNA序列的進(jìn)化特征7.5.2 RNA替換模型7.6 蛋白質(zhì)序列進(jìn)化模型7.6.1 蛋白質(zhì)序列進(jìn)化及建模7.6.2 經(jīng)驗(yàn)?zāi)P?.6.3 機(jī)理模型7.6.4 氨基酸頻率變異和位點(diǎn)之間速率變異模型7.6.5 混合模型7.7 進(jìn)化模型的選擇7.7.1 進(jìn)化模型選擇原理7.7.2 LRT檢驗(yàn)法7.7.3 AIC信息標(biāo)準(zhǔn)法7.7.4 貝葉斯信息標(biāo)準(zhǔn)法7.7.5 貝葉斯因子法7.7.6 決策論法7.7.7 進(jìn)化模型選擇注意事項(xiàng)7.8 DNA進(jìn)化模型選擇7.8.1 用PAUP*選擇模型的LRT檢驗(yàn)7.8.2 DNA模型選擇軟件7.8.3 jModelTest的使用7.9 蛋白質(zhì)進(jìn)化模型的選擇和使用7.9.1 蛋白質(zhì)進(jìn)化模型選擇概述7.9.2 蛋白質(zhì)進(jìn)化模型選擇軟件ProtTest3.07.10 進(jìn)化模型參數(shù)的準(zhǔn)確估計(jì)7.11 混合模型和平均模型第8章 距離矩陣方法8.1 遺傳距離的概念8.2 距離數(shù)據(jù)的數(shù)學(xué)特征和生物學(xué)意義8.3 將序列數(shù)據(jù)轉(zhuǎn)化為距離的方法8.3.1 未校正的遺傳距離8.3.2 校正距離的計(jì)算方法8.3.3 最大似然法估計(jì)的校正距離8.3.4 LogDet距離8.3.5 基因組距離8.3.6 蛋白質(zhì)遺傳距離8.3.7 計(jì)算遺傳距離的軟件8.3.8 校正距離的選擇和使用注意事項(xiàng)8.4 距離矩陣方法概述8.5 聚類分析方法8.6 鄰接法8.6.1 鄰接法原理8.6.2 鄰接法的算法8.7 最小進(jìn)化法8.8 疊加樹法8.8.1 原理8.8.2 平均距離法8.8.3 轉(zhuǎn)換距離法8.8.4 最小平方法8.8.5 其他疊加樹方法8.9 距離樹可靠性評價8.10 距離矩陣建樹方法的比較及應(yīng)用8.11 距離矩陣法建樹軟件8.11.1 PAUP*4距離法建樹8.11.2 MEGA5的距離法8.11.3 TREECON使用8.11.4 T-REX軟件使用8.11.5 ProfDist使用方法第9章 簡約法9.1 簡約性方法原理9.2 簡約法的分析過程9.2.1 性狀分布模式9.2.2 性狀優(yōu)化9.2.3 多態(tài)性內(nèi)部節(jié)點(diǎn)祖先狀態(tài)的重建方法9.2.4 性狀加權(quán)9.2.5 最簡約樹搜索9.2.6 簡約樹分枝長度和樹長的計(jì)算9.2.7 最簡約樹的選擇9.2.8 MP樹分支支持度計(jì)算9.3 數(shù)據(jù)集中同型性狀水平的分析和評價9.4 簡約法分析結(jié)果9.5 簡約性方法的優(yōu)缺點(diǎn)9.6 簡約法分析軟件9.7 用PAUP*進(jìn)行MP法分析9.7.1 利用PAUP*進(jìn)行簡單簡約法分析9.7.2 加權(quán)簡約法分析9.7.3 PAUP*限制樹搜索9.7.4 PAUP*4簡約法的腳本命令運(yùn)行9.8 TNT軟件9.9 WinClada和NOVA第10章 最大似然法10.1 最大似然法原理及其在系統(tǒng)發(fā)生分析上的應(yīng)用10.2 最大似然法建樹原理10.3 最大似然法建樹過程10.3.1 進(jìn)化模型的選擇及參數(shù)計(jì)算10.3.2 系統(tǒng)樹搜索方法10.3.3 分枝長度的優(yōu)化10.3.4 似然值的計(jì)算10.3.5 分支支持度計(jì)算10.4 最大似然法建樹結(jié)果的表示10.5 最大似然法的優(yōu)缺點(diǎn)10.5.1 最大似然法的優(yōu)點(diǎn)10.5.2 最大似然法的缺點(diǎn)10.6 最大似然法分析軟件10.6.1 PAUP*4的ML分析方法10.6.2 PAUP*與ModelTest聯(lián)合運(yùn)行選擇進(jìn)化模型10.6.3 TREEFINDER軟件使用方法10.6.4 TREE-PUZZLE軟件使用方法10.6.5 RAxML10.6.6 PhyML10.6.7 MetaPIGA10.6.8 IQPNNI10.6.9 GARLI第11章 貝葉斯系統(tǒng)發(fā)生推論法11.1 貝葉斯系統(tǒng)發(fā)生分析原理11.1.1 貝葉斯統(tǒng)計(jì)原理11.1.2 貝葉斯系統(tǒng)發(fā)生推論法歷史和現(xiàn)狀11.1.3 貝葉斯系統(tǒng)發(fā)生推論原理11.2 貝葉斯分析過程11.2.1 貝葉斯方法選擇模型11.2.2 先驗(yàn)概率的設(shè)置11.2.3 馬爾可夫鏈運(yùn)行設(shè)置11.2.4 提議、混合與接受11.2.5 貝葉斯推論法克服局部優(yōu)化的方法11.2.6 評估和促進(jìn)后驗(yàn)概率分布收斂的方法11.2.7 影響系統(tǒng)樹后驗(yàn)概率計(jì)算的因素11.3 貝葉斯法運(yùn)行結(jié)果匯總11.4 貝葉斯推論法結(jié)果的分析、判斷與表示11.5 貝葉斯系統(tǒng)發(fā)生軟件及使用11.5.1 貝葉斯系統(tǒng)發(fā)生軟件11.5.2 MrBayes 3.2使用方法11.6 貝葉斯系統(tǒng)發(fā)生推論法優(yōu)缺點(diǎn)11.7 貝葉斯法與最大似然法的聯(lián)系及區(qū)別11.8 貝葉斯后驗(yàn)概率與自舉支持度的關(guān)系第12章 系統(tǒng)發(fā)生網(wǎng)絡(luò)、超樹和無比對方法12.1 系統(tǒng)發(fā)生網(wǎng)絡(luò)12.1.1 網(wǎng)狀進(jìn)化型式與機(jī)制12.1.2 系統(tǒng)發(fā)生網(wǎng)絡(luò)的構(gòu)建方法12.1.3 網(wǎng)狀圖的構(gòu)建軟件12.1.4 系統(tǒng)發(fā)生網(wǎng)絡(luò)的應(yīng)用12.2 系統(tǒng)樹的整合方法——超樹12.2.1 超樹的概念12.2.2 超樹構(gòu)建方法12.2.3 超樹方法的優(yōu)缺點(diǎn)12.3 無比對方法12.3.1 比對和系統(tǒng)發(fā)生的聯(lián)合估計(jì)方法12.3.2 完全無比對方法第13章 系統(tǒng)發(fā)生假設(shè)檢驗(yàn)13.1 系統(tǒng)發(fā)生假設(shè)檢驗(yàn)概述13.2 似然比檢驗(yàn)13.3 數(shù)據(jù)隨機(jī)化檢驗(yàn)13.3.1 比較雙樹檢驗(yàn)13.3.2 PTP檢驗(yàn)和限制樹T-PTP檢驗(yàn)13.4 配對位點(diǎn)檢驗(yàn)13.4.1 Templeton檢驗(yàn)13.4.2 KH檢驗(yàn)13.5 非參數(shù)自舉法13.5.1 SH檢驗(yàn)13.5.2 AU檢驗(yàn)13.6 參數(shù)自舉法13.7 貝葉斯統(tǒng)計(jì)檢驗(yàn)法13.8 PAUP*執(zhí)行的系統(tǒng)發(fā)生假設(shè)檢驗(yàn)方法13.9 CONSEL軟件使用第14章 系統(tǒng)發(fā)生分析的可靠性與影響因素14.1 系統(tǒng)發(fā)生分析方法的可靠性14.1.1 方法可靠性的評價標(biāo)準(zhǔn)14.1.2 系統(tǒng)發(fā)生分析方法的比較研究14.1.3 不同構(gòu)樹方法的優(yōu)缺點(diǎn)14.2 系統(tǒng)樹的可靠性14.2.1 系統(tǒng)樹的兩類誤差14.2.2 系統(tǒng)誤差和隨機(jī)誤差14.2.3 檢驗(yàn)系統(tǒng)樹可靠性的統(tǒng)計(jì)學(xué)方法14.3 隨機(jī)誤差及統(tǒng)計(jì)分析14.3.1 評估分支支持度的方法14.3.2 自舉法14.3.3 自減法14.3.4 貝葉斯后驗(yàn)概率法14.3.5 計(jì)算分支支持度的軟件14.4 系統(tǒng)誤差的消除方法14.4.1 系統(tǒng)誤差的來源14.4.2 導(dǎo)致系統(tǒng)誤差的條件14.4.3 系統(tǒng)誤差的識別14.4.4 系統(tǒng)誤差的消除方法14.5 系統(tǒng)發(fā)生分析疑難解答14.5.1 有異常分支的系統(tǒng)發(fā)生14.5.2 隨機(jī)誤差14.5.3 分類單元抽樣14.5.4 序列長度與類型14.5.5 序列比對問題14.5.6 進(jìn)化模型選擇問題14.5.7 建樹方法的選擇14.5.8 搜索算法選擇14.5.9 分子進(jìn)化速率對系統(tǒng)發(fā)生的影響14.5.10 替換速率變異14.5.11 堿基組成偏向性的影響14.5.12 堿基組成異質(zhì)性的影響14.5.13 外群選擇與系統(tǒng)樹的賦根問題14.5.14 譜系缺失的影響14.5.15 數(shù)據(jù)缺失對系統(tǒng)發(fā)生分析的影響14.5.16 基因水平轉(zhuǎn)移14.5.17 序列和位點(diǎn)同源關(guān)系14.5.18 選擇作用的影響14.5.19 重組的影響14.5.20 分支支持度低的問題14.5.21 計(jì)算時間太長的問題14.5.22 總結(jié)第15章 不同類型數(shù)據(jù)的分析策略15.1 不同類型數(shù)據(jù)的特點(diǎn)15.2 DNA序列分析策略和方法15.2.1 用DNA序列還是蛋白質(zhì)序列15.2.2 編碼蛋白質(zhì)DNA序列的分析15.2.3 DNA序列的加權(quán)簡約法分析15.2.4 DNA序列的ML和貝葉斯法分析15.3 蛋白質(zhì)序列分析策略和方法15.3.1 蛋白質(zhì)序列數(shù)據(jù)的獲得15.3.2 必須使用蛋白質(zhì)序列的情況15.3.3 蛋白質(zhì)序列的分析策略15.3.4 蛋白質(zhì)立體結(jié)構(gòu)分析15.4 RNA序列分析策略和方法15.4.1 RNA序列數(shù)據(jù)的特點(diǎn)15.4.2 rRNA基因序列系統(tǒng)發(fā)生分析策略15.4.3 rRNA基因序列分析軟件第16章 復(fù)雜數(shù)據(jù)和困難系統(tǒng)發(fā)生的分析策略與方法16.1 早期適應(yīng)輻射的系統(tǒng)發(fā)生16.2 近期發(fā)生過適應(yīng)輻射的系統(tǒng)發(fā)生16.3 存在長枝吸引問題的系統(tǒng)發(fā)生16.3.1 長枝吸引現(xiàn)象16.3.2 產(chǎn)生長枝吸引現(xiàn)象的可能原因16.3.3 識別長枝吸引的方法16.3.4 消除長枝吸引現(xiàn)象的方法16.4 大數(shù)據(jù)集的系統(tǒng)發(fā)生16.4.1 大數(shù)據(jù)集系統(tǒng)發(fā)生及其面臨的問題16.4.2 大數(shù)據(jù)集系統(tǒng)發(fā)生分析策略16.4.3 大數(shù)據(jù)集的系統(tǒng)發(fā)生分析需要的計(jì)算機(jī)和軟件16.4.4 大數(shù)據(jù)集分析實(shí)例16.5 堿基組成異質(zhì)性數(shù)據(jù)集的分析16.5.1 序列組成偏向性及其對系統(tǒng)發(fā)生分析的影響16.5.2 堿基組成異質(zhì)性數(shù)據(jù)分析方法16.5.4 氨基酸組成異質(zhì)性數(shù)據(jù)分析方法16.6 種上與種下數(shù)據(jù)的聯(lián)合分析第17章 多源數(shù)據(jù)集分析策略和方法17.1 多源數(shù)據(jù)集概述17.2 數(shù)據(jù)集之間的不相合性及檢驗(yàn)方法17.2.1 不相合性的類型17.2.2 數(shù)據(jù)集之間不相合性的原因17.2.3 數(shù)據(jù)集之間不相合性的檢驗(yàn)方法17.3 多源數(shù)據(jù)集的分析策略17.3.1 聯(lián)合方法17.3.2 分類學(xué)相合性分析17.3.3 數(shù)據(jù)劃分方法17.4 多源數(shù)據(jù)集的劃分分析實(shí)例17.5 譜系基因組學(xué)方法17.5.1 譜系基因組學(xué)17.5.2 譜系基因組學(xué)分析策略17.5.3 譜系基因組學(xué)分析方法第18章 系統(tǒng)樹的可視化、注釋與應(yīng)用18.1 系統(tǒng)樹的可視化18.1.1 TreeView18.1.2 Dendroscope18.1.3 Mesquite18.1.4 FigTree18.1.5 MrEnt18.1.6 2D和3D曲面表示方法18.1.7 iTOL18.2 系統(tǒng)樹的注釋18.2.1 分類學(xué)命名標(biāo)注18.2.2 分歧年代和地質(zhì)時代的標(biāo)注18.2.3 重建祖先狀態(tài)18.2.4 性狀進(jìn)化18.2.5 協(xié)同系統(tǒng)發(fā)生18.3 系統(tǒng)樹表達(dá)的信息及其應(yīng)用18.3.1 拓?fù)浣Y(jié)構(gòu)和分支長度18.3.2 系統(tǒng)樹的樹形及應(yīng)用18.3.3 系統(tǒng)發(fā)生的不平衡性18.3.4 系統(tǒng)樹用于分析分歧速度18.4 系統(tǒng)發(fā)生的應(yīng)用參考文獻(xiàn)

章節(jié)摘錄

第1章  系統(tǒng)發(fā)生學(xué)概論1.1  系統(tǒng)發(fā)生與系統(tǒng)發(fā)生學(xué)系統(tǒng)發(fā)生(phylogeny , 由希臘詞根phylon = stem 、tribe 、race 和genesis = origin構(gòu)成) 是指任何生物實(shí)體(基因、個體、種群、物種和種上階元) 的起源和演化關(guān)系。達(dá)爾文首次使用系統(tǒng)發(fā)生一詞是在《物種起源》第5 版提及Haeckel 的著作Generelle Mor p hologie 時, 并將系統(tǒng)發(fā)生等同為所有生物的傳代線( the lines of de-scent of all organic beings) , 這與Haeckel 的原意不同, Haeckel 書中的系統(tǒng)發(fā)生是生命之樹的傳代線上生物在形態(tài)上發(fā)生的主要改變, 而非傳代線本身(Dayrat , 2003) 。但達(dá)爾文此處對系統(tǒng)發(fā)生概念的使用與我們現(xiàn)在的定義基本上一致。分子系統(tǒng)發(fā)生(molecular phylogeny) 是利用各種分子性狀構(gòu)建的生物實(shí)體之間起源和演化關(guān)系, 采用的分子數(shù)據(jù)主要是DNA 和蛋白質(zhì)序列, 也包括其他類型的分子數(shù)據(jù)。系統(tǒng)發(fā)生學(xué)(phylogenetics) 是研究利用各種性狀構(gòu)建基因、個體、種群、物種和種上單元之間系統(tǒng)樹或網(wǎng)絡(luò)的原理和方法的學(xué)科。系統(tǒng)發(fā)生學(xué)重建進(jìn)化歷史依賴于對取樣物種的性狀分布進(jìn)行數(shù)學(xué)推論, 這種重建涉及不同類群共享的同源性狀, 并通過這些性狀推斷系統(tǒng)樹。這種數(shù)學(xué)推斷的準(zhǔn)確性完全依賴于對性狀進(jìn)化的假設(shè)和模型。20 世紀(jì)50 年代以來, 蛋白質(zhì)和DNA 測序技術(shù)為系統(tǒng)發(fā)生重建帶來了曙光。DNA和蛋白質(zhì)序列數(shù)據(jù)作為生物信息分子具有線性數(shù)字編碼特征, 并且能夠建立位點(diǎn)之間的同源關(guān)系, 逐漸成為系統(tǒng)發(fā)生分析的主要數(shù)據(jù)來源。分子系統(tǒng)發(fā)生學(xué)( molecularphylogenetics) 就是在這種背景下誕生的, 是研究利用各種分子性狀構(gòu)建基因、個體、種群和物種之間系統(tǒng)樹或進(jìn)化網(wǎng)絡(luò)的原理和方法的學(xué)科。分子數(shù)據(jù)的使用導(dǎo)致了系統(tǒng)發(fā)生研究的革命。在20 世紀(jì)80 年代后期, 由于保守引物的PCR 擴(kuò)增和DNA 測序技術(shù)的應(yīng)用, 使得系統(tǒng)發(fā)生分析可利用的同源位點(diǎn)(即性狀) 數(shù)量達(dá)到500 個, 有的甚至超過數(shù)千個, 與此前幾十個、最多上百個形態(tài)特征相比, 大大地增強(qiáng)了解決系統(tǒng)發(fā)生推論的數(shù)據(jù)力度。此時, 一些線粒體基因和rDNA成為最廣泛應(yīng)用的標(biāo)記, 其中編碼SSU rRNA 的基因識別出了作為生命樹的第三分支的古細(xì)菌(Archaea) 。隨著更多基因標(biāo)記, 尤其是大量單拷貝核基因的使用, 基于單個基因推論的系統(tǒng)發(fā)生關(guān)系之間的沖突逐漸顯露。而且, 來自單個基因的信息經(jīng)常不足以對系統(tǒng)發(fā)生的節(jié)點(diǎn)提供堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)支持。所以, 自20 世紀(jì)90 年代以來, 多基因數(shù)據(jù)逐漸成為分子系統(tǒng)發(fā)生研究的主流。目前, 成千上萬個物種的全基因組序列信息已經(jīng)通過新一代的高通量測序技術(shù)產(chǎn)生, 并由此產(chǎn)生了一個新的分支學(xué)科―― 譜系基因組學(xué)(phylogenomics) , 就是在基因組水平上進(jìn)行系統(tǒng)發(fā)生研究。譜系基因組學(xué)將基因座位的進(jìn)化作為一種隨機(jī)過程看待,將分子水平的基因座位和序列位點(diǎn)進(jìn)化模型及群體歷史過程整合在一起, 分析基因樹和物種樹之間的關(guān)系, 引發(fā)分子系統(tǒng)發(fā)生學(xué)思想的又一次革命。基因組學(xué)數(shù)據(jù)增加了用于系統(tǒng)發(fā)生學(xué)分析的性狀數(shù)量和類型, 期望能夠減少先前由于序列或基因取樣偏差造成的系統(tǒng)發(fā)生推論誤差。分子系統(tǒng)發(fā)生學(xué)已經(jīng)成為當(dāng)前生物學(xué)研究的核心領(lǐng)域。根據(jù)SCI Web of Science 引文數(shù)據(jù)庫統(tǒng)計(jì), 到2009 年底已經(jīng)有30 000 多篇關(guān)于系統(tǒng)發(fā)生分析的論文, 并且每年以3000 篇的速度增加( Pagel and Meade , 2008) 。Rokas 和Carroll (2006) 估計(jì)世界范圍平均每天發(fā)表15 棵系統(tǒng)樹。最近發(fā)起的重建生命之樹計(jì)劃和DNA 條形碼計(jì)劃是生物學(xué)歷史上能夠與基因組計(jì)劃媲美的生物學(xué)大科學(xué)項(xiàng)目, 加之廉價而快速的新一代高通量測序技術(shù)引發(fā)的全基因組測序的普及, 如人類千人基因組計(jì)劃、宏基因組學(xué)( met-agenomics) 、脊椎動物基因組10K 計(jì)劃和昆蟲基因組5K 計(jì)劃等, 將極大地推進(jìn)分子系統(tǒng)發(fā)生學(xué)的研究。分子系統(tǒng)發(fā)生學(xué)數(shù)據(jù)的增加速度很快, 目前NCBI 核苷酸數(shù)據(jù)庫有序列記錄的物種數(shù)超過30 萬種。過去5 年GenBank 的物種數(shù)以每年約1.7 萬種的速度增加, 也就是170 萬種已描述物種中, 每年約有1 % 的物種被進(jìn)行至少一個基因的測序。即便如此,至少含有一條分子序列的生物體只占全部已知物種的17 % 左右。而在系統(tǒng)發(fā)生信息數(shù)據(jù)庫TreeBASE 中, 目前只錄入了2000 多項(xiàng)研究的5000 多棵系統(tǒng)樹, 包括100 000個類群(http : //www.treebase.org/) 。因此, 實(shí)現(xiàn)重建生命之樹的宏偉計(jì)劃還有漫長的路要走。1.2  系統(tǒng)發(fā)生關(guān)系的含義不同生物學(xué)家對系統(tǒng)發(fā)生概念的認(rèn)識和理解有所不同。生物之間在系統(tǒng)發(fā)生學(xué)上的相關(guān)性稱為系統(tǒng)發(fā)生關(guān)系(phylogenetic relationship) 。生物之間存在著各種各樣的相互關(guān)系, 系統(tǒng)發(fā)生關(guān)系只是其中最重要的關(guān)系之一, 其他的關(guān)系還包括表征的(phenetic) 、分支的(cladistic) 、時序的(chronistic) 、遺傳的或親緣的(patristic) 和相互作用(interaction) 關(guān)系等, 這些復(fù)雜的關(guān)系從不同的角度反映了生物之間的相關(guān)性。1.2.1  表征關(guān)系表征關(guān)系是不考慮進(jìn)化關(guān)系, 僅以所有可利用性狀為基礎(chǔ)的全面相似性程度排列的關(guān)系。Sneath 和Sokal (1972) 將表征關(guān)系定義為“在所研究的機(jī)體表型特征基礎(chǔ)上的相似性” 。以表征關(guān)系為基礎(chǔ)的分類學(xué)研究稱為表征分類學(xué)(phenetics) , 根據(jù)生物表征總體相似性為依據(jù)獲得的有機(jī)體之間的關(guān)系圖解稱為表征圖(phenogram) 。表征分類學(xué)認(rèn)為有機(jī)體之間的演化關(guān)系是無法弄清楚的, 因而表征圖不需要代表機(jī)體之間的演化關(guān)系。根據(jù)表征圖顯示的類群之間的聚類關(guān)系就可以直接轉(zhuǎn)化為分類體系。1.2.2  分支關(guān)系分支關(guān)系指物種或類群之間與共同祖先相對近度(relative recency) 的關(guān)系。以分支關(guān)系為基礎(chǔ)的系統(tǒng)學(xué)研究稱為支序系統(tǒng)學(xué)(cladistics) 或系統(tǒng)發(fā)生系統(tǒng)學(xué)(phyloge-netic systematics) ( Hennig , 1966) 。支序系統(tǒng)學(xué)派認(rèn)為, 判別系統(tǒng)發(fā)生關(guān)系遠(yuǎn)近的唯一標(biāo)準(zhǔn)是共同祖先的近度(recency of common ancestry) , 共同祖先關(guān)系可以通過性狀的分布分析來發(fā)現(xiàn), 支序系統(tǒng)學(xué)派將性狀分為祖征(plesiomorphy) 、共享祖征(sym-plesiomorphy) 、衍征(apomorphy) 、共享衍征( synapomorphy) 和自裔衍征(auta-pomorphy) , 認(rèn)為只有共享衍征才是共同祖先的證據(jù), 共享祖征及由趨同進(jìn)化和平行進(jìn)化形成的相似性(同型性狀) 均不能作為共同祖先的證據(jù)。通過共享衍征推論的有機(jī)體分支關(guān)系的樹狀圖稱為支序圖(cladogram) 。支序圖的縱軸僅表示分支發(fā)生的相對時間, 圖上的二叉分支節(jié)點(diǎn)代表一次物種形成事件。支序圖只是關(guān)于共享衍征分布的陳述(圖1-1) , 而不是系統(tǒng)發(fā)生關(guān)系的陳述, 要將支序圖轉(zhuǎn)化成系統(tǒng)發(fā)生關(guān)系還需要進(jìn)一步對進(jìn)化過程作出假設(shè)。支序圖上的分類單元(無論是現(xiàn)存種還是化石種) 總是在末端分枝, 而在系統(tǒng)樹上必須明確分類單元的祖裔關(guān)系。圖1-2 中左框的分支圖( ( A , B) , C) 就可以解釋為右框中6 種不同的系統(tǒng)樹。支序系統(tǒng)學(xué)認(rèn)為系統(tǒng)發(fā)生關(guān)系是生物之間最核心的關(guān)系, 所有的分類學(xué)體系都必須建立在系統(tǒng)發(fā)生關(guān)系的基礎(chǔ)上, 也就是要求所有的分類單元必須是單系性的。已經(jīng)建立了基于系統(tǒng)發(fā)生的分類學(xué)命名法規(guī)―― Phylocode (www.ohio.edu/phylocode/) 。1.2.3  遺傳關(guān)系遺傳關(guān)系是生物在遺傳組成方面的關(guān)系, 在群體遺傳學(xué)中采用遺傳相關(guān)性系數(shù)(coefficient of genetic relatedness) 來度量, 在種上階元之間采用親緣距離(patristicdistance) 來度量。親緣距離是指在傳代線內(nèi)發(fā)生的遺傳變異數(shù)量, 表現(xiàn)在標(biāo)度系統(tǒng)樹上兩個物種經(jīng)過其共同祖先節(jié)點(diǎn)的所有通徑的分枝長度之和。在分子系統(tǒng)樹上, 親緣距離實(shí)際上等價于它們從共同祖先分歧以來在兩個支系上發(fā)生的遺傳改變, 如果以基因組序列來度量的話, 就等價于分支之間的遺傳組成差異。遺傳關(guān)系起源于遺傳物質(zhì)的繼承與傳遞, 包括兩種不同的遺傳方式: 垂直遺傳和水平遺傳。垂直傳遞是通過繁殖方式進(jìn)行的, 在有性生殖群體內(nèi)個體之間的遺傳關(guān)系是一種網(wǎng)狀關(guān)系(特稱為tokogeny) 。垂直遺傳包括雙親遺傳(如常染色體遺傳) 、父系遺傳(如Y 染色體遺傳) 和母系遺傳(如線粒體基因組遺傳) 三種不同的方式。雙親遺傳標(biāo)記是生物之間的主要遺傳標(biāo)記, 可以用于研究生物主要遺傳組成的演化歷史;父系遺傳的標(biāo)記可以推論父本譜系的歷史; 母系遺傳標(biāo)記可以推論母本譜系的歷史。三類垂直遺傳標(biāo)記都可用于類群系統(tǒng)發(fā)生關(guān)系的重建。水平遺傳的主要方式是基因水平轉(zhuǎn)移(horizontal gene transfer , HGT) , 也稱為側(cè)向轉(zhuǎn)移(lateral gene transfer , LGT) , 是指在不同物種之間進(jìn)行的遺傳物質(zhì)的交流。LGT 類似于物種內(nèi)部的重組, 但種內(nèi)不同染色體/DNA 分子的重組是共享基因庫分子之間的混合, 雖然也產(chǎn)生了不同進(jìn)化歷史的DNA 分子的嵌合體, 但重組分子對推論物種之間的系統(tǒng)發(fā)生關(guān)系影響不大, 因?yàn)樗鼈兊倪z傳傳遞方式與分支發(fā)生方式一致。而LGT 是跨越生殖隔離的DNA 分子之間的混合, 是與分支發(fā)生關(guān)系毫無關(guān)聯(lián)的遺傳傳遞, 因而會對系統(tǒng)發(fā)生關(guān)系產(chǎn)生誤導(dǎo)。水平基因轉(zhuǎn)移事件作為推動物種進(jìn)化的重要動力, 在生命起源和進(jìn)化的早期發(fā)揮了十分重要的作用, 后來也對原核生物基因組的進(jìn)化產(chǎn)生了深刻的影響(圖1-3) , 但相對來說在真核生物中發(fā)生的規(guī)模不大。垂直遺傳和水平遺傳的概念在細(xì)胞形態(tài)的生物之間是很容易區(qū)分的, 因?yàn)榇怪边z傳是通過細(xì)胞膜體系和遺傳系統(tǒng)的雙重復(fù)制及分裂過程完成的, 而水平遺傳僅僅是部分遺傳物質(zhì)的整合。因此, 也有人將這種以細(xì)胞傳承為基礎(chǔ)的垂直遺傳系統(tǒng)發(fā)生稱為細(xì)胞之樹(tree of cell) 。以遺傳關(guān)系為基礎(chǔ)的系統(tǒng)學(xué)研究即分子系統(tǒng)學(xué), 從帶遺傳信息的分子數(shù)據(jù)建立的樹狀圖稱為分子樹(molecular tree) 或基因樹(gene tree) ?;驑淇梢允侨后w內(nèi)部取樣的等位基因之間的系統(tǒng)發(fā)生關(guān)系, 特稱為基因譜系(gene genealogy) , 反映的是等位基因的起源和演化關(guān)系; 也可以是基因組內(nèi)部一個基因家族成員之間的系統(tǒng)發(fā)生關(guān)系, 反映的是基因重復(fù)事件; 還可以是不同物種的直系或并系同源基因之間的系統(tǒng)發(fā)生關(guān)系, 反映的是基因重復(fù)與物種形成雙重進(jìn)化事件?;诖怪边z傳分子標(biāo)記構(gòu)建的基因樹可以轉(zhuǎn)化為物種樹, 而根據(jù)水平遺傳分子標(biāo)記構(gòu)建的基因樹就不能直接轉(zhuǎn)化為物種樹。所以, 只有垂直遺傳關(guān)系的基因才能表達(dá)物種之間的系統(tǒng)發(fā)生關(guān)系。1.2.4  系統(tǒng)發(fā)生關(guān)系廣義的系統(tǒng)發(fā)生(phylogenetic) 或種系發(fā)生(phyletic) 關(guān)系包括任何生物實(shí)體(基因、個體、群體、物種和種上階元) 的起源和演化關(guān)系, 而狹義的系統(tǒng)發(fā)生關(guān)系僅指物種和種上單元的起源和演化關(guān)系。對狹義的系統(tǒng)發(fā)生關(guān)系的含義有不同的看法,有些人認(rèn)為系統(tǒng)發(fā)生關(guān)系應(yīng)是包括以上三種關(guān)系的總和, 有些人則將系統(tǒng)發(fā)生關(guān)系僅看成是分支關(guān)系或遺傳關(guān)系。在此, 我們將狹義的系統(tǒng)發(fā)生關(guān)系定義為由分支發(fā)生(cladogenesis) 產(chǎn)生的存在于任何支系(lineage) 之間的祖裔關(guān)系和姐妹群關(guān)系。因此, 系統(tǒng)發(fā)生關(guān)系實(shí)際上是由垂直遺傳構(gòu)成的分支關(guān)系, 而分支發(fā)生實(shí)際上是連續(xù)的物種形成過程。在這個連續(xù)的過程中, 永恒存在的僅僅是作為復(fù)制模板的細(xì)胞膜系統(tǒng)和遺傳系統(tǒng), 個體只是作為這兩個復(fù)制模板的中間載體而短暫存在。除這種分支關(guān)系外, 系統(tǒng)發(fā)生關(guān)系還包括少量的由物種雜交形成產(chǎn)生的網(wǎng)絡(luò)關(guān)系。自達(dá)爾文以來, 系統(tǒng)發(fā)生關(guān)系被認(rèn)為是樹狀分支的, 表示有機(jī)體之間系統(tǒng)發(fā)生關(guān)系的樹狀圖解稱為系統(tǒng)樹(phylogenetic tree 或phylogram) 或進(jìn)化樹(evolutionarytree) 。傳統(tǒng)上, 系統(tǒng)發(fā)生關(guān)系通過尋找共同祖先及祖裔關(guān)系來重建。由于現(xiàn)存的所有物種都是由共同祖先進(jìn)化形成的, 因此, 系統(tǒng)發(fā)生關(guān)系的遠(yuǎn)近程度是一個相對概念。如果兩個譜系享有比其他譜系更近的共同祖先, 則這兩個譜系相互之間的系統(tǒng)發(fā)生關(guān)系更接近且遠(yuǎn)離其他譜系。由于滅絕和分類單元取樣不完整等原因, 系統(tǒng)發(fā)生關(guān)系一般無法重建完整的生物進(jìn)化歷史, 而是簡化的進(jìn)化歷史, 是一種對進(jìn)化歷史的假設(shè), 但隨著研究的深入可無限逼近進(jìn)化歷史。以上四種關(guān)系是生物之間最核心的關(guān)系, 它們之間在概念上的區(qū)別可以通過熟悉的爬行類和鳥類進(jìn)化關(guān)系的樹狀圖解來說明(圖1-4) 。圖1-4 中顯示出表征關(guān)系、分支關(guān)系和親緣距離三種關(guān)系度量方法之間的矛盾。蜥蜴和鱷魚的形態(tài)特征最接近,表征關(guān)系最近; 鱷魚和恐龍之間在系統(tǒng)樹上的通徑長度最小, 故親緣距離最近; 恐龍和鳥類是擁有最近共同祖先的類群, 它們之間的分支關(guān)系最近。……

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    分子系統(tǒng)發(fā)生學(xué) PDF格式下載


用戶評論 (總計(jì)0條)

 
 

 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7