出版時間:2010-10 出版社:科學(xué)出版社 作者:鄭家恒 等著 頁數(shù):318
Tag標(biāo)簽:無
前言
從20世紀(jì)90年代開始,國際自然語言處理領(lǐng)域發(fā)生了一些重大變化,重要特征之一就是轉(zhuǎn)向?qū)Υ笠?guī)模真實文本的研究和處理。以大規(guī)模真實文本為基礎(chǔ)的語料庫研究和知識自動獲取受到高度重視。顯然,大規(guī)模真實文本的處理是計算語言學(xué)今后一個時期的戰(zhàn)略目標(biāo),建設(shè)高質(zhì)量的大規(guī)模語料庫是中文信息處理領(lǐng)域的基礎(chǔ)性工程?;谡Z料庫的語言研究是計算語言學(xué)的一個重要領(lǐng)域,語料庫的建立為語言學(xué)的研究提供了豐富的語言現(xiàn)象,為計算語言學(xué)學(xué)者從加工的語料庫中獲取語言知識、建立語言模型、研究語言信息處理技術(shù)提供了翔實的語言信息數(shù)據(jù)。作為研究資源的語料庫的價值是通過對語料的加工來體現(xiàn)的,對語料庫加工的層次越高,語料庫的應(yīng)用價值就越高。希望本書的出版能促進語料庫加工方法和技術(shù)的發(fā)展,為基于語料庫的相關(guān)研究和應(yīng)用提供支撐。作者及其課題組從事語言信息處理的教學(xué)與研究已有二十多年。近年來,作者有幸承擔(dān)了若干國家863計劃項目(中文文本自動切詞和詞性標(biāo)注軟件及其評測技術(shù)研究(863-306-03-09-4)、大規(guī)模中文文本語料庫深加工質(zhì)量檢驗技術(shù)研究(2001AAll4031))、國家自然科學(xué)基金項目(大規(guī)模中文文本語料庫分詞與詞性標(biāo)注一致性檢驗技術(shù)研究(60473139)、基于中文文本的計算機中介通信中欺騙檢測研究(60775041))、省部級項目及橫向合作項目等。這些項目的研究成果為本書的編寫提供了關(guān)鍵性支持。多年來,劉開瑛、黃昌寧等諸位學(xué)術(shù)前輩都為作者的相關(guān)研究思路和方法提供了許多指導(dǎo)。本書編寫過程中,山西大學(xué)梁吉業(yè)、李德玉、李茹、王文劍、王素格等教授為作者提供了多方面的支持。魏善德、任玉、魏莉、魏麗霞、樊勇、王振宇、劉博、張劍鋒、何苑、溫艷霞、毋菲等同學(xué)也為本書的出版做了許多文字校對方面的工作,謹(jǐn)在此一并表示深深的感謝。
內(nèi)容概要
本書以作者主持的國家項目、省部級項目及合作項目等為依托,以課題組近年來的研究成果為基礎(chǔ),重點介紹語料庫深加工中的若干技術(shù)和方法,涉及分詞、詞性標(biāo)注、句法分析、語義標(biāo)注以及相關(guān)加工中的自動校對和一致性檢驗技術(shù)。同時,對語料庫加工質(zhì)量的評價技術(shù)和語料庫的相關(guān)應(yīng)用做了詳細介紹。各章節(jié)的順序展示了語料庫加工中由淺人深的發(fā)展過程。 本書可作為計算機、語言學(xué)等專業(yè)高年級本科生、研究生教材,也可作為自然語言處理和計算語言學(xué)研究人員的參考書。
書籍目錄
《智能科學(xué)技術(shù)著作叢書》序前言第1章 緒論 1.1 語料庫的定義和作用 1.1.1 什么是語料庫 1.1.2 語料庫的作用 1.2 語料庫的建立 1.2.1 什么是語料庫標(biāo)注 1.2.2 語料庫標(biāo)注的原則 1.2.3 建立語料庫需要考慮的幾個問題 1.2.4 語料庫標(biāo)注和建立的方法 1.2.5 語料庫的質(zhì)量檢驗 1.3 本書的編排 參考文獻第2章 自動分詞 2.1 自動分詞概述 2.1.1 自動分詞的意義 2.1.2 自動分詞的主要難點 2.1.3 自動分詞方法簡介 2.1.4 自動分詞評測 2.2 分詞規(guī)范 2.2.1 制定分詞規(guī)范的目的和意義 2.2.2 幾種典型的分詞規(guī)范介紹 2.3 歧義字段的切分技術(shù) 2.3.1 歧義字段現(xiàn)象分析 2.3.2 基于統(tǒng)計的歧義字段排歧 2.4 未登錄詞識別 2.4.1 專有名詞識別 2.4.2 新詞語識別 2.5 縮略語識別 2.5.1 縮略語特征分析 2.5.2 縮略語資源庫的建立 2.5.3 縮略語識別模型 2.5.4 縮略語的還原 2.6 分詞一致性檢驗 2.6.1 分詞不一致性現(xiàn)象分析 2.6.2 基于規(guī)則的分詞一致性檢驗方法 2.6.3 基于統(tǒng)計的分詞一致性檢驗方法 2.6.4 分詞一致性檢驗系統(tǒng) 參考文獻第3章 詞性標(biāo)注 3.1 詞性標(biāo)注概述 3.1.1 詞性標(biāo)注的意義 3.1.2 詞性標(biāo)注的難點 3.1.3 詞性標(biāo)注方法簡介 3.1.4 常用語料庫 3.2 詞性標(biāo)注規(guī)范 3.2.1 制定詞性標(biāo)注規(guī)范的目的和意義 3.2.2 幾種典型的詞性標(biāo)注規(guī)范介紹 3.3 兼類詞的標(biāo)注 3.3.1 什么是兼類詞 3.3.2 典型的兼類詞標(biāo)注方法 3.4 詞性標(biāo)注一致性檢驗 3.4.1 問題描述和分析 3.4.2 一致性檢驗?zāi)P偷慕? 3.4.3 實驗結(jié)果和分析 3.4.4 方法評價 3.5 詞性標(biāo)注自動校對 3.5.1 基于分類的詞性標(biāo)注自動校對 3.5.2 基于決策表的詞性標(biāo)注自動校對 參考文獻第4章 句法分析 4.1 完全句法分析 4.1.1 完全句法分析概述 4.1.2 形式語法體系 4.1.3 樹庫資源的建設(shè) 4.1.4 漢語句法分析的特點 4.1.5 句法分析方法 4.1.6 相關(guān)會議及評測 4.1.7 句法分析模型的評價方法 4.2 淺層句法分析 4.2.1 淺層句法分析概述 4.2.2 組塊庫的獲取 4.2.3 組塊的類型及其標(biāo)注規(guī)范 4.2.4 組塊分析方法 4.2.5 相關(guān)會議及評測 4.2.6 評價參數(shù) 4.3 句法樹庫的一致性檢驗 4.3.1 不一致現(xiàn)象分析 4.3.2 不一致的發(fā)現(xiàn)和消解 參考文獻第5章 語義標(biāo)注語料庫 5.1 語義標(biāo)注范圍 5.1.1 詞義標(biāo)注 5.1.2 句義標(biāo)注 5.1.3 篇章級的語義標(biāo)注 5.2 語義標(biāo)注語料庫的建立方法 5.2.1 傳統(tǒng)的以人工標(biāo)注為主的方法 5.2.2 自動構(gòu)建語義標(biāo)注語料庫 5.3 主要的語義標(biāo)注語料庫 5.3.1 詞義標(biāo)注語料庫 5.3.2 句義標(biāo)注語料庫 5.3.3 語篇關(guān)系標(biāo)注語料庫 5.3.4 時間關(guān)系標(biāo)注語料庫 5.3.5 信息抽取方面的語料庫 5.3.6 生物醫(yī)藥領(lǐng)域中的語義標(biāo)注語料庫 參考文獻第6章 語料庫評測 6.1 語料庫評測的意義 6.2 語料庫分詞質(zhì)量評價 6.2.1 評價樣本的抽樣 6.2.2 抽樣樣本的聚類及評價 6.2.3 實驗及分析 6.3 語料庫可用性評價 6.3.1 可用性評價體系 6.3.2 可用性評價計算 6.3.3 評價結(jié)果分析 參考文獻第7章 基于語料庫的應(yīng)用研究 7.1 網(wǎng)頁信息處理 7.1.1 重復(fù)網(wǎng)頁分析 7.1.2 基于語義的網(wǎng)頁去重 7.1.3 基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重 7.2 特殊領(lǐng)域的信息抽取 7.2.1 基于HMM的農(nóng)業(yè)信息抽取 7.2.2 基于NLP的土壤污染數(shù)據(jù)抽取 7.2.3 基于BOotstrapping的交通工具名識別 7.3 基于大規(guī)模語料庫的漢語韻律邊界研究 7.3.1 基于統(tǒng)計語言模型建立二叉樹結(jié)構(gòu) 7.3.2 基于樹結(jié)構(gòu)的漢語韻律邊界預(yù)測 7.4 基于大規(guī)模語料庫的欺騙行為檢測 7.4.1 欺騙性語料庫的建設(shè) 7.4.2 欺騙檢測的特征線索 7.4.3 文本特征抽取 7.4.4 欺騙行為檢測方法 7.4.5 實驗結(jié)果和分析 參考文獻
章節(jié)摘錄
插圖:關(guān)于語料庫(corpus)的定義主要有以下幾種:(1)McEnery和Wilson指出:“總體來說,多篇文本的集合就是語料庫,但在現(xiàn)代語言學(xué)中使用語料庫這個術(shù)語時,更傾向于包含更多的內(nèi)涵,主要有采樣(sampling)收集、有代表性(representativeness)、規(guī)模有限(finite size)、機器可讀(machine-readable)、標(biāo)準(zhǔn)參考數(shù)據(jù)(a standard reference)等內(nèi)涵特征。”(2)語料庫就是某種語言在實際運用中的大量實例集合,這些例子可以是書面文本,也可以是語音形式的文本。(3)語料庫是根據(jù)外部原則選擇的電子形式的文本或文本片段的集合。該集合能夠代表一種語言,或一種語言的分支,或一種語言的變體,并可作為語言學(xué)研究使用的數(shù)據(jù)源[引。這里外部原則(external criteria)是指通過文本的交流功能來選擇文本的原則。與外部原則相對的一個概念就是內(nèi)部原則(internal criteria),具體指按照文本反映的語言細節(jié)來選擇文本。在上述的幾種定義中,定義(1)使用最多,認(rèn)為語料庫不是簡單收集的文本集合,而是通過采樣收集,具有代表性,規(guī)模大小可以確定,是機器可讀的標(biāo)準(zhǔn)數(shù)據(jù)。但是Kilgarriff和Grefenstette提出了異議,認(rèn)為McEnery和Wilson混淆了“什么是語料庫”和“什么是好的、適合于某項語言研究的語料庫”這兩個問題,他們認(rèn)為語料庫就是文本的集合。然而在具體使用中,有些研究者認(rèn)為有許多文本的集合并不一定是語料庫。最具有爭議的莫過于萬維網(wǎng)(WWW)了。WWW剛出現(xiàn)時,人們因為不了解搜索引擎,也不清楚對WWW如何采樣,覺得WWW相當(dāng)神秘。因此,文獻指出:“WWW不是語料庫,因為其維度未知且不斷變化,而且WWW最初也不是從語言學(xué)角度來設(shè)計的?!?/pre>編輯推薦
《智能信息處理:漢語語料庫加工技術(shù)及應(yīng)用》:智能科學(xué)技術(shù)著作叢書圖書封面
圖書標(biāo)簽Tags
無評論、評分、閱讀與下載