漢英機(jī)器翻譯若干關(guān)鍵技術(shù)研究

出版時(shí)間:2008-10  出版社:清華大學(xué)出版社  作者:劉群  頁數(shù):153  
Tag標(biāo)簽:無  

前言

  自然語言處理技術(shù)的產(chǎn)生可以追溯到20世紀(jì)50年代,它是一門集語言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)和認(rèn)知科學(xué)等于一體的綜合性交又學(xué)科。近幾年來,隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和通信技術(shù)的迅速發(fā)展和普及,自然語言處理技術(shù)的應(yīng)用需求急劇增加,人們迫切需要實(shí)用的自然語言處理技術(shù)來幫助人們打破語言屏障,為人際之間、人機(jī)之問的信息交流提供便捷、自然、有效的人性化服務(wù)。但是,自然語言處理中的若干科學(xué)問題和技術(shù)難題尚未得到解決,有待于來自不同領(lǐng)域的學(xué)者深入研究和探索?! ≈形男畔⑻幚碜鳛樽匀徽Z言處理中的一個(gè)分支,近幾年來備受關(guān)注。一方面,隨著中國經(jīng)濟(jì)的迅速發(fā)展和中國國力的不斷增強(qiáng),漢語正在成為一種新的強(qiáng)勢語言而被世人矚目,漢語理解所涉及的科學(xué)問題讓國際計(jì)算語言學(xué)界無法回避;而另一方面,漢語使用者所擁有的巨大市場潛力令國際企業(yè)界不敢輕視。因此,中文信息處理成為全球自然語言處理研究者們共同關(guān)注的問題已經(jīng)是不爭的事實(shí)。目前國際上每年舉行的頗具影響的幾種技術(shù)評測,包括機(jī)器翻澤評測、信息抽取評測和句法分析評測等,無不與漢語密切相關(guān)。因此,作為炎黃子孫,我們沒有理由不在這一領(lǐng)域的研究中做出應(yīng)有的貢獻(xiàn)?! ≈形男畔⑻幚硭媾R的困難既有其他任何一種自然語言處理都會遇到的共性問題,如生詞識別問題、歧義消解問題等,也有中文處理本身所具有的個(gè)性問題,如漢語自動分詞問題、詞性定義規(guī)范問題等。因此,從某種意義上講,中文信息處理更具挑戰(zhàn)性。值得欣慰的是,中文信息處理在引起國際學(xué)術(shù)界和企業(yè)界關(guān)注的同時(shí),得到了中國政府的重視和大力支持,它已經(jīng)被列入國務(wù)院批準(zhǔn)的“國家中長期科學(xué)技術(shù)發(fā)展規(guī)劃綱要”。因此,中文信息處理面臨著前所未有的大好機(jī)遇?! 〗鼛啄陙?,我國的中文信息處理技術(shù)得到了快速發(fā)展,無論是在基礎(chǔ)理論研究方面,還是在技術(shù)開發(fā)和產(chǎn)業(yè)化發(fā)展方面,都取得了顯著成績,一大批青年學(xué)者投身到這一領(lǐng)域中。為了使這一領(lǐng)域的廣大學(xué)者,尤其是青年學(xué)生,全面了解中文信息處理的技術(shù)現(xiàn)狀,進(jìn)一步推動中文信息處理及其相關(guān)學(xué)科的快速發(fā)展,我們組織編寫并出版了這套中文信息處理叢書。

內(nèi)容概要

本書是作者所在的課題組近年來在漢英機(jī)器翻譯研究方面所取得進(jìn)展的一個(gè)階段性總結(jié)。內(nèi)容涉及漢英機(jī)器翻譯的各個(gè)主要方面及關(guān)鍵技術(shù),包括對目前國際上機(jī)器翻譯研究進(jìn)展的綜述,漢語詞法分析技術(shù)、漢語句法分析技術(shù)、漢語詞匯語義相似度計(jì)算、漢英雙語語料庫的詞語對齊、語料庫的結(jié)構(gòu)對齊、基于結(jié)構(gòu)對齊語料庫的翻譯模板抽取、多引擎機(jī)器翻譯方法等多方面的研究成果。    本書可供從事計(jì)算語言學(xué)、自然語言處理、中文信息處理、機(jī)器翻譯等領(lǐng)域研究工作的人士參考,也可以作為大學(xué)相關(guān)專業(yè)高年級本科生和研究生課程的參考書。

作者簡介

  劉群,研究員,教授,博士生導(dǎo)師.  職務(wù):自然語言處理研究組組長  研究方向:自然語言處理,機(jī)器翻譯,信息提取  學(xué)術(shù)兼職:  中國計(jì)算機(jī)學(xué)會理事  中國計(jì)算機(jī)學(xué)會術(shù)語審定工作委員會主任  《中國計(jì)算機(jī)學(xué)會通訊》編委  中國中文信息學(xué)會機(jī)器翻譯專委會副主任  中國中文信息學(xué)會語言資源建設(shè)和管理工作委員會(ChineseLDC)委員  《中文信息學(xué)報(bào)》編委  全國術(shù)語標(biāo)準(zhǔn)化技術(shù)委員會(SAC/TC62)委員  全國語言文字標(biāo)準(zhǔn)化技術(shù)委員會語法語篇分技術(shù)委員會副主任  中國科學(xué)院研究生院教授  SIGHAN2008程序委員會委員  ACL2008、ACL2009程序委員會委員  工作經(jīng)歷:  2003~現(xiàn)在中國科學(xué)院研究生院教授(兼職)  2006~現(xiàn)在中國科學(xué)院計(jì)算技術(shù)研究所,現(xiàn)任研究員、博士生導(dǎo)師  學(xué)歷  1999.9~2004.5北京大學(xué)計(jì)算語言學(xué)研究所(在職學(xué)習(xí))獲理學(xué)博士學(xué)位  1989.9~1992.7中國科學(xué)院計(jì)算技術(shù)研究所獲工學(xué)碩士學(xué)位  1984.9~1989.7中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)系獲工學(xué)學(xué)士學(xué)位  主持的科研項(xiàng)目:  融合語言知識與統(tǒng)計(jì)模型的機(jī)器翻譯方法研究(國家自然科學(xué)基金重點(diǎn)項(xiàng)目,2008-2011)  面向跨語言搜索的機(jī)器翻譯關(guān)鍵技術(shù)研究(863重點(diǎn)項(xiàng)目課題,2007-2010)  基于短語結(jié)構(gòu)轉(zhuǎn)換模板的統(tǒng)計(jì)機(jī)器翻譯方法研究(國家自然科學(xué)基金,2006-2008)  面向領(lǐng)域可定制的漢英機(jī)器翻譯系統(tǒng)(863重點(diǎn)項(xiàng)目,1998-2000)  機(jī)器翻譯新方法的研究(863項(xiàng)目,2005-2006)  通用機(jī)器翻譯開發(fā)平臺及漢英機(jī)器翻譯系統(tǒng)(863項(xiàng)目,1996-1998)

書籍目錄

第1章  機(jī)器翻譯方法綜述  1.1  機(jī)器翻譯的范式  1.2  基于平行語法的機(jī)器翻譯方法    1.2.1  Alshawi的基于加權(quán)中心詞轉(zhuǎn)錄機(jī)的統(tǒng)計(jì)機(jī)器翻譯方法    1.2.2  吳德凱的反向轉(zhuǎn)錄語法    1.2.3  Takeda的基于模式的機(jī)器翻譯上下文無關(guān)語法  1.3  基于實(shí)例的機(jī)器翻譯方法    1.3.1  起源與發(fā)展    1.3.2  Sato和Nagao的方法    1.3.3  Kaii的方法    1.3.4  CMU的泛化的基于實(shí)例的機(jī)器翻譯方法    1.3.5  基于實(shí)例的機(jī)器翻譯方法的優(yōu)缺點(diǎn)  1.4  基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯方法    1.4.1  IBM的統(tǒng)計(jì)機(jī)器翻譯方法    1.4.2  王野翊在卡內(nèi)基·梅隆大學(xué)(CMU)的工作    1.4.3  約翰·霍普金斯大學(xué)(JHU)的統(tǒng)計(jì)機(jī)器翻譯夏季研討班    1.4.4  Yamada和Knight的工作——基于句法的統(tǒng)計(jì)翻譯模型    1.4.5  Och等的工作  1.5  基于對數(shù)線性模型的統(tǒng)計(jì)機(jī)器翻譯方法    1.5.1  對數(shù)線性模型    1.5.2  基于短語的統(tǒng)計(jì)翻譯模型    1.5.3  基于句法的統(tǒng)計(jì)翻譯模型  1.6  多引擎機(jī)器翻譯方法    1.6.1  Pangloss系統(tǒng)    1.6.2  Verbmobil系統(tǒng)  1.7  機(jī)器翻譯方法的分類    1.7.1  按翻譯轉(zhuǎn)換的層面進(jìn)行分類    1.7.2  按語言知識的表示形式進(jìn)行分類  1.8  小結(jié)第2章  基于層疊隱馬爾可夫模型的漢語詞法分析  2.1  漢語分析技術(shù)概述    2.1.1  漢語詞法分析的難點(diǎn)    2.1.2  漢語詞法分析的任務(wù)和前人的工作  2.2  漢語詞法分析的層疊隱馬爾可夫模型    2.2.1  隱馬爾可夫模型簡介    2.2.2  層疊隱馬爾可夫模型的結(jié)構(gòu)    2.2.3  層疊隱馬爾可夫模型的核心數(shù)據(jù)結(jié)構(gòu)——詞圖    2.2.4  層疊隱馬爾可夫模型的參數(shù)訓(xùn)練  2.3  粗切分:基于一元語法的N最短路徑方法  2.4  未定義詞識別:基于角色的隱馬爾可夫模型    2.4.1  模型的定義    2.4.2  角色的選取    2.4.3  角色的標(biāo)注    2.4.4  未定義詞的提取    2.4.5  參數(shù)訓(xùn)練  2.5  未定義詞的概率估計(jì):基于角色的詞語生成模型    2.5.1  問題的由來    2.5.2  模型的定義  2.6  細(xì)切分:詞匯化的隱馬爾可夫模型    2.6.1  模型的定義    2.6.2  最短路徑的求解    2.6.3  參數(shù)估計(jì)  2.7  詞性標(biāo)注:基于詞性的隱馬爾可夫模型    2.7.1  基于隱馬爾可夫模型的詞性標(biāo)注    2.7.2  詞性標(biāo)記集的選擇與轉(zhuǎn)換  2.8  實(shí)驗(yàn)結(jié)果    2.8.1  各層隱馬爾可夫模型的對比實(shí)驗(yàn)    2.8.2  在國家“973”計(jì)劃評測中的測試結(jié)果    2.8.3  第一屆國際分詞大賽的評測結(jié)果  2.9  小結(jié)第3章  融合語義知識和詞匯化上下文概率語法的漢語句法分析  3.1  前言  3.2  Baseline句法分析器  3.3  語義知識集成    3.3.1  語義類抽取    3.3.2  構(gòu)建基于類的選擇偏向模型    3.3.3  實(shí)驗(yàn)結(jié)果    3.3.4  性能改進(jìn)分析  3.4  基于漢語賓州樹庫的句法分析相關(guān)工作  3.5  小結(jié)第4章  漢語詞法分析與句法分析融合策略研究  4.1  引言  4.2  句法分析系統(tǒng)    4.2.1  融合語義知識的詞匯化概率上下文無關(guān)語法模型    4.2.2  結(jié)構(gòu)上下文模型    4.2.3  多子模型句法分析器  4.3  詞法分析系統(tǒng)(ICTCLAS)  4.4  融合策略    4.4.1  切分轉(zhuǎn)換:基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動學(xué)習(xí)    4.4.2  標(biāo)記轉(zhuǎn)換:條件隨機(jī)場    4.4.3  轉(zhuǎn)換實(shí)驗(yàn)  4.5  實(shí)驗(yàn)與分析  4.6  比較  4.7  小結(jié)第5章  基于“知網(wǎng)”的詞匯語義相似度計(jì)算  5.1  引言  5.2  詞語相似度及其計(jì)算的方法    5.2.1  什么是詞語相似度    5.2.2  詞語相似度與詞語距離    5.2.3  詞語相似度與詞語相關(guān)性    5.2.4  詞語相似度的計(jì)算方法  5.3  “知網(wǎng)”簡介    5.3.1  “知網(wǎng)”的結(jié)構(gòu)    5.3.2  “知網(wǎng)”的知識描述語言  5.4  基于“知網(wǎng)”的語義相似度計(jì)算方法    5.4.1  詞語相似度計(jì)算    5.4.2  義原相似度計(jì)算    5.4.3  虛詞概念的相似度的計(jì)算    5.4.4  實(shí)詞概念的相似度的計(jì)算  5.5  實(shí)驗(yàn)及結(jié)果  5.6  小結(jié)第6章  詞語對齊的對數(shù)線性模型  6.1  引言  6.2  對數(shù)線性模型  6.3  特征函數(shù)    6.3.1  IBM翻譯模型    6.3.2  詞性標(biāo)記轉(zhuǎn)換模型    6.3.3  雙語詞典  6.4  訓(xùn)練  6.5  搜索  6.6  實(shí)驗(yàn)結(jié)果  6.7  小結(jié)第7章  一種雙語短語結(jié)構(gòu)對齊搜索算法  7.1  雙語對齊技術(shù)概述    7.1.1  各種層次的語言單位上的對齊技術(shù)    7.1.2  短語結(jié)構(gòu)對齊的定義    7.1.3  短語結(jié)構(gòu)對齊的過程    7.1.4  短語結(jié)構(gòu)對齊的問題和難點(diǎn)    7.1.5  現(xiàn)有的短語結(jié)構(gòu)對齊技術(shù)  7.2  一種雙語短語結(jié)構(gòu)對齊的搜索算法    7.2.1  算法簡介    7.2.2  局部對齊    7.2.3  短語結(jié)構(gòu)對齊的柱形搜索(beam search)算法    7.2.4  局部對齊的歸并    7.2.5  局部對齊的評分    7.2.6  搜索算法的時(shí)間復(fù)雜度分析  7.3  實(shí)驗(yàn)及結(jié)果分析    7.3.1  實(shí)驗(yàn)方案    7.3.2  實(shí)驗(yàn)語料來源及規(guī)模    7.3.3  短語結(jié)構(gòu)對齊的實(shí)例分析    7.3.4  實(shí)驗(yàn)結(jié)果及分析    7.3.5  實(shí)驗(yàn)結(jié)果的進(jìn)一步分析  7.4  小結(jié)第8章  短語結(jié)構(gòu)轉(zhuǎn)換模板的提取與應(yīng)用  8.1  基于模板的機(jī)器翻譯概述  8.2  短語結(jié)構(gòu)轉(zhuǎn)換模板定義  8.3  短語結(jié)構(gòu)轉(zhuǎn)換模板舉例  8.4  短語結(jié)構(gòu)轉(zhuǎn)換模板的提取  8.5  短語結(jié)構(gòu)轉(zhuǎn)換模板的應(yīng)用——基于模板的轉(zhuǎn)換  8.6  實(shí)驗(yàn)結(jié)果    8.6.1  實(shí)驗(yàn)語料的來源及規(guī)模    8.6.2  實(shí)驗(yàn)結(jié)果分析  8.7  小結(jié)第9章  微引擎流水線機(jī)器翻譯系統(tǒng)結(jié)構(gòu)  9.1  微引擎流水線的基本思想  9.2  微引擎流水線的系統(tǒng)結(jié)構(gòu)  9.3  微引擎流水線的公共數(shù)據(jù)結(jié)構(gòu)  9.4  各種微引擎的程序接口和功能說明  9.5  微引擎調(diào)度算法  9.6  面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)    9.6.1  研究背景    9.6.2  系統(tǒng)實(shí)現(xiàn)方案  9.7  實(shí)驗(yàn)結(jié)果及分析  9.8  小結(jié)第10章  總結(jié)及今后的工作附錄  漢語詞性標(biāo)記集ICTPOS參考文獻(xiàn)后

圖書封面

圖書標(biāo)簽Tags

評論、評分、閱讀與下載


    漢英機(jī)器翻譯若干關(guān)鍵技術(shù)研究 PDF格式下載


用戶評論 (總計(jì)7條)

 
 

  •   還是不錯(cuò)的。對機(jī)器翻譯有了大概的了解。但書出的比較早。如果要了解最近的知識,還是去下幾篇?jiǎng)⒗蠋煹奈恼驴纯础C(jī)器翻譯還是很難解決的問題。
  •   涉及到MT幾項(xiàng)關(guān)鍵技術(shù),流程圖簡明扼要但切中要害。當(dāng)然,要完全能看懂,必須有基礎(chǔ)和鋪墊。
  •   不錯(cuò)的一本書哦,推薦
  •   真的很不錯(cuò)。。。真的很不錯(cuò)。。。真的很不錯(cuò)。。。
  •   本書對于統(tǒng)計(jì)機(jī)器翻譯的介紹很全面,主要的成果幾乎都涉及到了。
  •   內(nèi)容不全面,只能假設(shè)讀者做過類似的工作,否則用處有限,可以和其它書籍配合閱讀。
  •   沒仔細(xì)看,有難度,算法都是
 

250萬本中文圖書簡介、評論、評分,PDF格式免費(fèi)下載。 第一圖書網(wǎng) 手機(jī)版

京ICP備13047387號-7