出版時間:2012-7 出版社:高等教育出版社 作者:秦穎,文秋芳 著 頁數(shù):121 字?jǐn)?shù):150000
內(nèi)容概要
秦穎、文秋芳編著的《大規(guī)模考試英漢互譯自動評分系統(tǒng)的研發(fā)與應(yīng)用》分為理論研究篇和技術(shù)實現(xiàn)篇兩部分。理論研究篇側(cè)重語言學(xué)分析、語言測試的有關(guān)理論,從翻譯質(zhì)量的人工評價方法和已有的機(jī)器譯文自動評測有關(guān)算法出發(fā),探索適合評價學(xué)習(xí)者譯文質(zhì)量的理論模型。技術(shù)實現(xiàn)篇側(cè)重運用自然語言處理技術(shù)構(gòu)建評分系統(tǒng),介紹系統(tǒng)實現(xiàn)所涉及的具體技術(shù)問題,系統(tǒng)的構(gòu)建原則和方法,并給出部分調(diào)試過的源代碼程序供讀者參考。
書籍目錄
第一部分 理論研究篇
第一章 緒論
1.1語言質(zhì)量自動評價及研究的意義
1.2相關(guān)研究回顧
1.3本書的內(nèi)容及安排
第二章 翻譯質(zhì)量評價
2.1翻譯質(zhì)量的人工評價標(biāo)準(zhǔn)
2.2翻譯質(zhì)量的自動評價方法
2.2.1 BLEU算法
2.2.2 NIST算法
2.2.3 GTM算法
2.3小結(jié)
第三章 學(xué)習(xí)者譯文質(zhì)量自動評價理論模型構(gòu)建
3.1用基于n—gram算法評價學(xué)生譯文
3.1.1語料說明
3.1.2自動評測及結(jié)果
3.1.3算法評測的影響因素
3.2用改進(jìn)的n—gram算法評價學(xué)生譯文
3.2.1基于偽測試句的自動評測算法
3.2.2擴(kuò)展n—gram評測實驗結(jié)果
3.2. 3參考譯文數(shù)目對評測性能的影響
3.2. 4對機(jī)器翻譯評測與學(xué)生譯文評測的討論
3.3基于線性回歸模型的學(xué)生譯文評價
3.3.1線性回歸的數(shù)學(xué)描述
3.3.2選拔性評分和診斷1}生評分
3. 3. 3漢譯英評分理論模型
3. 3.4英譯漢評分理論模型
3.4小結(jié)
第二部分技術(shù)實現(xiàn)篇
第四章 相關(guān)語言處理技術(shù)
4.1文本特征及提取方法
4.1.1形式特征的提取
4.1.2 n-gram共現(xiàn)參數(shù)的提取
4. 1. 3語義點參數(shù)提取
4.1.4雙語對齊參數(shù)的提取
4.1.5潛在語義分析LSA
4.2逐步線性回歸模型的實現(xiàn)和參數(shù)優(yōu)化
4.3線性相關(guān)度的計算
4.4字符編碼和漢語語言信息處理
第五章 面向大規(guī)??荚嚨挠h翻譯自動評分系統(tǒng)
5.1系統(tǒng)實現(xiàn)的原則和結(jié)構(gòu)
5.2系統(tǒng)實現(xiàn)框架
5. 3雷同譯文檢測
第六章 翻譯自動評分系統(tǒng)的應(yīng)用
6.1翻譯自動評分?jǐn)?shù)據(jù)來源
6.1. 1語料收集
6.1.2人工評分的實施和評分信度
6.1.3參考譯文集的形成
6.2自動評分系統(tǒng)性能
6.2.1系統(tǒng)性能評估方法
6.2.2漢譯英自動評分性能
6.2. 3英譯漢自動評分性能
6.2.4雷同譯文檢查性能
第七章 翻譯自動評價的總結(jié)和展望
7.1研究結(jié)論總結(jié)
7.2翻譯自動評價應(yīng)用展望
參考文獻(xiàn)
英文參考文獻(xiàn)
中文參考文獻(xiàn)
附錄
附錄1機(jī)器翻譯自動評測程序的格式要求(XML)和轉(zhuǎn)換程序
附錄2英文停用詞表
附錄3漢語停用詞表
附錄4面向考試的自動評分系統(tǒng)的用戶文檔
附錄5診斷性翻譯評分系統(tǒng)的界面
章節(jié)摘錄
版權(quán)頁: 插圖: 第四章 相關(guān)語言處理技術(shù) 從語言學(xué)、翻譯學(xué)和測試的角度構(gòu)建翻譯自動評分模型是理論研究的內(nèi)容,最終如何在計算機(jī)上實現(xiàn)自動評分系統(tǒng)則是技術(shù)實現(xiàn)要探討的核心:主要涉及語言信息的自動處理,包括文本特征的自動提取、語義分析方法、字符編碼以及數(shù)學(xué)模型的實現(xiàn)、系統(tǒng)用戶界面和操作響應(yīng)等的代碼編寫問題。相比理論研究,技術(shù)實現(xiàn)篇需要自然語言處理相關(guān)技術(shù)的支持,更關(guān)注算法實現(xiàn)及效率等計算機(jī)技術(shù)。本章將對自動評分模型涉及到的有關(guān)自然語言處理相關(guān)技術(shù)予以介紹,并給出部分實現(xiàn)內(nèi)容的程序代碼。本章編程所用的語言為Perl。Perl為“實用報表提取語言” ( Practical Extraction and Report Language)的縮寫。Perl中有強大的正則表達(dá)式,非常適合于語言信息處理。Perl為開放源代碼的免費軟件,在Unix和Windows環(huán)境下均可運行。本章所有的程序代碼均在Perl v5.8.7版下通過調(diào)試。 4.1 文本特征及提取方法 英漢互譯評分理論研究中從形式和語義角度分析了與譯文質(zhì)量相關(guān)的文本特征,表3-9和3-17分別為漢譯英和英譯漢模型中嘗試運用的文本特征。形式特征分為字詞層面、句子層面和篇章層面三大類,又各自包含若干小類;語義特征包括n-gram,語義點、基于潛在語義分析的相似度、詞或多詞單位對齊等特征。選拔性評分模型用于大規(guī)模翻譯考試譯文的自動評分,要求對于不同質(zhì)量的譯文能夠較好地區(qū)分。為提高評分速度,選拔性評分模型主要包含語義參數(shù)。研究表明該簡化模型仍然和人工評分有較高的相關(guān)性。 下面分別闡述這些特征的自動提取方法。 4.1.1 形式特征的提取 1形式參數(shù)提取前的文本預(yù)處理 預(yù)處理工作主要包括整理收集的實際語料中不規(guī)范的文本撰寫內(nèi)容和格式,為信息提取做必須的標(biāo)注和加工等。 對于英文譯文,首先去除非英文字符,如漢語標(biāo)點符號;將全角的字符轉(zhuǎn)換為半角;將詞之間的多個空格替換為一個空格;字母全部統(tǒng)一為小寫或大寫形式等。另外,原始的文本中沒有詞性信息,為獲得詞性分布的文本特征,就需要對所有譯文(參考譯文、訓(xùn)練譯文和測試譯文)做詞性標(biāo)注處理。由于時間有限,我們使用了英文詞性自動標(biāo)注工具Gotagger進(jìn)行詞性標(biāo)注。英文詞性標(biāo)注軟件較多,常用的還有tagtree、standford parser等。但不同的軟件詞性標(biāo)注集有差異,詞性劃分方法不同。 漢語譯文的預(yù)處理工作更多一些。漢語文本沒有明顯的詞的界限,對于漢語的信息處理可基于兩種語言單位——字或詞進(jìn)行。很多研究表明,基于詞的漢語信息提取性能優(yōu)于基于字的信息提取。因此,我們對漢語譯文的處理大多以詞為單位。預(yù)處理時將所有漢語譯文都預(yù)先進(jìn)行了切詞,并進(jìn)行了詞性標(biāo)注。標(biāo)注的詞性為北大計算語言所1997年版《現(xiàn)代漢語語法信息詞典》中詞性集。 2詞匯級形式參數(shù)的提取 詞匯級和譯文質(zhì)量相關(guān)的特征十分豐富,包括詞匯多樣性特征、詞頻廣度、詞匯難度、詞性分布等。 詞匯多樣陛從類符數(shù)和類符形符比兩個角度考察。類符數(shù)指譯文中不同詞的數(shù)目,形符數(shù)即單詞數(shù)(不包括標(biāo)點符號)。模型實際使用的參數(shù)是測試譯文和參考譯文的平均類符數(shù)之差和類符形符比之差,以便更合理地判斷譯文的詞匯多樣性特征。 形符類符的提取方法:預(yù)處理后的英文和漢語,詞與詞之間(標(biāo)點與詞之間)均為空格隔開,所以根據(jù)空格區(qū)分各個詞。再根據(jù)詞性分隔符得到詞和詞性兩部分,前一部分為形符或者標(biāo)點符號。對于英文形符提取可用正則表達(dá)式為/\w(\w-\')*/實現(xiàn),意義表示:由字母開頭,后面接一個或多個字母數(shù)字及下劃線和’組成的。漢語由于所有標(biāo)點的詞性標(biāo)記為/w,因此凡是詞性為/w的均不視為形符。類符數(shù)就是將形符中相同的詞合并后的數(shù)目。類符形符比=類符數(shù)的平方/形符數(shù)。
編輯推薦
《外語考試自動評分研究系列叢書:大規(guī)??荚囉h互譯自動評分系統(tǒng)的研發(fā)與應(yīng)用》在內(nèi)容介紹上同時考慮了跨學(xué)科研究的因素,力求明確介紹相關(guān)概念,條理清楚地介紹實現(xiàn)步驟,程序代碼添加必要的注釋等等,讓讀者根據(jù)內(nèi)容介紹就能夠逐步學(xué)習(xí)建立一個翻譯自動評分系統(tǒng)的框架,實用性強。
圖書封面
評論、評分、閱讀與下載
大規(guī)??荚囉h互譯自動評分系統(tǒng)的研發(fā)與應(yīng)用 PDF格式下載