詞語計算與應用

出版時間:2010-5  出版社:暨南大學出版社  作者:劉華  頁數:268  
Tag標簽:無  

前言

  劉華博士的專著《詞語計算與應用》(他謙稱為一本“學術上摸索的小書”)就要出版了,希望我為他寫一篇序,我答應了。臨近截稿日期了,我還沒有開筆。因為有一些急于處理的事情,而且又臨近我住院的日子,所以我向劉華提出,要不那篇序就算了,有沒有關系不大,不要耽誤了書的出版。劉華回復堅請,說還來得及,就是推遲幾天出版,也要等老師的序來添色?! ∈虑榫涂梢詮摹疤砩闭f起了?! ⌒率兰o的讀者如果覺得劉華的“小書”《詞語計算與應用》讀起來有味道、實用,特別是文科的大學生、研究生,認為有新信息、新內容,那是此書本身所存在的“特色”,不是我所能“添”上去的。正如劉華自己所說,他作為一個“計算語言學的門外漢”,經過幾年在1和0的世界里糾結、掙扎,才獲得了這些心得和成果。不“糾結、掙扎”,一個“門外漢”怎么可能不僅進到門里,還登堂人室,拿到博士學位呢?正所謂天道酬勤,一分耕耘,一分收獲。舒舒服服、投機取巧混文憑的人是有的,但這終究是自欺欺人,遲早會暴露。劉華博士的努力是實在的、痛苦的、反復的,也是曲折向上的。劉華自2002年起,在北京語言大學語言學及應用語言學博士點下攻讀“語言信息處理”方向的博士學位。作為一個文科出身的應用語言學的碩士,要以計算機為主要工具,以建設動態(tài)流通語料庫為主要目標和研究手段,以語言信息處理為主要研究內容,對劉華來說,確實困難重重。

內容概要

《詞語計算與應用》共有四章,除了附錄、后記外,核心內容詞語的計算與應用,主要包括“領域新詞語快速獲取”、“詞語分類和詞語聚類”、“詞語計算與輔助漢語教學”、“詞語主題度計算與自動標引”幾個方面,這些也都是目前理工科(包括圖書館的情報檢索)關注的熱門課題,屬于人文學科與理工學科交叉的邊緣領域。語言信息處理、自然語言理解、人工智能、機器翻譯等都是這一邊緣領域的學科或課題。理工專業(yè)人士研究此類項目時,要補充人文專業(yè)知識(如語言學);人文專業(yè)人士研究此類項目,要補充理工專業(yè)知識(如計算機科學、數理科學)。相對而言,補充人文專業(yè)知識較容易,補充理工專業(yè)知識則較困難。也就是說,搞計算語言學,文科出身者比理工科出身者面臨的壓力大。通常,理工科的人寫的計算語言學的論著,滿篇術語公式,文科讀者覺得猶如讀“天書”,但是劉華博士的《詞語計算與應用》并非如此。因為是文科出身的人寫給文科出身的人讀的書,作為一個“過來人”,他能設身處地為讀者著想,每個術語都有詮釋,甚至每個公式都有解讀,文科的人讀來并不覺得過于深奧晦澀。

作者簡介

  劉華,男,1975年生,暨南大學副教授。2005年畢業(yè)于北京語言大學中文信息處理專業(yè),師從張普教授,獲博士學位,主攻自動標引、計算語言學和計算語言學輔助漢語教學。近五年來,在核心期刊發(fā)表論文二十余篇,多篇被EI索引;目前,主持國家級課題一項,省部級課題多項。

書籍目錄

序1 領域新詞語快速獲取 1.1 新詞語識別和聚類綜述 1.2 基于分類網頁鏈接分析的領域新詞語發(fā)現 1.3 分類新詞語分析  1.3.1 詞語抽取的準確率與排錯處理  1.3.2 抽取詞語的新詞率  1.3.3 新詞語在切分中的作用  1.3.4 新詞語的強文本表示功能 小結 參考文獻2 詞語分類和詞語聚類 2.1 詞語分類和詞語聚類綜述 2.2 基于分類特征提取的詞語分類  2.2.1 定義說明  2.2.2 特征提取方法分析  2.2.3 詞語表與訓練語料介紹  2.2.4 算法實現 ……3 詞語計算與輔助漢語教學4 詞語主題度計算與自動標引附錄1  網絡新聞用層級分類體系附錄2 15大類分類詞語表附錄3 244個層級小類分類詞語附錄4 聚類種子詞語附錄5 聚類詞語附錄6 HSK(商務)詞語表后記

章節(jié)摘錄

  推而廣之,我們還可以用此方法來自動發(fā)現詞語的多個義項,并進行多義項的消歧。  2.3.4聚類詞語集成  2.3.4.1多類別映射  我們最終完成了5萬個種子詞的詞語聚類詞表的自動構建。由于聚類是在15大類中各自進行的,因此,有些種子詞可能出現于多個大類中,并最終映射到具體的層級小類中。例如,“交通”種子詞,就屬于“房產城市建設交通、汽車 汽車新聞、旅游黃金周、時政新聞 國內、時政新聞社會、經濟消費理財消費生活、教育考試培訓 職業(yè)技能 國家公務員考試、時政新聞 國際、科技 科普生活”等9個層級小類?! ∥覀冞@一步的工作就是將種子詞在多個類中的聚類詞表中進行合成,當用戶檢索某種子詞時,系統(tǒng)自動返回該種子詞在不同類中的聚類詞語表,而且根據種子詞歸屬于各類的歸屬度將類由高到低排列。例如,“接吻”種子詞,按照其歸屬于各類的歸屬度,從高到低依次屬于“生活男女兩性迷情、時政新聞社會、教育性及教育、文藝藝術、時政新聞 國際、科技科普生活艾滋、旅游主題旅游蜜月旅游”,這一結果也和我們的語感基本一致?! 》N子詞歸屬于各類的歸屬度是自動進行的,方法如下:  如果種子詞在幾個類中都有,利用文本分類的向量空間模型算法計算種子詞的特征向量和這幾個類的特征向量之間的相似度,按照相似度從高到低排列即可。文本分類的向量空間模型算法參見后文的介紹。

圖書封面

圖書標簽Tags

評論、評分、閱讀與下載


    詞語計算與應用 PDF格式下載


用戶評論 (總計1條)

 
 

  •   詞語計算的專業(yè)書籍,搜索或語義分析者的幫助。
 

250萬本中文圖書簡介、評論、評分,PDF格式免費下載。 第一圖書網 手機版

京ICP備13047387號-7