出版時間:2010-1 出版社:清華大學(xué)出版社 作者:Unicode協(xié)會 頁數(shù):1358 字數(shù):2057000
Tag標簽:無
前言
本書和Unicode字符數(shù)據(jù)庫是Unicode字符編碼標準5.0版本的權(quán)威來源?! ?.0版本和以前的版本有很大不同。它對支持Unicode的需求表述得更清楚,并且它提供了更清晰的編程指導(dǎo)以滿足新技術(shù)和新興市場快速增長的需要,同時滿足用戶對安全、健壯軟件的需求。 購買本書的意義 Unicode標準5.0版本更小更方便,并且包含更多的文本內(nèi)容。最重要的是,該書包括所有的Unicode標準附件(Unicode Standard Annexes),提供了像文本標準化、雙向算法和標識符分解等重要進程的說明?! ?.0版本包含世界范圍內(nèi)多年來積累的經(jīng)驗知識并且對此進行了加強:本書吸納了15年來用戶的反饋,向用戶提供了關(guān)于Unicode問題的詳細解釋,并且更容易入門——因為本書改進了許多圖表,并對內(nèi)容進行了修訂?! ∥宸种牡膱D是新的。 三分之二的定義是新的。 二分之一的Unicode標準附件是新的。 三分之一的一致性子句是新的。 四分之一的表格是新的?! ×硗?,本書反映了計算機書寫系統(tǒng)的新發(fā)展。它極大地改進了對印度文翻譯的描述,以滿足市場的需求——印度政府支持基于Unicode的編程,本書解釋了如何構(gòu)建它們。5.0版本還支持最近發(fā)布的字符核心CJK子集,IICore,在東亞市場上它對于翻譯和互操作是非常重要的?! 『喲灾?,本書能夠使開發(fā)者為世界范圍內(nèi)的軟件用戶快速實現(xiàn)最新的先進技術(shù),同時把握高速增長的市場需求。從版本3.0,4.0到5.0的改變是非常重要的——這是一本所有的Unicode開發(fā)者都需要擁有的書?! ∩壍?.0版本的必要性 Unicode標準5.0版本對3.0,4.0版本作了很大改變。業(yè)界已經(jīng)注意到并且很快遷移到5.0版本——Windows Vista 就是在5.0版本下運行的;ICU,Google 和Yahoo也已經(jīng)計劃升級到5.0版本。Internet和W3C協(xié)議都建立在Unicode之上,并且繼續(xù)保持適應(yīng)最新的版本。國際標準ISO/IEC10646也是和5.0版本同步的。 最新版本的Unicode標準是Unicode安全機制、Unicode??彼惴?、通用區(qū)域數(shù)據(jù)倉庫(Common Locale Data Repository)提供的區(qū)域數(shù)據(jù)的基礎(chǔ),并支持正則表達式中的Unicode。改進的Unicode編碼模型使得程序員能夠更清楚地知道如何在UTF-8中支持Unicode文本的表示和其他編碼方式。字符屬性已經(jīng)被系統(tǒng)化并更好地幫助開發(fā)者進行文本處理。標準還為Casefolding和標識符的穩(wěn)定性制定了規(guī)則,對于互操作性和形式語言使用的后向兼容,以及在其他上下文環(huán)境中標識符精確使用和匹配都是非常重要的?! 榱藵M足現(xiàn)代信息技術(shù)的需求,5.0版本提供了穩(wěn)定、實用的字符處理模型。Unicode提供了如下功能: 與中國GB18030和HKSCS標準的前后兼容性。 對最新建立的核心CJK字符子集、IICore的說明?! 「倪M了大小寫轉(zhuǎn)換(casing)和雙向行為以滿足業(yè)界的需求。 改進了印度文的翻譯指導(dǎo)?! 「玫靥幚砗铣勺址?、Unicode字符串、變量選擇、斷行和分段。 如果程序員想要和業(yè)界發(fā)展同步,利用穩(wěn)定的安全性,和最新??奔皡^(qū)域數(shù)據(jù)定義一致,最重要的是拓展市場,那么要盡快將標準升級到5.0版本。
內(nèi)容概要
在計算機發(fā)展的初期,由于各個計算機系統(tǒng)都是相對獨立誕生的,因此曾出現(xiàn)過多達數(shù)百種編碼系統(tǒng),但每種編碼系統(tǒng)都不能包含全部的字符,并且系統(tǒng)相互之間并不兼容,給信息交換帶來了麻煩和安全隱患。于是,很多國家都制定了計算機信息交換用的字符編碼集,如美國的擴展ASCII碼、中國的GB2312-80、日本的JIS等,作為相應(yīng)國家信息處理的基礎(chǔ),起著統(tǒng)一編碼的重要作用。 但隨著Web的廣泛應(yīng)用,尤其是近年來支持多語言(如中、英、日)的應(yīng)用已成為大勢所趨。這些國家標準字符集編碼也出現(xiàn)了范圍重疊、相互間的信息交換比較困難的情況,造成軟件各個本地化版本的維護成本較高,基于不同環(huán)境的程序編寫越來越復(fù)雜?! nicode有效解決了這些問題,它幾乎包括所有的(超過十萬個)語言字符?;赨nicode編碼標準的信息和程序能夠在不同平臺和環(huán)境下高效地進行交換和運行,極大簡化了應(yīng)用的開發(fā)過程。為此,Windows早在90年代就已經(jīng)將Unicode作為自身的編碼標準,XML和Python、PERL、Mac OS和Linux等編程語言也都提供了對Unicode編碼的支持?! ∧壳?,國內(nèi)關(guān)于Unicode的書籍非常少,為了滿足讀者的迫切需求,清華大學(xué)出版社引進了這本由致力于Unicode編碼系統(tǒng)研究、推廣和應(yīng)用的國際權(quán)威組織——The Unicode Consortium(Unicode協(xié)會)組織編寫的經(jīng)典圖書。為了保持原書的系統(tǒng)性和規(guī)范性,盡可能為讀者提供標準的第一手資料,我們對該書的中文版譯本做了一些調(diào)整,主要體現(xiàn)在以下幾個方面: ● 第1~6章是完整的中文譯本。前5章主要是關(guān)于Unicode標準的基本概念、原理、一致性、字符屬性和實現(xiàn)方法等內(nèi)容,第6章主要是世界范圍內(nèi)使用的書寫系統(tǒng)和標點的相關(guān)介紹?! ?第7~16章采用英文影印的方式,最大化地保留了原書的內(nèi)容,但為了方便讀者查找相關(guān)內(nèi)容,我們加了中文導(dǎo)讀信息。這部分主要是關(guān)于各種語言文字及符號的基本介紹,如拉丁字符、中東字符、南亞字符、東亞字符、新增的現(xiàn)代字符、各種符號、特殊區(qū)域和格式字符等基本信息?! ?第17章是完整的Unicode編碼表,這部分內(nèi)容按照不同字符塊的分區(qū),以表格的形式體現(xiàn)出來,以便于讀者查閱?! ?第18章是漢字偏旁-筆畫索引,因這部分內(nèi)容是我們?nèi)粘J褂米顝V泛的信息,故完全采用中文譯本?! ?附錄A~F、術(shù)語表、參考文獻、Unicode名稱索引以及Unicode標準附件全部采用英文影印方式,以便于讀者查閱最原始的資料、文獻和技術(shù)標準。
書籍目錄
第1章 緒論 1.1 覆蓋范圍 1.1.1 Unicode標準覆蓋面 1.1.2 新字符 1.2 設(shè)計目標 1.3 文本處理 第2章 總結(jié)構(gòu) 2.1 前后結(jié)構(gòu)關(guān)系 2.1.1 基本文本處理過程 2.1.2 文本要素、字符和文本處理過程 2.1.3 文本處理和編碼 2.2 Unicode 設(shè)計原則 2.2.1 通用性 2.2.2 有效性 2.2.3 字符,而非字形 2.2.4 語義 2.2.5 純文本 2.2.6 邏輯順序 2.2.7 一致性 2.2.8 動態(tài)合成 2.2.9 穩(wěn)定性 2.2.10 可轉(zhuǎn)換性 2.3 兼容性字符 2.3.1 兼容性變量 2.3.2 兼容性可分解字符 2.3.3 映射兼容性字符 2.4 代碼點和字符 2.5 編碼格式 2.5.1 UTF-32 2.5.2 UTF-16 2.5.3 UTF-8 2.5.4 UTF-32、UTF-16和UTF-8優(yōu)點的比較 2.6 編碼方案 2.7 Unicode 字符串 2.8 Unicode分配 2.8.1 平面 2.8.2 分配區(qū)域和字符代碼塊 2.8.3 代碼點的分配 2.9 字符分配 2.9.1 Plane 0(BMP) 2.9.2 Plane 1 2.9.3 Plane 2 2.9.4 其他平面 2.10 書寫方向 2.11 合成字符 2.11.1 基本字符序列和讀音符號 2.11.2 多重合成字符 2.11.3 連字式多重基本字符 2.11.4 隔離中的非間隔標記 2.11.5 “字符”和字形串 2.12 等價序列和規(guī)范化 2.13 特殊字符和非字符 2.13.1 特殊非字符代碼點 2.13.2 字節(jié)順序標記(BOM) 2.13.3 布局和格式控制字符 2.13.4 替換字符 2.13.5 控制碼 2.14 Unicode標準的一致性 2.14.1 一致性實現(xiàn)的特征 2.14.2 不可接受的行為 2.14.3 可接受的行為 2.14.4 支持的子集 第3章 一致性 第4章 字符屬性 第5章 實現(xiàn)原則 第6章 書寫系統(tǒng)與標點符號 第7章 歐洲字符 第8章 中東字符 第9章 南亞字符-I 第10章 南亞字符-Ⅱ 第11章 東南亞字符 第12章 東亞字符 第13章 附加的現(xiàn)代字符 第14章 古代字符 第15章 符號 第16章 特殊區(qū)域和格式字符 第17章 編碼表 第18章 漢字偏旁-筆畫索引 參考文獻 名家書評
章節(jié)摘錄
字母和音節(jié)。字母的概念多用于上下文中。計算機語言標準通常對標識符進行字符化表示,例如字母、音節(jié)、表意文字和數(shù)字,但并沒有精確指出什么字母、音節(jié)、表意文字或者數(shù)字,也沒有明確定義按照字符編碼標準,還是本地規(guī)范。Unicode標準意味著該標準包含了許多書寫系統(tǒng),每種書寫系統(tǒng)的區(qū)別并不是自身言明的,可能是由于以前設(shè)計這些書寫系統(tǒng)的主要目的是為西歐語言和日語服務(wù)的。特別是,盡管Unicode標準包含各種字母表和音節(jié)表,以及書寫系統(tǒng),這些書寫系統(tǒng)是基于前兩者產(chǎn)生的。因此,在字母和音節(jié)之間沒有明顯的屬性區(qū)別?! ∽帜肝淖帧W帜肝淖謱傩允亲帜副砗停蛞艄?jié)表的一種重要屬性,不論是合成字母還是非合成字母。這類字符都是復(fù)雜字符,它們是合成字符序列的規(guī)范等價字符。該合成字符序列包括:由字母表中的基本字符加上一個或者多個合成字符、雙字母組成的合成字符、與上下文相關(guān)的字母字符變異體、多字母構(gòu)成的合成字符、與上下文相關(guān)的合成字符變異體、修飾字母、與單個字母兼容等價的類似字母的字符和雜類字母元素組成。注意,U+00AAFEMININE ORDINAL INDICATOR和U+00BAMSSCULINE ORDINAL INDICATOR都是包括一個拉丁字母的縮寫形式,應(yīng)當認為是字母而不是非字母字符?! ”硪鈱傩?。表意屬性是Unicode字符數(shù)據(jù)庫中定義的信息性屬性。例如,表意屬性用于表示斷行操作。具有表意屬性的字符包括統(tǒng)一CJK表意字符,CJK兼容表意字符和其他部分的字符。例如,U+3007表意數(shù)字零和U+3006表意封閉符號。關(guān)于漢語表意字符的更多信息,參見12.1節(jié)。更多表意字符和意音文字(logosyllabary)的相關(guān)信息可參見6.1節(jié)。
媒體關(guān)注與評論
多年來,Unicode標準的復(fù)制版本已經(jīng)成為我的個人藏書中最重要和使用頻率最高的一本書。 ——高德納,美國著名計算機科學(xué)家,圖靈獎獲得者,被譽為現(xiàn)代計算機科學(xué)的鼻祖 十幾年來,Unicode已經(jīng)成為許多微軟產(chǎn)品和技術(shù)的基礎(chǔ)。Unicode標準5.0版本將給客戶提供更多新的功能?! 葼枴どw茨,微軟公司創(chuàng)始人,前任董事長兼首席執(zhí)行官 W3C使網(wǎng)絡(luò)上的文本真正全球化,而W3C遵從的正是Unicode標準。 ——蒂姆·伯納斯-李,Web發(fā)明者和萬維網(wǎng)聯(lián)盟(W3C)主席 沒有Unicode,Java就不能稱之為Java,互聯(lián)網(wǎng)也不能很好地連接全世界的人們?! 材匪埂じ晔苛郑琂ava之父,SUN公司全球副總裁
編輯推薦
以上權(quán)威人士和其他軟件領(lǐng)域的專家都意識到,Unicode已經(jīng)成為一個支撐與日俱增的全球化市場必不可少的工具。作為一個表示全世界所有字母的標準的綜合系統(tǒng),Unicode是現(xiàn)代編程技術(shù)(Windows、XML、Python、PERL、Mac OS和Linux)和當今操作中每種搜索引擎及瀏覽器的基礎(chǔ)?! nicode最新版的官方參考手冊已經(jīng)在最新的Unicode標準修訂版文檔中有了幾百頁的更新。其中包括對文本、圖表、定義和一致性語句的修訂,并為常見問題提供了清晰和正確的答案?!禪nicode 5.0標準》首次包含了Unicode標準附件,附件中說明了一些諸如文本標準化和標識符分解等重要的處理過程?! ∵@些改進非常重要,所以Unicode標準5.0版本是微軟公司最新的Windows 7操作系統(tǒng)的基礎(chǔ),同時該版本也是Google、Yahoo和ICU升級方案的一部分?! nicode標準5.0版本與以前版本的不同之處: Unicode安全機制的穩(wěn)固基礎(chǔ) Unicode校勘算法和通用區(qū)域數(shù)據(jù)庫(CLDP)的屬性數(shù)據(jù) 改進的UTF-8 Unicode編碼模式 嚴密穩(wěn)定的大小寫重疊和標識符間更好的互用性及后臺兼容性——能夠利用新的方法優(yōu)化代碼 更可靠的文本處理系統(tǒng)框架——涵蓋合成字符、Unicode字符串、斷行和分段等
圖書封面
圖書標簽Tags
無
評論、評分、閱讀與下載