詞語解釋
UTF-8(8-bit Unicode Transformation Format)是一種可變長度的Unicode字符編碼,由Ken Thompson于1992年設(shè)計,目前是國際上最常用的Unicode編碼。 UTF-8是一種編碼格式,它可以將Unicode字符集中的任意字符編碼為一個或多個字節(jié),以便存儲和傳輸。UTF-8的優(yōu)點在于它可以有效地處理Unicode字符集中的大多數(shù)字符,而且它的編碼和解碼速度都比較快,而且它可以與ASCII字符集兼容,因此它是現(xiàn)在國際上最常用的Unicode編碼格式。 UTF-8在通信中的應(yīng)用主要體現(xiàn)在以下幾個方面: 1、在網(wǎng)絡(luò)傳輸中,UTF-8可以有效地將Unicode字符集中的大多數(shù)字符編碼為一個或多個字節(jié),以便存儲和傳輸。 2、在多語言環(huán)境中,UTF-8可以有效地處理Unicode字符集中的大多數(shù)字符,從而使不同語言的用戶可以交流。 3、在數(shù)據(jù)庫存儲中,UTF-8可以有效地存儲Unicode字符集中的大多數(shù)字符,從而使數(shù)據(jù)庫的存儲空間得到有效利用。 4、在文本處理中,UTF-8可以有效地處理Unicode字符集中的大多數(shù)字符,從而使文本處理的效率得到提高。 總之,UTF-8是一種可變長度的Unicode字符編碼,它可以有效地處理Unicode字符集中的大多數(shù)字符,因此它是現(xiàn)在國際上最常用的Unicode編碼格式,它在網(wǎng)絡(luò)傳輸、多語言環(huán)境、數(shù)據(jù)庫存儲和文本處理等方面都有著重要的應(yīng)用。 UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是針對Unicode 的一種可變長度字符編碼。它可以用來表示 Unicode 標準中的任何字符,而且其編碼中的第一個字節(jié)仍與 ASCII 相容,使得原來處理 ASCII 字符的軟件無需或只作少部份修改后,便可繼續(xù)使用。因此,它逐漸成為電子郵件、網(wǎng)頁及其他儲存或傳送文字的應(yīng)用中,優(yōu)先采用的編碼。 UTF-8 使用一至四個字節(jié)為每個字符編碼: 128 個 US-ASCII 字符只需一個字節(jié)編碼(Unicode 范圍由 U+0000 至 U+007F)。 帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個字節(jié)編碼(Unicode 范圍由 U+0080 至 U+07FF)。 其他基本多文種平面(BMP)中的字符(這包含了大部分常用字)使用三個字節(jié)編碼。 其他極少使用的 Unicode 輔助平面的字符使用四字節(jié)編碼。 對上述提及的第四種字符而言,UTF-8 使用四個字節(jié)來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字符都可以用三個字節(jié)表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個字節(jié)來編碼,所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率,還要視所使用的字符的分布范圍而定。不過,如果使用一些傳統(tǒng)的壓縮系統(tǒng),比如 DEFLATE,則這些不同編碼系統(tǒng)間的的差異就變得微不足道了。若顧及傳統(tǒng)壓縮算法在壓縮較短文字上的效果不大,可以考慮使用 Standard Compression Scheme for Unicode(SCSU)。 因特網(wǎng)工程工作小組(IETF)要求所有因特網(wǎng)協(xié)議都必須支援 UTF-8 編碼。[1] 互聯(lián)網(wǎng)郵件聯(lián)盟(IMC)建議所有電子郵件軟件都支援 UTF-8編碼。所有主要的電子郵件軟件中,只有 Eudora 不支援 UTF-8 編碼。[1]
UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是針對Unicode 的一種可變長度字符編碼。它可以用來表示 Unicode 標準中的任何字符,而且其編碼中的第一個字節(jié)仍與 ASCII 相容,使得原來處理 ASCII 字符的軟件無需或只作少部份修改后,便可繼續(xù)使用。因此,它逐漸成為電子郵件、網(wǎng)頁及其他儲存或傳送文字的應(yīng)用中,優(yōu)先采用的編碼。 UTF-8 使用一至四個字節(jié)為每個字符編碼: 128 個 US-ASCII 字符只需一個字節(jié)編碼(Unicode 范圍由 U+0000 至 U+007F)。 帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個字節(jié)編碼(Unicode 范圍由 U+0080 至 U+07FF)。 其他基本多文種平面(BMP)中的字符(這包含了大部分常用字)使用三個字節(jié)編碼。 其他極少使用的 Unicode 輔助平面的字符使用四字節(jié)編碼。 對上述提及的第四種字符而言,UTF-8 使用四個字節(jié)來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字符都可以用三個字節(jié)表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個字節(jié)來編碼,所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率,還要視所使用的字符的分布范圍而定。不過,如果使用一些傳統(tǒng)的壓縮系統(tǒng),比如 DEFLATE,則這些不同編碼系統(tǒng)間的的差異就變得微不足道了。若顧及傳統(tǒng)壓縮算法在壓縮較短文字上的效果不大,可以考慮使用 Standard Compression Scheme for Unicode(SCSU)。 因特網(wǎng)工程工作小組(IETF)要求所有因特網(wǎng)協(xié)議都必須支援 UTF-8 編碼。[1] 互聯(lián)網(wǎng)郵件聯(lián)盟(IMC)建議所有電子郵件軟件都支援 UTF-8編碼。所有主要的電子郵件軟件中,只有 Eudora 不支援 UTF-8 編碼。[1]
抱歉,此頁面的內(nèi)容受版權(quán)保護,復(fù)制需扣除次數(shù),次數(shù)不足時需付費購買。
如需下載請點擊:點擊此處下載
掃碼付費即可復(fù)制
八木天線 | 室內(nèi)覆蓋 | 來電顯示 | STTD | 計算機 | boss | DCH | 容災(zāi) | Counters | cmd | 小區(qū)廣播 | RRM |
移動通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團隊博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助