UTF-8

詞語解釋

UTF-8（8-bit Unicode Transformation Format）是一種可變長度的Unicode字符編碼，由Ken Thompson于1992年設(shè)計，目前是國際上最常用的Unicode編碼。 UTF-8是一種編碼格式，它可以將Unicode字符集中的任意字符編碼為一個或多個字節(jié)，以便存儲和傳輸。UTF-8的優(yōu)點在于它可以有效地處理Unicode字符集中的大多數(shù)字符，而且它的編碼和解碼速度都比較快，而且它可以與ASCII字符集兼容，因此它是現(xiàn)在國際上最常用的Unicode編碼格式。 UTF-8在通信中的應(yīng)用主要體現(xiàn)在以下幾個方面： 1、在網(wǎng)絡(luò)傳輸中，UTF-8可以有效地將Unicode字符集中的大多數(shù)字符編碼為一個或多個字節(jié)，以便存儲和傳輸。 2、在多語言環(huán)境中，UTF-8可以有效地處理Unicode字符集中的大多數(shù)字符，從而使不同語言的用戶可以交流。 3、在數(shù)據(jù)庫存儲中，UTF-8可以有效地存儲Unicode字符集中的大多數(shù)字符，從而使數(shù)據(jù)庫的存儲空間得到有效利用。 4、在文本處理中，UTF-8可以有效地處理Unicode字符集中的大多數(shù)字符，從而使文本處理的效率得到提高。總之，UTF-8是一種可變長度的Unicode字符編碼，它可以有效地處理Unicode字符集中的大多數(shù)字符，因此它是現(xiàn)在國際上最常用的Unicode編碼格式，它在網(wǎng)絡(luò)傳輸、多語言環(huán)境、數(shù)據(jù)庫存儲和文本處理等方面都有著重要的應(yīng)用。

UTF-8（8 位元 Universal Character Set/Unicode Transformation Format）是針對Unicode 的一種可變長度字符編碼。它可以用來表示 Unicode 標準中的任何字符，而且其編碼中的第一個字節(jié)仍與 ASCII 相容，使得原來處理 ASCII 字符的軟件無需或只作少部份修改后，便可繼續(xù)使用。因此，它逐漸成為電子郵件、網(wǎng)頁及其他儲存或傳送文字的應(yīng)用中，優(yōu)先采用的編碼。
UTF-8 使用一至四個字節(jié)為每個字符編碼：

128 個 US-ASCII 字符只需一個字節(jié)編碼（Unicode 范圍由 U+0000 至 U+007F）。
帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個字節(jié)編碼（Unicode 范圍由 U+0080 至 U+07FF）。
其他基本多文種平面（BMP）中的字符（這包含了大部分常用字）使用三個字節(jié)編碼。
其他極少使用的 Unicode 輔助平面的字符使用四字節(jié)編碼。

對上述提及的第四種字符而言，UTF-8 使用四個字節(jié)來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字符都可以用三個字節(jié)表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字符同樣需要四個字節(jié)來編碼，所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率，還要視所使用的字符的分布范圍而定。不過，如果使用一些傳統(tǒng)的壓縮系統(tǒng)，比如 DEFLATE，則這些不同編碼系統(tǒng)間的的差異就變得微不足道了。若顧及傳統(tǒng)壓縮算法在壓縮較短文字上的效果不大，可以考慮使用 Standard Compression Scheme for Unicode（SCSU）。
因特網(wǎng)工程工作小組（IETF）要求所有因特網(wǎng)協(xié)議都必須支援 UTF-8 編碼。[1] 互聯(lián)網(wǎng)郵件聯(lián)盟（IMC）建議所有電子郵件軟件都支援 UTF-8編碼。所有主要的電子郵件軟件中，只有 Eudora 不支援 UTF-8 編碼。[1]

掃碼付費即可復(fù)制

UTF-8

UTF-8

相關(guān)討論貼

相關(guān)技術(shù)問答

相關(guān)資料下載

隨機推薦詞語