精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

講講文字編碼的那些事

開發 開發工具
字符編碼是一個很大的話題,本篇主要討論了和web關系比較大的部分,還列了平時會遇到的幾個問題。相信看完本文,你對文字編碼應該有了一個比較好的理解。

[[211481]]

我們經常聽到純文本格式和二進制編碼,什么是純文本,什么是二進制呢?以一個例子做說明。新建一個文件叫hello.txt,內容為:

  1. hello, world 

這個文件有12個字節:

借助Node.js可以看這個文件在硬盤的原始二進制存儲是什么,如下代碼:

  1. let fs = require("fs"); 
  2. // 讀取原始二進制內容 
  3. let buffer = fs.readFileSync("hello.txt");  
  4. console.log(buffer); 

運行后控制臺輸出12個字節的二進制內容(以十六進制顯示):

  1. <Buffer 68 65 6c 6c 6f 2c 20 77 6f 72 6c 64> 

參考ASCII表,我們發現這些數字剛好是英文對應的ASCII編碼,如下圖所示:

如果這個文本文件以utf-8讀取的方式:

  1. let fs = require("fs"); 
  2. let text = fs.readFileSync("hello.txt""utf-8");  
  3. console.log(text); 

輸出的就是文本:

這里看到了兩種截然不同的輸出結果,但實際上不管是純文本文件還是二進制文件,硬盤或者內存里存儲的都是0101,就看你如何解讀它,或者說怎么解碼。(只不過我們通常說的純文本是指那種能夠解碼成可讀文本的格式,二進制文件格式指那種無法用UTF-8等文本解碼的文件如圖片。)

如下圖所示:

如果認為是UTF-8的話,一個編碼可以對應一個文字。文字的字形又是怎么來的呢?它是在字體文件里面, 以svg矢量格式存儲著每個字符的形狀。究竟什么是UTF/UTF-8編碼呢?

UTF編碼

1個字節最多只表示0 ~ (2^8 – 1)共256個字符,ASCII使用7位表示128個字符,能夠滿足現代英語的要求,對于特殊符號、亞洲語言、Emoj又應該如何表示?我們按上面的方法,查看以下包含中文和Emoji字符的文件存儲的是什么:

  1. we 發 財  

如下圖所示:

其中20是空格的編碼,可以看到一個英文還是1個字節,一個中文用了3個字節,而一個Emoj用了4個字節。它怎么知道每次應該讀取多少個字節呢?如下圖所示:

如果一個字節是0開頭,表示這個字節就表示一個字符,如果是3個1開頭表示這個字符要占3個字節,有多少個1就表示當前字符占用了多少個字節。這個就是UTF-8的存儲特點,UTF規定了每個字符的編號,而UTF-8定義了字符應該怎么存儲。從unicode官網可以查到,“我”的UTF編碼是6211,如下圖所示:

6211怎么變成utf-8編碼呢?因為6211落在下面這個范圍:

  1. U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX 

所以是這么轉的:

“我”的utf-8就是E6 88 91,可以對比encodeURIComponent的結果:

可以說utf-8讓utf得到了實現,utf-8是當前互聯網上使用最廣的文本編碼方式。除了utf-8還有utf-16,它們和utf的轉換關系如下所示:

  1. UTF-8  
  2. U+ 0000 ~ U+ 007F: 0XXXXXXX 
  3. U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX  
  4. U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX  
  5. U+10000 ~ U+10FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX 
  6.   
  7. UTF-16  
  8. U+0000 - U+FFFF         xxxxxxxx xxxxxxxx 
  9. U+10000 - U+10FFFF   110110xx xxxxxxxx 110111xx xxxxxxxx 

utf-8的優點在于一個英文只要一個字節,但是一個中文卻是3個字節,utf-16的優點在于編碼長度固定,一個中文只要兩2個字節,但是一個英文也要兩個字節。所以對于英文網頁utf-8編碼更加有利,而對于中文網頁使用utf-16應該更加有利。因為絕大部分的中文都是落在U+0000到U+FFFF。而對于Emoj這種不太常用排在后面的符號,不管是utf-8還是utf-16都需要4個字節。同時utf-32都是固定4個字節。

完整的UTF編碼可以在官網查到,這里列一些符號及其編碼的范圍,如下圖所示:

中文漢字是從4E00到9FFF,大約有兩萬個。FXXXX和10XXXX的編碼是用于自定義的,如可以用于圖標字體,但是圖標字體通常沒有使用這個范圍,而是用更簡短的編碼,這些編碼剛好映射到其它正常字符集如繁體字,這樣就導致圖標字體還沒加載好之前系統會使用默認的字體,頁面就會先顯示繁體字然后再恢復成圖標。這種問題在安卓手機會出現。

我們可以直接在html上使用UTF編碼,如:

那么網頁上將會顯示:

這個也叫html實體(entity),通常用于特殊符號的轉義或者圖標字體。

然后我們再討論下亂碼。

亂碼

用文本編輯器打開一個二進制文件,例如打開一個圖片文件:

很多文本編輯器默認是使用utf-8編碼,如submlime:

每個編碼如果對應一個符號就顯示出來,但是這些符號連起來看起來比較亂,所以就“亂碼”了。

這里舉一個實際的亂碼問題,windows的壓縮包,在mac解壓文件名通常會亂碼,如下圖所示,這是為什么呢?

windows的默認編碼方式是ANSI,使用windows自帶的文本編輯器可以保存以下幾種編碼:

ANSI根據locale,簡體中文是使用GBK。什么是GBK呢?GBK是中文的地方性編碼,如“我”的GBK編碼是CED2,最開始的中文編碼標準是GB2312,收錄了6000多個常用漢字,后來又出了GBK,把繁體字收進去了,再后來又出了GB18030把少數民族的語言收錄了,各種編碼關系如下圖所示:

但是Mac的軟件一般是使用utf-8,中文應該是3個字節,但是現在只有2個字節,還對不上,所以解壓的時候就變成了其它的符號,看起來亂碼了。Mac可以裝一個叫the unarchive的軟件,它有算法自動檢測字符編碼:

用它解壓的文件名就沒有問題。另外,很多代碼編輯器一般默認是使用utf-8,在windows自帶的文本編輯器保存的txt在這種編輯器打開將會亂碼:

當選擇了正確的編碼方式后顯示就正常了:

關于文字編碼還有一個經常會遇到的問題,那就是回車與換行。

回車與換行

Sublime的默認換行方式是根據系統設置,如下圖Sublime的設置:

從它的注釋還可以看到windows是使用CRLF,而unix系的系統是使用LF:

  • CR:Carriage Return (回車\r)
  • LF:Line Feed(換行\n)

也就是說windows的換行是\r\n,而unix系的如Mac是使用\n。回車和換行有什么區別呢?回車是指把光標移到行首,而換行是把光標換到下一行。如果在Node.js里面運行以下代碼:

  1. console.log("hello, world\rgoodbye, world"); 

那么將會輸出”goodbye, world”:

“hello, world”被覆蓋了,這就是回車符的作用。后來可能出于節省空間的目的,unix的換行就只有\n了。

“\r”在git里面會被顯示成^M:

有時候還會遇到另外一個問題:在綁host的時候,從QQ復制的消息粘貼到host文件里,MAC可能會多了個\r導致沒有生效,而windows可能會少了\r出問題,雖然在你的編輯器里看起來可能都是正常換行的。

再討論下字符串長度的問題。

字符串長度

Java和JS的字符串都是使用UTF-16編碼,因為它有長度比較固定的優勢,不像UTF-8字節數可能從1變到4。如下圖所示:

英文和中文長度都是1,而Emoj的長度是2,因為長度單位是2個字節作為1,Emoj的需要4個字節,因此長度是2。

可以使用charCodeAt返回當前字符的utf編碼:

如果是要檢測中文的話可以使用正則表達式,看當前符號是否落在中文編碼的范圍內:

在Mysql里面,如果一個字段的類型為VARCHAR(10)的話,那么它最多可以存儲10個英文或者10個中文,如果這個字段使用的是默認的utf-8編碼,那么它需要占10 * 3 = 30個字節,如果使用了GBK編碼,那么它需要使用10 * 2 = 20個字節。

meta charset標簽

我們通常會給頁面head標簽加一個charset的meta,指明當前頁面的編碼方式:

  1. <meta charset="utf-8"

在html4里面是這么寫的:

  1. <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

這兩個作用一樣,只是后者已經過時。這個編碼究竟有什么用呢?

以下以code.html作為研究:

  1. <!DOCType html> 
  2. <html> 
  3. <head> 
  4.     <meta charset="utf-8"
  5. </head> 
  6. <body> 
  7.     你好world 
  8. </body> 
  9. </html> 

然后我們用Node.js寫一個最簡單的server:

  1. let http = require("http"); 
  2. let fs = require("fs"); 
  3.   
  4. http.createServer((req, res) => { 
  5.     let content = fs.readFileSync("./code.html""utf-8"); 
  6.     console.log(req.url); 
  7.     res.end(content); 
  8. }).listen("8125", err => { 
  9.     if (err) { 
  10.         console.log(err); 
  11.     } else { 
  12.         console.log("Server start, listening on http://localhost:8125"); 
  13.     } 
  14. }); 

運行,然后訪問localhost:8125,頁面正常顯示:

現在我把charset改成gbk:

  1. <meta charset="gbk"

然后重新刷新頁面,就不正常了:

但是如果我在Node.js的server里面設置Content-Type的響應頭的charset為utf-8的話:

  1. res.setHeader("Content-Type""text/html; charset=utf-8"); 

從瀏覽器控制臺可以看到這個響應頭:

不管meta標簽里面設置的是什么編碼,頁面都能正常顯示。

所以根據我們的觀察meta標簽只有在http的響應頭里沒有設置charset的時候才會起作用。

本篇討論了utf/utf-8/utf-16的關系,utf是國際標準,規定了每個字符的編碼,而utf-8/utf-16決定了utf該如何存儲與讀取,utf-8的優點是對于英文比較有利,比較節省空間,utf-16對于中文比較有利。但是如果西方國家使用utf-8,然后東方國家使用utf-16,那么互聯網可能就亂了,所以從統一標準的角度我們還是使用utf-8。還討論了GBK編碼和亂碼的問題,如果一個字符存的時候是用的一種編碼,但是讀的時候卻用的另一種編碼,那就會對不上原先的字符,就會出現亂碼的情況。另外,由于utf-16編碼長度比較固定,所以JS和Java使用了utf-16做為它們在內存里字符串的編碼。根據實驗,meta的charset標簽在沒有設置響應頭的charset時可以起作用。

總之字符編碼是一個很大的話題,本篇主要討論了和web關系比較大的部分,還列了平時會遇到的幾個問題。相信看完本文,你對文字編碼應該有了一個比較好的理解。

【本文是51CTO專欄作者“人人網FED”的原創稿件,轉載請通過51CTO聯系原作者獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2023-04-13 00:24:00

前端編碼JavaScrip

2014-06-06 16:08:17

初志科技

2020-07-29 08:14:59

云計算云遷移IT

2011-09-19 15:40:35

2011-05-19 16:47:50

軟件測試

2012-05-01 08:06:49

手機

2012-05-31 09:53:38

IT風云15年

2024-02-04 17:03:30

2017-05-15 21:50:54

Linux引號

2015-08-20 09:17:36

Java線程池

2015-08-13 10:54:46

2021-08-11 21:46:47

MySQL索引join

2015-09-14 09:28:47

2017-03-08 08:53:44

Git命令 GitHub

2012-10-08 11:55:05

2021-03-18 16:05:20

SSD存儲故障

2009-02-19 10:21:00

路由多WAN口

2012-07-13 00:03:08

WEB前端開發WEB開發

2010-07-27 11:29:43

Flex

2022-07-19 13:31:18

Buddy算法內存管理框架
點贊
收藏

51CTO技術棧公眾號

99re成人在线| 超碰成人福利| 国产精品无圣光一区二区| 国产精品网红直播| 欧美一区二区三区爽爽爽| 激情小说一区| 欧美性色黄大片| 粉嫩av一区二区三区天美传媒 | 亚洲国产综合在线| 精品国产aⅴ麻豆| 中文字幕理论片| 亚洲调教视频在线观看| 国产一区二区三区久久精品 | 婷婷综合在线视频| 欧美h版在线观看| 色综合天天性综合| 黄色一级视频播放| 国产粉嫩一区二区三区在线观看| 欧美1区免费| 亚洲女人天堂网| 久久久国产精品久久久| 日韩精品免费观看视频| 亚洲伊人色欲综合网| 亚洲成色www久久网站| 国产91久久久| 激情综合网天天干| 国产精品观看在线亚洲人成网| 中文字幕人妻一区二区三区在线视频| 交100部在线观看| 亚洲欧洲一区二区在线播放| 欧美成熟毛茸茸复古| 999精品国产| 美国欧美日韩国产在线播放| 欧美亚洲国产日韩2020| 久久免费在线观看视频| 天天综合亚洲| 这里精品视频免费| 熟女俱乐部一区二区| 国产厕拍一区| 日韩精品一区二区三区视频在线观看 | 37pao成人国产永久免费视频| 天堂中文在线资源| 韩国一区二区视频| 国产精品一久久香蕉国产线看观看 | 91亚洲国产成人久久精品麻豆| 国产精品久久久久久| 国产一区二区三区丝袜| 日本免费福利视频| 欧美人体视频| 精品亚洲永久免费精品| 制服丝袜第二页| 欧美精品中文| 亚洲精品久久久久久久久久久久| 亚洲精品怡红院| 亚洲播播91| 欧美视频在线观看一区| 欧美婷婷精品激情| 久久亚洲资源中文字| 欧美三级中文字| 亚洲免费999| 免费看日产一区二区三区 | 久久手机精品视频| 中文字幕乱码av| 午夜免费一区| 欧美成人精品激情在线观看| 可以直接看的黄色网址| 黑人一区二区| 911国产网站尤物在线观看| 91在线看视频| 日韩 欧美一区二区三区| 国产一区二中文字幕在线看| 国产又粗又猛又爽| 精品一区二区免费视频| 91精品久久久久久蜜桃| 欧美视频一二区| 久久久久亚洲综合| 在线观看成人av电影| 大片免费在线观看| 午夜精品在线看| 成人性生生活性生交12| 日本一区精品视频| 亚洲女人天堂网| 国产午夜精品理论片| 韩国久久久久| 国产精品99一区| 国产suv精品一区二区69| 99久久精品情趣| 亚洲 国产 欧美一区| caoporm免费视频在线| 午夜久久电影网| 色婷婷成人在线| av不卡一区二区| 亚洲视频一区二区| 久久久久成人精品无码| 久久精品动漫| 91嫩草免费看| 国产三区四区在线观看| 夜夜精品视频一区二区| 男人天堂网视频| 韩国三级成人在线| 亚洲一区二区国产| 精品无码av在线| 免费在线观看一区二区三区| 国产欧美日韩一区| 日本黄色片在线观看| 精品国产电影一区| 97免费公开视频| 欧美日中文字幕| 午夜精品一区二区三区在线视频| 日韩精品一区二区在线播放| 免费成人av在线播放| 国产精品一区二区不卡视频| 超碰免费在线观看| 黑人精品xxx一区| 亚洲图片 自拍偷拍| 免费久久精品| 97国产精品视频| 亚洲AV无码乱码国产精品牛牛 | 里番在线播放| 欧美探花视频资源| 一级黄色性视频| 中日韩男男gay无套| 666精品在线| 午夜免费播放观看在线视频| 狠狠爱在线视频一区| 国产原创剧情av| 欧美婷婷在线| 99中文视频在线| 综合久久2019| 91精品在线麻豆| 欧美一区二区三区观看| 可以看av的网站久久看| 久久综合九九| 涩涩在线视频| 日韩av在线一区二区| 国产亚洲精品码| 国产成人免费av在线| 国产成人免费高清视频| 99亚洲男女激情在线观看| 中文字幕视频在线免费欧美日韩综合在线看| 亚洲色图 激情小说| 亚洲尤物精选| 国产一区二区三区高清| 国产探花视频在线观看| 精品国产一区二区在线观看| 激情视频在线播放| 成人性生交大片免费看中文| 欧美在线观看视频免费| 成人在线超碰| 午夜精品美女自拍福到在线| 天天摸天天碰天天爽天天弄| 激情懂色av一区av二区av| 日本黄色动态图| 国产精品最新自拍| 欧美午夜精品久久久久久蜜| 欧美成人精品三级网站| 一区二区三区视频在线| 亚洲午夜精品久久久| 亚洲日本一区二区三区| 少妇性l交大片7724com| 伊人激情综合| 久久99精品久久久久久久久久| 大乳在线免费观看| 亚洲欧美偷拍卡通变态| 久久久无码人妻精品无码| 亚洲国产日本| 欧洲精品国产| 中文幕av一区二区三区佐山爱| 亚洲免费影视第一页| 无码视频一区二区三区| 中国色在线观看另类| 四虎1515hh.com| av不卡在线| 先锋影音亚洲资源| 欧美中文高清| 日本一本a高清免费不卡| 91精品国产91久久久久游泳池 | 欧美黄色性生活| 欧美日韩性在线观看| 2019国产精品视频| 日本在线啊啊| 精品国产欧美一区二区五十路| 欧美一区二区三区网站| 国产精品国产精品国产专区不蜜 | 国产丝袜精品视频| 中文字幕一区二区免费| 亚洲免费观看高清完整版在线观看| 日本成人黄色网| 亚洲一区在线| 鲁鲁视频www一区二区| 九色成人搞黄网站| 久久久久免费视频| 成人免费视频| 亚洲国产高潮在线观看| 伊人网中文字幕| 亚洲成a人v欧美综合天堂| 99久久99久久精品免费看小说. | 在线成人直播| 国内不卡一区二区三区| 另类一区二区三区| 88xx成人精品| 免费在线播放电影| 三级精品视频久久久久| 深夜福利在线观看直播| 欧美高清一级片在线| 日本三级小视频| 亚洲精品v日韩精品| 国产精品美女高潮无套| 99久久国产综合精品色伊| 精品亚洲视频在线| 日韩一区欧美二区| 国产免费黄色av| 欧美日韩国产探花| 中文字幕中文字幕一区三区| 久久av电影| 精品亚洲第一| 国产suv精品一区二区四区视频| 538国产精品一区二区免费视频| 香蕉久久一区二区三区| 91精品国产入口| 久久久蜜桃一区二区| 午夜精品在线看| 精品在线视频免费| 亚洲免费大片在线观看| 91ts人妖另类精品系列| 国产日韩欧美麻豆| 欧美成人午夜精品免费| 99re视频这里只有精品| 少妇搡bbbb搡bbb搡打电话| 国模娜娜一区二区三区| 亚洲欧美偷拍另类| 蜜桃视频在线一区| 亚洲男人天堂色| 亚洲综合社区| 免费黄色日本网站| 国产欧美丝祙| 国产黄视频在线| 国产日韩欧美在线播放不卡| 久久国产精品视频在线观看| 亚洲无线一线二线三线区别av| 欧洲亚洲一区二区三区四区五区| 欧美成人三级| 国产日韩欧美影视| 国产福利一区二区三区在线播放| 欧美黑人性猛交| 新版中文在线官网| 久久久av电影| 羞羞网站在线看| 欧美大奶子在线| 国产第一页在线视频| 久久全球大尺度高清视频| 国内老司机av在线| 亚州精品天堂中文字幕| 人在线成免费视频| 国产精品18久久久久久首页狼| av理论在线观看| 久久91精品国产91久久跳| 影院在线观看全集免费观看| 欧美大片在线看| 国产美女高潮在线观看| 欧洲一区二区视频| 欧美性片在线观看| 91丨九色丨国产在线| 永久免费精品视频| 久久偷窥视频| 久久国产精品亚洲人一区二区三区 | 欧美成人一级| 国产欧美在线一区二区| 色狠狠久久av综合| 亚洲春色在线| 欧美午夜电影在线观看| 欧美在线观看成人| 蜜臀久久99精品久久久久宅男| 日本a级片免费观看| 日韩精品亚洲一区二区三区免费| 国产曰肥老太婆无遮挡| 国产精品综合色区在线观看| 日日躁夜夜躁aaaabbbb| 国产麻豆成人传媒免费观看| 久久久久久久久久久久国产精品| 国产在线播放一区| 屁屁影院国产第一页| 国产精品美女视频| 久久艹精品视频| 色8久久人人97超碰香蕉987| 亚洲一区二区视频在线播放| 精品久久久久久久人人人人传媒| 国产美女www爽爽爽视频| 亚洲成色777777女色窝| 成人精品一区二区三区免费| 久久99国产精品自在自在app| 麻豆最新免费在线视频| 久久久人成影片一区二区三区| 黄色网址免费在线观看| 久久久久久久久亚洲| 日韩欧美2区| 国产成人亚洲欧美| 日韩影院二区| 欧美 日韩 激情| 国产美女精品一区二区三区| 在线免费观看成年人视频| 亚洲精品网站在线观看| 四虎成人在线观看| 日韩一区二区三区四区| 成人三级黄色免费网站| 97久久超碰福利国产精品…| 高清久久一区| 亚洲电影网站| 视频一区中文字幕国产| 亚洲一区二区在线免费| 亚洲人成人一区二区在线观看| 毛片aaaaa| 欧美日韩亚洲综合| 男生女生差差差的视频在线观看| 亚洲人成五月天| 蜜臀av国内免费精品久久久夜夜| 亚州精品天堂中文字幕| 亚洲老司机网| 日韩一本精品| 亚洲专区免费| 女同性恋一区二区三区| 亚洲精品国产第一综合99久久 | 日本vs亚洲vs韩国一区三区二区| 九色91popny| 久久综合九色综合97_久久久| 中文字幕在线看高清电影| 亚洲一区二区免费视频| a级片在线播放| 久久精品最新地址| 午夜精品久久久久久毛片| 欧美一区国产一区| 国产一区二区你懂的| 国产视频久久久久久| 亚洲综合久久久| 亚洲国产精品无码久久| 九九热r在线视频精品| 国产不卡精品在线| 日本三日本三级少妇三级66| 韩国成人精品a∨在线观看| 中国1级黄色片| 欧美日韩一级大片网址| 麻豆tv入口在线看| 91久久中文字幕| 中文无码久久精品| xxx中文字幕| 一区二区不卡在线播放 | 毛片基地在线观看| 亚洲福利精品在线| 中文在线资源| 久久99久久精品国产| 午夜亚洲性色视频| 干b视频在线观看| 欧美午夜精品久久久| 99青草视频在线播放视| 国产一区私人高清影院| 这里只有精品在线| 国产大学生视频| 婷婷国产在线综合| 黄色av网址在线免费观看| 国产精品久久久久久亚洲影视| 国产精品色在线网站| 亚洲人精品午夜射精日韩| 91丨porny丨最新| 日韩国产成人在线| 波霸ol色综合久久| 国产精品亚洲一区二区在线观看| 鲁鲁狠狠狠7777一区二区| 欧美精品大片| 极品白嫩丰满美女无套| 在线视频观看一区| 精产国品自在线www| 国产精品一码二码三码在线| 老**午夜毛片一区二区三区 | 国产欧美日韩视频在线| 凹凸日日摸日日碰夜夜爽1| 国产精品福利一区二区| 亚洲国产视频一区二区三区| 欧美性在线视频| 国产大片一区| 色婷婷免费视频| 欧美午夜一区二区三区| 污片在线免费观看| 欧美中日韩免费视频| 国产曰批免费观看久久久| 国产一级特黄aaa大片| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 亚洲最大黄网| 日本japanese极品少妇| 欧美精品久久99| 成人黄色动漫| 亚洲欧洲三级| 成人黄色777网| 亚洲中文一区二区三区| 91精品国产高清久久久久久久久| 91久久精品无嫩草影院| 欧美黄色一级片视频| 亚洲综合成人在线视频| 1024视频在线| 黄色91av| 国产剧情在线观看一区二区|