UTF-8 的字碼長度是不固定的,由一至四不等,通常英文字母 (ascii characters) 是 1 byte,拉丁及東歐字母等是 2 bytes,其他多字節文字(包括中文)是 3 bytes,其餘罕有的字符是 4 bytes。
http://www.ptt.cc/bbs/C_and_CPP/M.1289044618.A.B94.html
2.中文儲存在電腦裡是不是佔3 bytes? 答:不一定,如果是BIG5編碼,就是2 bytes 如果是UTF-8編碼,可能是2 bytes或3 bytes 如果是UTF-16,則是2 bytes
http://en.wikipedia.org/wiki/Unicode_in_Microsoft_Windows
Windows used the UTF-16LE encoding scheme internally, in NTFS file system
ref:
http://en.wikipedia.org/wiki/UTF-8
http://www.ptt.cc/man/Web_Design/D5B9/D6D7/M.1144158540.A.A6E.html
http://ithelp.ithome.com.tw/question/10021627?tag=rt.rq
沒有留言:
張貼留言