博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
UTF-8笔记170330
阅读量:4971 次
发布时间:2019-06-12

本文共 609 字,大约阅读时间需要 2 分钟。

unicode

为每种语言中的每个字符设定了统一并且唯一的,以满足跨语言、跨平台进行文本转换、处理的

UTF-8使用可变长度来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或等使用2字节来储存,而常用的汉字就要使用3字节。字符则使用4

RFC 3629utf8

UTF-8Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E000x9FA5(其实还包括了中日韩的),是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现。

1字节 7   0xxxxxxx 

2字节 11 110xxxxx 10xxxxxx 
3字节 16 1110xxxx 10xxxxxx 10xxxxxx 
4字节 21 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
5字节 26 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
6字节 31 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 

转载于:https://www.cnblogs.com/jinhengyu/p/7516810.html

你可能感兴趣的文章
静态方法是否属于线程安全
查看>>
02号团队-团队任务3:每日立会(2018-12-05)
查看>>
SQLite移植手记1
查看>>
js05-DOM对象二
查看>>
mariadb BINLOG_FORMAT = STATEMENT 异常
查看>>
C3P0 WARN: Establishing SSL connection without server's identity verification is not recommended
查看>>
iPhone在日本最牛,在中国输得最慘
查看>>
动态方法决议 和 消息转发
查看>>
C#生成随机数
查看>>
Java回顾之多线程
查看>>
机电行业如何进行信息化建设
查看>>
9、总线
查看>>
2018 Multi-University Training Contest 10 - Count
查看>>
HDU6203 ping ping ping
查看>>
构建之法阅读笔记02
查看>>
DataTable和 DataRow的 区别与联系
查看>>
检索COM 类工厂中CLSID 为 {00024500-0000-0000-C000-000000000046}的组件时失败
查看>>
mysql数据库中数据类型
查看>>
Fireworks基本使用
查看>>
Linux 标准 I/O 库
查看>>