Python中字串符的相关介绍

来源：www.pxwy.cn 发布人：云朵

2021-12-07 15:50:08|已浏览：350次

Python中字串符的相关介绍

根据维基百科定义：字符串是由零个或多个字符组成的有限序列。而在Python 3中，它有着更明确的意思：字符串是由Unicode码点组成的不可变序列（Strings are immutable sequences of Unicode code points.）

字符串序列是一种不可变序列，这意味着它不能像可变序列一样，进行就地修改。例如，在字符串“Python”的基础上拼接“Cat”，得到字符串“PythonCat”，新的字符串是一个独立的存在，它与基础字符串“Python”并没有关联关系。

字符串这种序列与其它序列（如列表、元组）的不同之处在于，它的“元素”限定了只能是Unicode码点。Unicode码点是什么呢？简单理解，就是用Unicode编码的字符。那字符是什么呢？字符是人类书写系统的各类符号，例如阿拉伯数字、拉丁字母、中文、日文、藏文、标点符号、控制符号（换行符、制表符等）、其它特殊符号（@#￥%$*等等）。那Unicode编码又是什么呢？Unicode别名是万国码、国际码，它是一种适用性最广的、将书写字符编码为计算机数字的标准。

重所周知，在最底层的计算机硬件世界里，只有0和1。那么，怎么用这个二进制数字，来表示人类的文化性的字符呢？这些字符数量庞大，而且还在日益增长与变化，什么样的编码方案才是最靠谱的呢？

历史上，人类创造了多种多样的字符编码标准，例如ASCII（1963年）编码，以西欧语言的字符为主，它的缺点是只能编码128个字符；例如GB2312（1981年），这是中国推出的编码标准，在兼容ASCII标准的基础上，还加入了对日文、俄文等字符的编码，但缺点仍是编码范围有限，无法表示古汉语、繁体字及更多书写系统的字符。

Unicode编码标准于1991年推出，至今迭代到了第11版，已经能够编码146个书写系统的130000个字符，可谓是无所不包，真不愧是“国际码”。Unicode编码其实是一个二进制字符集，它建立了从书写字符映射成唯一的数字字符的关系，但是，由于各系统平台对字符的理解差异，以及出于节省空间的考虑，Unicode编码还需要再做一次转换，转换后的新的二进制数字才能作为实际存储及网络传输时的编码。

这种转换方式被称为Unicode转换格式（Unicode Transformation Format，简称为UTF），它又细分为UTF-8、UTF-16、UTF-32等等方式。我们最常用的是UTF-8。为什么UTF-8最常用呢？因为它是可变长度的编码方案，针对不同的字符使用不同的字节数来编码，例如编码英文字母时，只需要一个字节（8个比特），而编码较复杂的汉字时，就会用到三个字节（24个比特）。

二进制的编码串可以说是给机器阅读的，为了方便，我们通常会将其转化为十六进制，例如“中”字的Unicode编码可以表示成0x4e2d ，其UTF-8编码可以表示为0xe4b8ad，'0x'用于开头表示十六进制，这样就简洁多了。不过，UTF-8编码的结果会被表示成以字节为单位的形式，例如“中”字用UTF-8编码后的字节形式是\xe4\xb8\xad 。

Python中为了区分Unicode编码与字节码，分别在开头加“u”和“b”以示区分。在Python 3中，因为Unicode成了默认编码格式，所以“u”被省略掉了。

总结一下，Python 3 中的字符串是由Unicode码点组成的不可变序列，也即是，由采用Unicode标准编码的字符组成的不可变序列。Unicode编码将书写系统的字符映射成了计算机二进制数字，为了方便，通常显示为十六进制；在运算内存中，字符以Unicode编码呈现，当写入磁盘或用于网络传输时，一般采用UTF-8方式编码。

本文由培训无忧网牛耳教育专属课程顾问整理发布，希望能够对想学习长沙Python开发培训的同学有所帮助。更多Python开发培训课程欢迎关注培训无忧网Python开发培训频道或添加老师微信：15033336050

注：尊重原创文章,转载请注明出处和链接 https://www.pxwy.cn/news-id-6636.html 违者必究！部分文章来源于网络由培训无忧网编辑部人员整理发布,内容真实性请自行核实或联系我们，了解更多相关资讯请关注python培训频道查看更多，了解相关专业课程信息您可在线咨询也可免费申请试课。关注官方微信了解更多：150 3333 6050

相关新闻