python哪个版本全面支持unicode(python哪个版本最好用)

http://www.itjxue.com 2023-03-29 21:05 来源:未知 点击次数:

python2和3的区别大吗？

1、Python2之前是非常受欢迎的，现在很多软件公司依然使用的是Python2，不过由于越来越多的公司开始从Python2迁移到3，因此初学者可以避免花费更多的时间学习过去的版本了。

2、Python2和Python3之间有一些是无法互相兼容的，现在很多开发人员都在使用Python3开发库，许多老的基于Python2的开发包依然是无法兼容的，想要将Python2库移植到Python3上，对于初学者来说还是比较困难的事情。

3、Python3有更好的Unicode编码支持在Python3的语法之中，默认文化字符串就是Unicode，而Python2默认的存储为ASCII，而且Unicode比ASCII更加通用，可以提供更多的选择。

4、Python3版本改进了整数除法的问题，在Python2中如果你在小数点后面写任何一个数字，计算会自动四舍五入的。而使用Python3的情况下是不需要担心这种情况发生的。

5、两个版本之间有不同的打印语句声明语法，是语法差异，不影响Python的功能。

python哪个版本全面支持unicode(python哪个版本最好用)

python3 有 unicode吗

有的，python3的编码方式默认就是unicode

你可以直接encode其他任何编码方式

python3和python2差别为什么那么大

python2和python3的区别

如果你是一个初学者，或者你以前接触过其他的编程语言，你可能不知道，在开始学习python的时候都会遇到一个比较让人很头疼的问题：版本问题！！是学习python2 还是学习 python3 ？这是非常让人纠结的！

搜索一下便会发现python3 和 python2 是不兼容的，而且差异比较大，到底学习哪个版本呢？下面就来为大家分析一下：

其实python是linux上最常用的软件之一，但是linux目前的版本大部分还是使用python2的，而且，在linux上依赖python2的程序更多一些，所以 Python3 要代替 python2 成为主流还需要几年的时间。

当初设计 Python3 的目的是没有代码兼容的包袱的情况下改进 Python，但个人认为改进得还不够大刀阔斧，没有彻底改进一些bug，还有不少的 wart 错过了改进机会，因此造成的语法不兼容的地方也没最初设想的多。

人们几年摸索慢慢下来，大部分的情况下可以直接写 2/3 兼容的代码，也有 six 这类的兼容层可用。

所以先学 Python2 还是 Python3 都不是问题，或者说都是问题。

目前现状是实际应用中大部分暂不考虑 Python3，有的时候注意写兼容 2/3 的代码。用 Python2 为主的写新代码时要考虑以后迁移到 Python3 的可能性。

无

论学 Python2 还是 Python3，都需要注意另外一边的不同点：所幸就是这些不同点很容易掌握，只有一个 unicode encoding

对较多人造成困扰（同时也是很多 web 相关库移植的主要障碍，3.3 重新支持 u''，情况大大改善了）学习python2 还是

python3 、使用python2 还是 python3 需要看具体情况而定.

所以我建议：

1. 如果是你在企业中，需要用到python而学习python的话，那就要看企业的应用python的版本进行学习；

2. 如果想要更多的成熟解决方案，最少的bug，最稳定的应用那就用python2 ；

3. 如果你是在读大学的学生，那我建议你学习python3，等到毕业的时候或许python已经成为了主流。

python3字符串都是什么编码

编码

字符串是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。

Unicode

Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。

现在，捋一捋ASCII编码和Unicode编码的区别：ASCII编码是1个字节，而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65，二进制的01000001；

字符0用ASCII编码是十进制的48，二进制的00110000，注意字符'0'和整数0是不同的；

汉字已经超出了ASCII编码的范围，用Unicode编码是十进制的20013，二进制的01001110 00101101。

如果把ASCII编码的A用Unicode编码，只需要在前面补0就可以，因此，A的Unicode编码是00000000 01000001。

新的问题又出现了：如果统一成Unicode编码，乱码问题从此消失了。但是，如果你写的文本基本上全部是英文的话，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。

所以，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

字符

ASCII

Unicode

UTF-8

A ? ?01000001 ? ?00000000 01000001 ? ?01000001 ?

中 ? ?x ? ?01001110 00101101 ? ?11100100 10111000 10101101 ?

从上面的表格还可以发现，UTF-8编码有一个额外的好处，就是ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下现在计算机系统通用的字符编码工作方式：

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件：

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

所以你看到很多网页的源码上会有类似meta charset="UTF-8" /的信息，表示该网页正是用的UTF-8编码。

Python的字符串

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言，例如：

print('包含中文的str')

包含中文的str

对于单个字符的编码，Python提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

ord('A')65

ord('中')20013

chr(66)'B' chr(25991)'文'

如果知道字符的整数编码，还可以用十六进制这么写str

'\u4e2d\u6587' // 中文

byte

由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示：

x = b'ABC'

要注意区分'ABC'和b'ABC'，前者是str，后者虽然内容显示得和前者一样，但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes，例如：

'ABC'.encode('ascii')

b'ABC' '中文'.encode('utf-8')

b'\xe4\xb8\xad\xe6\x96\x87' '中文'.encode('ascii')

Traceback (most recent call last):

File "stdin", line 1, in moduleUnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes，内容是一样的，含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码，因为中文编码的范围超过了ASCII编码的范围，Python会报错。

在bytes中，无法显示为ASCII字符的字节，用\x##显示。

反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法：

b'ABC'.decode('ascii')'ABC' b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')'中文'

要计算str包含多少个字符，可以用len()函数

len('ABC')3

len('中文')2

len()函数计算的是str的字符数，如果换成bytes，len()函数就计算字节数

len(b'ABC')3

len(b'\xe4\xb8\xad\xe6\x96\x87')6

len('中文'.encode('utf-8'))6

1个中文字符经过UTF-8编码后通常会占用3个字节，而1个英文字符只占用1个字节。

在操作字符串时，我们经常遇到str和bytes的互相转换。为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换。

Python源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时，为了让它按UTF-8编码读取，我们通常在文件开头写上这两行

#!/usr/bin/env python3# -*- coding: utf-8 -*-

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

格式化：

在Python中，采用的格式化方式和C语言是一致的，用%实现，举例如下：

format % (...params)

'Hello, %s' % 'world''Hello, world' 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'

%运算符就是用来格式化字符串的。在字符串内部，%s表示用字符串替换，%d表示用整数替换，%x表示16进制整数，有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。

格式化整数和浮点数还可以指定是否补0和整数与小数的位数：

'%2d-%02d' % (3, 1)' 3-01' '%.2f' % 3.1415926'3.14'

有些时候，字符串里面的%是一个普通字符怎么办？这个时候就需要转义，用%%来表示一个%：

'growth rate: %d %%' % 7'growth rate: 7 %'

python版本有什么不同

对比python2和python3，两者的差异如下：

1. Python3 对 Unicode 字符的原生支持。

Python2 中使用 ASCII 码作为默认编码方式导致 string 有两种类型 str 和 unicode，Python3 只

支持 unicode 的 string。Python2 和 Python3 字节和字符对应关系为：

2. Python3 采用的是绝对路径的方式进行 import

Python2 中相对路径的 import 会导致标准库导入变得困难（想象一下，同一目录下有 file.py，如

何同时导入这个文件和标准库 file）。Python3 中这一点将被修改，如果还需要导入同一目录的文件必

须使用绝对路径，否则只能使用相关导入的方式来进行导入。

推荐学习《python教程》

3. Python2 中存在老式类和新式类的区别，Python3 统一采用新式类。新式类声明要求继承 object，

必须用新式类应用多重继承。

4. Python3 使用更加严格的缩进。Python2 的缩进机制中，1 个 tab 和 8 个 space 是等价的，所

以在缩进中可以同时允许 tab 和 space 在代码中共存。这种等价机制会导致部分 IDE 使用存在问题。

Python3 中 1 个 tab 只能找另外一个 tab 替代，因此 tab 和 space 共存会导致报错：TabError:

inconsistent use of tabs and spaces in indentation.

废弃类差异

1. print 语句被 Python3 废弃，统一使用 print 函数

2. exec 语句被 python3 废弃，统一使用 exec 函数

3. execfile 语句被 Python3 废弃，推荐使用 exec(open("./filename").read())

4. 不相等操作符""被 Python3 废弃，统一使用"!="

5. long 整数类型被 Python3 废弃，统一使用 int

6. xrange 函数被 Python3 废弃，统一使用 range，Python3 中 range 的机制也进行修改并提高

了大数据集生成效率

7. Python3 中这些方法再不再返回 list 对象：dictionary 关联的 keys()、values()、items()，zip()，

map()，filter()，但是可以通过 list 强行转换：

1. mydict={"a":1,"b":2,"c":3}

2. mydict.keys() #built-in method keys of dict object at 0x000000000040B4C8

3. list(mydict.keys()) #['a', 'c', 'b']

8. 迭代器 iterator 的 next()函数被 Python3 废弃，统一使用 next(iterator)

9. raw_input 函数被 Python3 废弃，统一使用 input 函数

10. 字典变量的 has_key 函数被 Python 废弃，统一使用 in 关键词

11. file 函数被 Python3 废弃，统一使用 open 来处理文件，可以通过 io.IOBase 检查文件类型

12. apply 函数被 Python3 废弃

13. 异常 StandardError 被 Python3 废弃，统一使用 Exception

修改类差异

1. 浮点数除法操作符“/”和“//”的区别

“ / ”：

Python2：若为两个整形数进行运算，结果为整形，但若两个数中有一个为浮点数，则结果为

浮点数；

Python3:为真除法，运算结果不再根据参加运算的数的类型。

“//”：

Python2：返回小于除法运算结果的最大整数；从类型上讲，与"/"运算符返回类型逻辑一致。

Python3：和 Python2 运算结果一样。

2. 异常抛出和捕捉机制区别

Python2

1. raise IOError, "file error" #抛出异常

2. except NameError, err: #捕捉异常

Python3

1. raise IOError("file error") #抛出异常

2. except NameError as err: #捕捉异常

3. for 循环中变量值区别

Python2，for 循环会修改外部相同名称变量的值

1. i = 1

2. print （'comprehension: ', [i for i in range(5)]）

3. print （'after: i =', i ） #i=4

Python3，for 循环不会修改外部相同名称变量的值

1. i = 1

2. print （'comprehension: ', [i for i in range(5)]）

3. print （'after: i =', i ） #i=1

为什么python有两个不同的版本,并且语法规范什么的都不相通呢?

Python有两个不同的版本是因为Python语言在发展的过程中经历了一些重大的变化，这些变化导致了一些不兼容的问题。Python 2.x系列是早期版本，于2000年发布，而Python 3.x系列则是新版本，于2008年发布。这两个版本之间有很多不同之处，包括语言规范、标准库、性能和对Unicode的支持等方面。

Python 2.x和Python 3.x之间的主要区别在于对Unicode的支持。Python 2.x默认使用ASCII编码，需要使用特殊的unicode字符串来处理非ASCII字符。而Python 3.x则默认使用Unicode编码，这意味着可以直接处理任何字符，不需要特殊的字符串类型。

此外，Python 3.x还对语法规范进行了一些更改，例如print语句变为print函数，除法运算符/会返回浮点数而不是整数，等等。这些变化可能会导致Python 2.x的代码在Python 3.x中无法正常工作。

虽然Python 2.x目前已经停止维护，但是由于历史原因，一些项目仍在使用Python 2.x版本。为了避免代码不兼容的问题，Python 2.x和Python 3.x被认为是两个不同的语言。Python社区建议新项目使用Python 3.x版本。