python哪个版本全面支持unicode(python哪个版本最好用)

http://www.itjxue.com  2023-03-29 21:05  来源:未知  点击次数: 

python2和3的区别大吗?

1、Python2之前是非常受欢迎的,现在很多软件公司依然使用的是Python2,不过由于越来越多的公司开始从Python2迁移到3,因此初学者可以避免花费更多的时间学习过去的版本了。

2、Python2和Python3之间有一些是无法互相兼容的,现在很多开发人员都在使用Python3开发库,许多老的基于Python2的开发包依然是无法兼容的,想要将Python2库移植到Python3上,对于初学者来说还是比较困难的事情。

3、Python3有更好的Unicode编码支持在Python3的语法之中,默认文化字符串就是Unicode,而Python2默认的存储为ASCII,而且Unicode比ASCII更加通用,可以提供更多的选择。

4、Python3版本改进了整数除法的问题,在Python2中如果你在小数点后面写任何一个数字,计算会自动四舍五入的。而使用Python3的情况下是不需要担心这种情况发生的。

5、两个版本之间有不同的打印语句声明语法,是语法差异,不影响Python的功能。

python3 有 unicode吗

有的,python3的编码方式默认就是unicode

你可以直接encode其他任何编码方式

python3和python2差别为什么那么大

python2和python3的区别

如果你是一个初学者,或者你以前接触过其他的编程语言,你可能不知道,在开始学习python的时候都会遇到一个比较让人很头疼的问题:版本问题!!是学习python2 还是学习 python3 ?这是非常让人纠结的!

搜索一下便会发现python3 和 python2 是不兼容的,而且差异比较大,到底学习哪个版本呢?下面就来为大家分析一下:

其实python是linux上最常用的软件之一,但是linux目前的版本大部分还是使用python2的,而且,在linux上依赖python2的程序更多一些,所以 Python3 要代替 python2 成为主流还需要几年的时间。

当初设计 Python3 的目的是没有代码兼容的包袱的情况下改进 Python,但个人认为改进得还不够大刀阔斧,没有彻底改进一些bug,还有不少的 wart 错过了改进机会,因此造成的语法不兼容的地方也没最初设想的多。

人们几年摸索慢慢下来,大部分的情况下可以直接写 2/3 兼容的代码,也有 six 这类的兼容层可用。

所以先学 Python2 还是 Python3 都不是问题,或者说都是问题。

目前现状是实际应用中大部分暂不考虑 Python3,有的时候注意写兼容 2/3 的代码。用 Python2 为主的写新代码时要考虑以后迁移到 Python3 的可能性。

论学 Python2 还是 Python3,都需要注意另外一边的不同点:所幸就是这些不同点很容易掌握,只有一个 unicode encoding

对较多人造成困扰(同时也是很多 web 相关库移植的主要障碍,3.3 重新支持 u'',情况大大改善了)学习python2 还是

python3 、使用python2 还是 python3 需要看具体情况而定.

所以我建议:

1. 如果是你在企业中,需要用到python而学习python的话,那就要看企业的应用python的版本进行学习;

2. 如果想要更多的成熟解决方案,最少的bug,最稳定的应用那就用python2 ;

3. 如果你是在读大学的学生,那我建议你学习python3,等到毕业的时候或许python已经成为了主流。

python3字符串都是什么编码

编码

字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。

Unicode

Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。

Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。

现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65,二进制的01000001;

字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的;

汉字已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101。

如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是00000000 01000001。

新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

所以,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

字符

ASCII

Unicode

UTF-8

A ? ?01000001 ? ?00000000 01000001 ? ?01000001 ?

中 ? ?x ? ?01001110 00101101 ? ?11100100 10111000 10101101 ?

从上面的表格还可以发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:

在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:

浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器:

所以你看到很多网页的源码上会有类似meta charset="UTF-8" /的信息,表示该网页正是用的UTF-8编码。

Python的字符串

在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例如:

print('包含中文的str')

包含中文的str

对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

ord('A')65

ord('中')20013

chr(66)'B' chr(25991)'文'

如果知道字符的整数编码,还可以用十六进制这么写str

'\u4e2d\u6587' // 中文

byte

由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示:

x = b'ABC'

要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:

'ABC'.encode('ascii')

b'ABC' '中文'.encode('utf-8')

b'\xe4\xb8\xad\xe6\x96\x87' '中文'.encode('ascii')

Traceback (most recent call last):

File "stdin", line 1, in moduleUnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。

在bytes中,无法显示为ASCII字符的字节,用\x##显示。

反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:

b'ABC'.decode('ascii')'ABC' b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')'中文'

要计算str包含多少个字符,可以用len()函数

len('ABC')3

len('中文')2

len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数

len(b'ABC')3

len(b'\xe4\xb8\xad\xe6\x96\x87')6

len('中文'.encode('utf-8'))6

1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。

在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。

Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行

#!/usr/bin/env python3# -*- coding: utf-8 -*-

第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

格式化:

在Python中,采用的格式化方式和C语言是一致的,用%实现,举例如下:

format % (...params)

'Hello, %s' % 'world''Hello, world' 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'

%运算符就是用来格式化字符串的。在字符串内部,%s表示用字符串替换,%d表示用整数替换,%x表示16进制整数,有几个%?占位符,后面就跟几个变量或者值,顺序要对应好。如果只有一个%?,括号可以省略。

格式化整数和浮点数还可以指定是否补0和整数与小数的位数:

'%2d-%02d' % (3, 1)' 3-01' '%.2f' % 3.1415926'3.14'

有些时候,字符串里面的%是一个普通字符怎么办?这个时候就需要转义,用%%来表示一个%:

'growth rate: %d %%' % 7'growth rate: 7 %'

python版本有什么不同

对比python2和python3,两者的差异如下:

1. Python3 对 Unicode 字符的原生支持。

Python2 中使用 ASCII 码作为默认编码方式导致 string 有两种类型 str 和 unicode,Python3 只

支持 unicode 的 string。Python2 和 Python3 字节和字符对应关系为:

2. Python3 采用的是绝对路径的方式进行 import

Python2 中相对路径的 import 会导致标准库导入变得困难(想象一下,同一目录下有 file.py,如

何同时导入这个文件和标准库 file)。Python3 中这一点将被修改,如果还需要导入同一目录的文件必

须使用绝对路径,否则只能使用相关导入的方式来进行导入。

推荐学习《python教程》

3. Python2 中存在老式类和新式类的区别,Python3 统一采用新式类。新式类声明要求继承 object,

必须用新式类应用多重继承。

4. Python3 使用更加严格的缩进。Python2 的缩进机制中,1 个 tab 和 8 个 space 是等价的,所

以在缩进中可以同时允许 tab 和 space 在代码中共存。这种等价机制会导致部分 IDE 使用存在问题。

Python3 中 1 个 tab 只能找另外一个 tab 替代,因此 tab 和 space 共存会导致报错:TabError:

inconsistent use of tabs and spaces in indentation.

废弃类差异

1. print 语句被 Python3 废弃,统一使用 print 函数

2. exec 语句被 python3 废弃,统一使用 exec 函数

3. execfile 语句被 Python3 废弃,推荐使用 exec(open("./filename").read())

4. 不相等操作符""被 Python3 废弃,统一使用"!="

5. long 整数类型被 Python3 废弃,统一使用 int

6. xrange 函数被 Python3 废弃,统一使用 range,Python3 中 range 的机制也进行修改并提高

了大数据集生成效率

7. Python3 中这些方法再不再返回 list 对象:dictionary 关联的 keys()、values()、items(),zip(),

map(),filter(),但是可以通过 list 强行转换:

1. mydict={"a":1,"b":2,"c":3}

2. mydict.keys() #built-in method keys of dict object at 0x000000000040B4C8

3. list(mydict.keys()) #['a', 'c', 'b']

8. 迭代器 iterator 的 next()函数被 Python3 废弃,统一使用 next(iterator)

9. raw_input 函数被 Python3 废弃,统一使用 input 函数

10. 字典变量的 has_key 函数被 Python 废弃,统一使用 in 关键词

11. file 函数被 Python3 废弃,统一使用 open 来处理文件,可以通过 io.IOBase 检查文件类型

12. apply 函数被 Python3 废弃

13. 异常 StandardError 被 Python3 废弃,统一使用 Exception

修改类差异

1. 浮点数除法操作符“/”和“//”的区别

“ / ”:

Python2:若为两个整形数进行运算,结果为整形,但若两个数中有一个为浮点数,则结果为

浮点数;

Python3:为真除法,运算结果不再根据参加运算的数的类型。

“//”:

Python2:返回小于除法运算结果的最大整数;从类型上讲,与"/"运算符返回类型逻辑一致。

Python3:和 Python2 运算结果一样。

2. 异常抛出和捕捉机制区别

Python2

1. raise IOError, "file error" #抛出异常

2. except NameError, err: #捕捉异常

Python3

1. raise IOError("file error") #抛出异常

2. except NameError as err: #捕捉异常

3. for 循环中变量值区别

Python2,for 循环会修改外部相同名称变量的值

1. i = 1

2. print ('comprehension: ', [i for i in range(5)])

3. print ('after: i =', i ) #i=4

Python3,for 循环不会修改外部相同名称变量的值

1. i = 1

2. print ('comprehension: ', [i for i in range(5)])

3. print ('after: i =', i ) #i=1

为什么python有两个不同的版本,并且语法规范什么的都不相通呢?

Python有两个不同的版本是因为Python语言在发展的过程中经历了一些重大的变化,这些变化导致了一些不兼容的问题。Python 2.x系列是早期版本,于2000年发布,而Python 3.x系列则是新版本,于2008年发布。这两个版本之间有很多不同之处,包括语言规范、标准库、性能和对Unicode的支持等方面。

Python 2.x和Python 3.x之间的主要区别在于对Unicode的支持。Python 2.x默认使用ASCII编码,需要使用特殊的unicode字符串来处理非ASCII字符。而Python 3.x则默认使用Unicode编码,这意味着可以直接处理任何字符,不需要特殊的字符串类型。

此外,Python 3.x还对语法规范进行了一些更改,例如print语句变为print函数,除法运算符/会返回浮点数而不是整数,等等。这些变化可能会导致Python 2.x的代码在Python 3.x中无法正常工作。

虽然Python 2.x目前已经停止维护,但是由于历史原因,一些项目仍在使用Python 2.x版本。为了避免代码不兼容的问题,Python 2.x和Python 3.x被认为是两个不同的语言。Python社区建议新项目使用Python 3.x版本。

(责任编辑:IT教学网)

更多

推荐Freehand教程文章