完美世界有声小说,大主宰天蚕土豆小说,玄幻小说改编的电视剧

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

不想再被鄙視？那就看進(jìn)來！一文搞懂Python2字符編碼

程序員都自視清高，覺得自己是創(chuàng)造者，經(jīng)常鄙視不太懂技術(shù)的產(chǎn)品或者QA。可悲的是，程序員之間也相互鄙視，程序員的鄙視鏈流傳甚廣，作為一個(gè)Python程序員，自然最關(guān)心的是下面這幅圖啦

成都創(chuàng)新互聯(lián)是一家專業(yè)提供遂溪企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站制作、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為遂溪眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站制作公司優(yōu)惠進(jìn)行中。

我們項(xiàng)目組一值使用Python2.7，雖然我們也知道Python3的諸多好處，也曾經(jīng)蠢蠢欲動(dòng)過，但由于各種歷史原因，以及業(yè)務(wù)的壓力，我們只可能繼續(xù)使用Python2.7。更悲哀的是，我們組不是那么international，所以代碼中還是涉及到大量的中文，因此偶爾也會(huì)遇到亂碼以及UnicodeError，于是生活在了鄙視鏈的末端。

因此，本文的目標(biāo)是解釋清楚 python2.7 中unicode、str的編解碼關(guān)系，力求在鄙視鏈中前進(jìn)一步。

注意：本文實(shí)驗(yàn)主要基于win7，Python2.7；以及Linux ，Python2.7。除非特殊說明，所有的命令都是在終端中交互式輸入；如果沒有強(qiáng)調(diào)平臺(tái)，那么就是window上的結(jié)果。下面是一些默認(rèn)的環(huán)境信息（其重要性后文會(huì)介紹）

windows

 
 
 
 
  
  
  
  >>> import sys,locale   
  
  
  >>> sys.getdefaultencoding()   
  
  
  'ascii'   
  
  
  >>> locale.getdefaultlocale()   
  
  
  ('zh_CN', 'cp936')   
  
  
  >>> sys.stdin.encoding   
  
  
  'cp936'   
  
  
  >>> sys.stdout.encoding   
  
  
  'cp936'   
  
  
  >>> sys.getfilesystemencoding()   
  
  
  'mbcs'

注意，上面CP936是GBK的別名，在https://docs.python.org/2/library/codecs.html#standard-encodings 可以查看。

Linux

 
 
 
 
  
  
  
  >>> import sys,locale   
  
  
     
  
  
  >>> sys.getdefaultencoding()   
  
  
     
  
  
  'ascii'   
  
  
     
  
  
  >>> locale.getdefaultlocale()   
  
  
     
  
  
  ('zh_CN', 'UTF-8')   
  
  
     
  
  
  >>> sys.stdin.encoding   
  
  
     
  
  
  'UTF-8'   
  
  
     
  
  
  >>> sys.stdout.encoding   
  
  
     
  
  
  'UTF-8'   
  
  
     
  
  
  >>> sys.getfilesystemencoding()   
  
  
     
  
  
  'UTF-8'

從字符編碼說起

首先來說一說gbk gb2312 unicode utf-8這些術(shù)語，這些術(shù)語與語言無關(guān)。

計(jì)算機(jī)的世界只有0和1，因此任何字符（也就是實(shí)際的文字符號(hào)）也是由01串組成。計(jì)算機(jī)為了運(yùn)算方便，都是8個(gè)bit組成一個(gè)字節(jié)（Byte），字符表達(dá)的最小單位就是字節(jié)，即一個(gè)字符占用一個(gè)或者多個(gè)字節(jié)。字符編碼（character encoding）就是字集碼，編碼就是將字符集中的字符映射為一個(gè)唯一二進(jìn)制的過程。

計(jì)算機(jī)發(fā)源于美國(guó)，使用的是英文字母（字符），所有26個(gè)字母的大小寫加上數(shù)字0到10，加上符號(hào)和控制字符，總數(shù)也不多，用一個(gè)字節(jié)（8個(gè)bit）就能表示所有的字符，這就是ANSI的“Ascii”編碼（American Standard Code for Information Interchange，美國(guó)信息互換標(biāo)準(zhǔn)代碼）。比如，小寫字母‘a(chǎn)’的ascii 碼是01100001，換算成十進(jìn)制就是97，十六進(jìn)制就是0x61。計(jì)算機(jī)中，一般都是用十六進(jìn)制來描述字符編碼。

但是當(dāng)計(jì)算機(jī)傳到中國(guó)的時(shí)候，ASCII編碼就行不通了，漢字這么多，一個(gè)字節(jié)肯定表示不下啊，于是有了GB 2312（中國(guó)國(guó)家標(biāo)準(zhǔn)簡(jiǎn)體中文字符集）。GB2312使用兩個(gè)字節(jié)來對(duì)一個(gè)字符進(jìn)行編碼，其中前面的一個(gè)字節(jié)（稱之為高字節(jié)）從0xA1用到 0xF7，后面一個(gè)字節(jié)（低字節(jié)）從0xA1到0xFE，GB2312能表示幾千個(gè)漢字，而且與asill嗎也是兼容的。

但后來發(fā)現(xiàn)，GB2312還是不夠用，于是進(jìn)行擴(kuò)展，產(chǎn)生了GBK（即漢字內(nèi)碼擴(kuò)展規(guī)范）， GBK同Gb2312一樣，兩個(gè)字節(jié)表示一個(gè)字符，但區(qū)別在于，放寬了對(duì)低字節(jié)的要求，因此能表示的范圍擴(kuò)大到了20000多。后來，為了容納少數(shù)名族，以及其他漢字國(guó)家的文字，出現(xiàn)了GB13080。GB13080是兼容GBK與GB2312的，能容納更多的字符，與GBK與GB2312不同的是，GB18030采用單字節(jié)、雙字節(jié)和四字節(jié)三種方式對(duì)字符編碼

因此，就我們關(guān)心的漢字而言，三種編碼方式的表示范圍是：

GB18030 》 GBK 》 GB2312

即GBK是GB2312的超集，GB1803又是GBK的超集。后面也會(huì)看到，一個(gè)漢字可以用GBK表示，但不一定能被GB2312所表示

當(dāng)然，世界上還有更多的語言與文字，每種文字都有自己的一套編碼規(guī)則，這樣一旦跨國(guó)就會(huì)出現(xiàn)亂碼，亟待一個(gè)全球統(tǒng)一的解決辦法。這個(gè)時(shí)候ISO（國(guó)際標(biāo)準(zhǔn)化組織）出馬了，發(fā)明了”Universal Multiple-Octet Coded Character Set”，簡(jiǎn)稱 UCS, 俗稱 “unicode”。目標(biāo)很簡(jiǎn)單：廢了所有的地區(qū)性編碼方案，重新搞一個(gè)包括了地球上所有文化、所有字母和符號(hào) 的編碼！

unicode每種語言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼，以滿足跨語言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。unicode編碼一定以u(píng)開頭。

但是，unicode只是一個(gè)編碼規(guī)范，是所有字符對(duì)應(yīng)二進(jìn)制的集合，而不是具體的編碼規(guī)則。或者說，unicode是表現(xiàn)形式，而不是存儲(chǔ)形式，就是說沒用定義每個(gè)字符是如何以二進(jìn)制的形式存儲(chǔ)的。這個(gè)就跟GBK這些不一樣，GBK是表里如下，表現(xiàn)形式即存儲(chǔ)形式。

比如漢字“嚴(yán)”的unicode編碼是u4e25，對(duì)應(yīng)的二進(jìn)制是1001110 00100101，但是當(dāng)其經(jīng)過網(wǎng)絡(luò)傳輸或者文件存儲(chǔ)時(shí)，是沒法知道怎么解析這些二進(jìn)制的，容易和其他字節(jié)混在一起。那么怎么存儲(chǔ)unicode呢，于是出現(xiàn)了UTF（UCS Transfer Format），這個(gè)是具體的編碼規(guī)則，即UTF的表現(xiàn)形式與存儲(chǔ)格式是一樣的。

因此，可以說，GBK和UTF-8是同一個(gè)層面的東西，跟unicode是另一個(gè)層面的東西，unicode飄在空中，如果要落地，需要轉(zhuǎn)換成utf-8或者GBK。只不過，轉(zhuǎn)換成Utf-8，大家都能懂，更懂用，而轉(zhuǎn)換成GBK，只有中國(guó)人才看得懂

UTF也有不同的實(shí)現(xiàn)，如UTF-8， UTF-16，這里以UTF-8為例進(jìn)行講解（下面一小節(jié)引用了阮一峰的文章）。

unicode與utf-8

UTF-8***的一個(gè)特點(diǎn)，就是它是一種變長(zhǎng)的編碼方式。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào)，根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度。UTF-8的編碼規(guī)則很簡(jiǎn)單，只有二條：

1）對(duì)于單字節(jié)的符號(hào)，字節(jié)的***位設(shè)為0，后面7位為這個(gè)符號(hào)的unicode碼。因此對(duì)于英語字母，UTF-8編碼和ASCII碼是相同的。

2）對(duì)于n字節(jié)的符號(hào)（n>1），***個(gè)字節(jié)的前n位都設(shè)為1，第n+1位設(shè)為0，后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位，全部為這個(gè)符號(hào)的unicode碼。

下表總結(jié)了編碼規(guī)則，字母x表示可用編碼的位。

 
 
 
 
  
  
  
  Unicode符號(hào)范圍      |        UTF-8編碼方式   
  
  
  (十六進(jìn)制)           |        （二進(jìn)制）   
  
  
  ----------------------+---------------------------------------------   
  
  
  0000 0000-0000 007F | 0xxxxxxx   
  
  
  0000 0080-0000 07FF | 110xxxxx 10xxxxxx   
  
  
  0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx   
  
  
  0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以漢字“嚴(yán)”為例，演示如何實(shí)現(xiàn)UTF-8編碼。

已知“嚴(yán)”的unicode是4E25（100111000100101），根據(jù)上表，可以發(fā)現(xiàn)4E25處在第三行的范圍內(nèi)（0000 0800-0000 FFFF），因此“嚴(yán)”的UTF-8編碼需要三個(gè)字節(jié)，即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后，從“嚴(yán)”的***一個(gè)二進(jìn)制位開始，依次從后向前填入格式中的x，多出的位補(bǔ)0。這樣就得到了，“嚴(yán)”的UTF-8編碼是“11100100 10111000 10100101”，轉(zhuǎn)換成十六進(jìn)制就是E4B8A5。

當(dāng)編解碼遇上Python2.x

下面使用Python語言來驗(yàn)證上面的理論。在這一章節(jié)中，當(dāng)提到unicode，一般是指unicode type，即Python中的類型；也會(huì)提到unicode編碼、unicode函數(shù)，請(qǐng)大家注意區(qū)別。

另外，對(duì)于編碼，也有兩種意思。***個(gè)是名字，指的是字符的二進(jìn)制表示，如unicode編碼、gbk編碼。第二個(gè)是動(dòng)詞，指的是從字符到二進(jìn)制的映射過程。不過后文中，編碼作為動(dòng)詞，狹義理解為從unicode類型轉(zhuǎn)換成str類型的過程，解碼則是相反的過程。另外強(qiáng)調(diào)的是，unicode類型一定是unicode編碼，而str類型可能是gbk、ascii或者utf-8編碼。

unicode 與 str 區(qū)別

在python2.7中，有兩種“字符串”類型，分別是str 與 unicode，他們有同一個(gè)基類basestring。str是plain string，其實(shí)應(yīng)該稱之為字節(jié)串，因?yàn)槭敲恳粋€(gè)字節(jié)換一個(gè)單位長(zhǎng)度。而unicode就是unicode string，這才是真正的字符串，一個(gè)字符（可能多個(gè)字節(jié)）算一個(gè)單位長(zhǎng)度。

python2.7中，unicode類型需要在文本之間加u表示。

 
 
 
 
  
  
  
  >>> us = u'嚴(yán)'   
  
  
     
  
  
  >>> print type(us), len(us)   
  
  
     
  
  
   1   
  
  
     
  
  
  >>> s = '嚴(yán)'   
  
  
     
  
  
  >>> print type(s), len(s)   
  
  
     
  
  
   2   
  
  
     
  
  
  >>>

從上可以看到，***，us、s的類型是不一樣的；其二，同一個(gè)漢字，不同的類型其長(zhǎng)度也是不一樣的，對(duì)于unicode類型的實(shí)例，其長(zhǎng)度一定是字符的個(gè)數(shù)，而對(duì)于str類型的實(shí)例，其長(zhǎng)度是字符對(duì)應(yīng)的字節(jié)數(shù)目。這里強(qiáng)調(diào)一下，s（s = ‘嚴(yán)’）的長(zhǎng)度在不同的環(huán)境下是不一樣的！后文會(huì)解釋

__str__ __repr__的區(qū)別

這是python中兩個(gè)magic method，很容易讓新手迷糊，因?yàn)楹芏鄷r(shí)候，二者的實(shí)現(xiàn)是一樣的，但是這兩個(gè)函數(shù)是用在不同的地方

_str__，主要是用于展示，str(obj)或者print obj的時(shí)候調(diào)用，返回值一定是一個(gè)str 對(duì)象

__repr__，是被repr(obj)，或者在終端直接打obj的時(shí)候調(diào)用

 
 
 
 
  
  
  
  >>> us = u'嚴(yán)'   
  
  
     
  
  
  >>> us   
  
  
     
  
  
  u'\u4e25'   
  
  
     
  
  
  >>> print us   
  
  
     
  
  
  嚴(yán)

可以看到，不使用print返回的是一個(gè)更能反映對(duì)象本質(zhì)的結(jié)果，即us是一個(gè)unicode對(duì)象（最前面的u表示，以及unicode編碼是用的u），且“嚴(yán)”的unicode編碼確實(shí)是4E25。而print調(diào)用可us.__str__，等價(jià)于print str(us)，使得結(jié)果對(duì)用戶更友好。那么unicode.__str__是怎么轉(zhuǎn)換成str的呢，答案會(huì)在后面揭曉

unicode str utf-8關(guān)系

前面已經(jīng)提到，unicode只是編碼規(guī)范（只是字符與二進(jìn)制的映射集合），而utf-8是具體的編碼規(guī)則（不僅包含字符與二進(jìn)制的映射集合，而且映射后的二進(jìn)制是可以用于存儲(chǔ)和傳輸?shù)模?，即utf-8負(fù)責(zé)把unicode轉(zhuǎn)換成可存儲(chǔ)和傳輸?shù)亩M(jìn)制字符串即str類型，我們稱這個(gè)轉(zhuǎn)換過程為編碼。而從str類型到unicode類型的過程，我們稱之為解碼。

Python中使用decode()和encode()來進(jìn)行解碼和編碼，以u(píng)nicode類型作為中間類型。如下圖所示

　　decode　　　　 encode

str ---------> unicode --------->str

即str類型調(diào)用decode方法轉(zhuǎn)換成unicode類型，unicode類型調(diào)用encode方法轉(zhuǎn)換成str類型。for example

 
 
 
 
  
  
  
  >>> us = u'嚴(yán)'   
  
  
     
  
  
  >>> ss = us.encode('utf-8')   
  
  
     
  
  
  >>> ss   
  
  
     
  
  
  '\xe4\xb8\xa5'   
  
  
     
  
  
  >>> type(ss)   
  
  
     
  
  
     
  
  
     
  
  
  >>> ss.decode('utf-8') == us   
  
  
     
  
  
  True

從上可以看出encode與decode兩個(gè)函數(shù)的作用，也可以看出’嚴(yán)’的utf8編碼是E4B8A5。

就是說我們使用unicode.encode將unicode類型轉(zhuǎn)換成了str類型，在上面也提到unicode.__str__也是將unicode類型轉(zhuǎn)換成str類型。二者有什么卻比呢

unicode.encode 與 unicode.__str__的區(qū)別

首先看看文檔

 
 
 
 
  
  
  
  str.encode([encoding[, errors]])   
  
  
     
  
  
  　　Return an encoded version of the string. Default encoding is the current default string encoding.    
  
  
  　　   
  
  
     
  
  
  object.__str__(self)   
  
  
     
  
  
  　　Called by the str() built-in function and by the print statement to compute the “informal” string representation of an object.

注意：str.encode 這里的str是basestring，是str類型與unicode類型的基類

可以看到encode方法是有可選的參數(shù)：encoding 和 errors，在上面的例子中encoding即為utf-8；而__str__是沒有參數(shù)的，我們可以猜想，對(duì)于unicode類型，__str__函數(shù)一定也是使用了某種encoding來對(duì)unicode進(jìn)行編碼。

首先不禁要問，如果encode方法沒有帶入?yún)?shù)，是什么樣子的：

 
 
 
 
  
  
  
  >>> us.encode()   
  
  
     
  
  
  Traceback (most recent call last):   
  
  
     
  
  
  File "", line 1, in    
  
  
     
  
  
  UnicodeEncodeError: 'ascii' codec can't encode character u'\u4e25' in position 0: ordinal not in range(128)

不難看出，默認(rèn)使用的就是ascii碼來對(duì)unicode就行編碼，為什么是ascii碼，其實(shí)就是系統(tǒng)默認(rèn)編碼（sys.getdefaultencoding的返回值）。ascii碼顯然無法表示漢字，于是拋出了異常。而使用utf-8編碼的時(shí)候，由于utf能夠表示這個(gè)漢字，所以沒報(bào)錯(cuò)。

如果直接打印ss（us.encode(‘utf-8’)的返回值）會(huì)怎么樣

 
 
 
 
  
  
  
  >>> print ss   
  
  
     
  
  
  涓

結(jié)果略有些奇怪，us.__str__(即直接打印us）的結(jié)果不一樣，那么試試encoding = gbk呢？

 
 
 
 
  
  
  
  >>> print us.encode('gbk')   
  
  
     
  
  
  嚴(yán)

U got it! 事實(shí)上也是如此，python會(huì)采用終端默認(rèn)的編碼（用locale.getdefaultlocale()查看，windows是為gbk）將unicode編碼成str類型。

在Linux（終端編碼為utf-8），結(jié)果如下：

 
 
 
 
  
  
  
  >>> us= u'嚴(yán)'   
  
  
     
  
  
  >>> print us.encode('utf-8')   
  
  
     
  
  
  嚴(yán)   
  
  
     
  
  
  >>> print us.encode('gbk')   
  
  
     
  
  
  ??   
  
  
     
  
  
  >>> print us   
  
  
     
  
  
  嚴(yán)   
  
  
     
  
  
  >>>

注意上面的亂碼！

unicode gbk之間的轉(zhuǎn)換

在上上小節(jié)，介紹了unicode可以通過utf-8編碼（encoding = utf-8），轉(zhuǎn)換成utf-8表示的str，在上一節(jié)也可以看出unicode也可以通過gbk編碼（encoding=gbk），轉(zhuǎn)換成gbk表示的str。這里有點(diǎn)暈，留作***個(gè)問題，后面解釋

unicode與utf8之間的相互轉(zhuǎn)換可以計(jì)算得知，但unicode與gbk之間的相互轉(zhuǎn)換沒有計(jì)算公式，就只能靠查表了，就是說有一張映射表，有某一個(gè)漢字對(duì)應(yīng)的unicode表示與gbk表示的映射關(guān)系

 
 
 
 
  
  
  
  >> us = u'嚴(yán)'   
  
  
     
  
  
  >>> us   
  
  
     
  
  
  u'\u4e25'   
  
  
     
  
  
  >>> us.encode('gbk')   
  
  
     
  
  
  '\xd1\xcf'   
  
  
     
  
  
  >>> us.encode('gb2312')   
  
  
     
  
  
  '\xd1\xcf'   
  
  
     
  
  
  >>> us.encode('gb18030')   
  
  
     
  
  
  '\xd1\xcf'   
  
  
     
  
  
  >>> s = '嚴(yán)'   
  
  
     
  
  
  >>> s   
  
  
     
  
  
  '\xd1\xcf'   
  
  
     
  
  
  >>>

從上不難看出，嚴(yán)的unicdoe編碼是4e25，GBK編碼是d1cf，因此us通過gbk編碼就是d1cf。同樣也能看到，GB18030，GBK，GB2312是兼容的

為什么print us.encode(‘utf-8’)打印出“涓”

ss = us.encode(‘utf-8’)， ss是一個(gè)str類型，直接打印結(jié)果有點(diǎn)奇怪，一個(gè)“涓”字，那一個(gè)str類型的“涓”是哪些二進(jìn)制組成的呢

 
 
 
 
  
  
  
  >>> s = '涓'   
  
  
     
  
  
  >>> s   
  
  
     
  
  
  '\xe4\xb8'

可以看到，str類型的“涓”，其二進(jìn)制是E4B8，跟’嚴(yán)’的utf8編碼（E4B8A5）相差了一個(gè)A5，那么就是因?yàn)锳5顯示不出來，驗(yàn)證如下：

 
 
 
 
  
  
  
  >>> print '--%s--' % ss   
  
  
     
  
  
  --涓?-

因此，只是碰巧顯示了“涓”而已，事實(shí)上ss跟“”涓“”毫無關(guān)系

回答***個(gè)問題：str類型到底是什么

在上上小節(jié)，提到了utf-8編碼的str，與gbk編碼的str，感覺有點(diǎn)繞。我們知道，一個(gè)漢字‘嚴(yán)’，可存儲(chǔ)的編碼格式可以是gbk（’xd1xcf’），也可以是utf-8（’xe4xb8xa5’），那么當(dāng)我們?cè)诮K端敲入這個(gè)漢字的時(shí)候，是哪一種格式呢？取決于終端默認(rèn)編碼。

windows上（默認(rèn)終端編碼為gbk）：

 
 
 
 
  
  
  
  >>> s = '嚴(yán)'   
  
  
     
  
  
  >>> s   
  
  
     
  
  
  '\xd1\xcf'

Linux上（默認(rèn)終端編碼為utf-8）：

 
 
 
 
  
  
  
  >>> a = '嚴(yán)'   
  
  
     
  
  
  >>> a   
  
  
     
  
  
  '\xe4\xb8\xa5'

同樣一個(gè)漢字，同樣都是Python中的str類型，在不同的編碼格式下，其二進(jìn)制是不一樣的。因此，其長(zhǎng)度也是不一樣的，對(duì)于str類型，其長(zhǎng)度是對(duì)應(yīng)的字節(jié)長(zhǎng)度。

也能看出gbk編碼的字節(jié)長(zhǎng)度一般小于utf-8，這也是gbk繼續(xù)存在的一個(gè)原因。

這里，要強(qiáng)調(diào)一下，unicode的二進(jìn)制形式是與終端的編碼格式無關(guān)的！這個(gè)也不難理解。

unicode函數(shù)

str類型到unicode類型的轉(zhuǎn)換，出了上面提到的str.decode，還有一個(gè)unicode函數(shù)。兩個(gè)函數(shù)的簽名為：

 
 
 
 
  
  
  
  unicode(object[, encoding[, errors]])   
  
  
     
  
  
  Return the Unicode string version of object using one of the following modes:    
  
  
     
  
  
  str.decode([encoding[, errors]])   
  
  
     
  
  
  Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding.

二者參數(shù)相同，事實(shí)上二者是等價(jià)的，encoding的默認(rèn)值也是一樣的，都是sys.getdefaultencoding()的結(jié)果。for example：

 
 
 
 
  
  
  
  unicode(object[, encoding[, errors]])   
  
  
     
  
  
  Return the Unicode string version of object using one of the following modes:    
  
  
     
  
  
  str.decode([encoding[, errors]])   
  
  
     
  
  
  Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding.

***個(gè)UnicodeDecodeError，就是因?yàn)橄到y(tǒng)默認(rèn)的編碼是asill嗎；第二個(gè)UnicodeDecodeError，是因?yàn)?，s（str類型的實(shí)例）的編碼取決于終端默認(rèn)編碼（即windows下的gbk），為了能打印出來，也就必須用gbk編碼來表示這個(gè)str，因此只能查詢gbk與unicode的映射表將s轉(zhuǎn)換成unicode類型。

為啥調(diào)用sys.setdefaultencoding

在諸多Python代碼中，都會(huì)看到這么一段：

 
 
 
 
  
  
  
  import sys   
  
  
     
  
  
  reload(sys)   
  
  
     
  
  
  sys.setdefaultencoding('utf-8')

不難猜想，setdefaultencoding跟getdefaultencoding是配對(duì)的，為啥要將系統(tǒng)的默認(rèn)編碼設(shè)置成utf-8，其實(shí)就是解決str到unicode的轉(zhuǎn)換問題。

上一小節(jié)已經(jīng)提到過，使用unicode函數(shù)將str類型轉(zhuǎn)換成unicode類型時(shí)，要考慮兩個(gè)因素：***，str本身是什么編碼的；第二，如果沒有傳入encoding參數(shù)，默認(rèn)使用sys.getdefaultencoding。encoding參數(shù)必須與str本身的編碼對(duì)應(yīng)，否則就是UnicodeDecodeError。

寫python代碼的程序都知道，我們要在py文件***行寫上：

 
 
 
 
  
  
  
  # -*- coding: utf-8 -*-

這句話的作用在于，告訴編輯器，該文件里面的所有str都采用utf-8編碼，且存儲(chǔ)文件的時(shí)候也是使用utf-8格式。

然后文件中就會(huì)使用下面的這種代碼。

 
 
 
 
  
  
  
  s='中文'   
  
  
     
  
  
  us=unicode(s)

使用unicode強(qiáng)制轉(zhuǎn)換的時(shí)候，都不習(xí)慣帶參數(shù)，為了保證encoding參數(shù)必須與str本身的編碼一致，所以使用setdefaultencoding將系統(tǒng)默認(rèn)編碼設(shè)置為utf-8

亂碼與UnicodeError

下面介紹幾種常見的亂碼與異常UnicodeError，大多數(shù)亂碼或者異常的原因在前面已經(jīng)講過了，同時(shí)，對(duì)于一些亂碼，也試圖給出可行的解決辦法。

UnicodeError包括UnicodeDecodeError 與UnicodeEncodeError ，前者是decode也就是str轉(zhuǎn)unicode的時(shí)候出了異常，后者則是encode也就是unicode轉(zhuǎn)str的時(shí)候出了異常。

對(duì)于一個(gè)str，直接打印

例子就是上面反復(fù)提到的例子

 
 
 
 
  
  
  
  >>> ss = us.encode('utf-8')   
  
  
     
  
  
  >>> print ss   
  
  
     
  
  
  涓

如果一個(gè)str類型來自網(wǎng)絡(luò)或者文件讀取，***先按照對(duì)端encode的方式先decode成unicode，然后再輸出（輸出的時(shí)候會(huì)自動(dòng)轉(zhuǎn)換成期望終端支持的編碼格式的str）

編碼范圍無法包括的漢字

直接上例子

 
 
 
 
  
  
  
  >>> newus = u'囍'   
  
  
     
  
  
  >>> newus   
  
  
     
  
  
  u'\u56cd'   
  
  
     
  
  
  >>> newus.encode('gbk')   
  
  
     
  
  
  '\x87\xd6'   
  
  
     
  
  
  >>> newus.encode('gb2312')   
  
  
     
  
  
  Traceback (most recent call last):   
  
  
     
  
  
  File "", line 1, in    
  
  
     
  
  
  UnicodeEncodeError: 'gb2312' codec can't encode character u'\u56cd' in position 0: illegal multibyte sequence   
  
  
     
  
  
  >>>

可以看到，‘囍’字可以被gbk編碼，但是不能被gb2312編碼。

str轉(zhuǎn)unicode的時(shí)候

在上面講unicode函數(shù)的時(shí)候已經(jīng)舉過例子，會(huì)爆出UnicodeDecodeError 異常。

這個(gè)錯(cuò)誤比較的原因，更多來自str到unicode的默認(rèn)轉(zhuǎn)換，比如一個(gè)str與一個(gè)unicode相加的時(shí)候：

 
 
 
 
  
  
  
  >>> a = '嚴(yán)'   
  
  
     
  
  
  >>> b = u'嚴(yán)'   
  
  
     
  
  
  >>> c = a + b   
  
  
     
  
  
  Traceback (most recent call last):   
  
  
     
  
  
  File "", line 1, in    
  
  
     
  
  
  UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 0: ordinal not in range(128)

unicode 與 str相加，str會(huì)轉(zhuǎn)換為unicode,使用默認(rèn)的unicode(strobj, encoding = sys.getdefaultencoding())

看起來向unicode編碼的字符串

某些情況下，我們打印出一個(gè)str類型，看到結(jié)果是’\u4e25’，或者’u4e25’，對(duì)于這個(gè)字符串，是不是很眼熟，不錯(cuò)， ‘嚴(yán)‘的unicode編碼就是u’u4e25’。仔細(xì)一看，只是在引號(hào)前面多了一個(gè)u（表示是一個(gè)unicode類型）。那么當(dāng)我們看到一個(gè)’u4e25’的時(shí)候，怎么知道對(duì)應(yīng)的漢字是什么？對(duì)于已知的這種格式的str，自然可以手動(dòng)加一個(gè)u，然后在終端輸出，但是如果是一個(gè)變量，需要自動(dòng)轉(zhuǎn)換成unicode呢，這個(gè)時(shí)候就可以使用python-specific-encodings中的unicode_escape

 
 
 
 
  
  
  
  >>> s = '\u4e25'   
  
  
     
  
  
  >>> s   
  
  
     
  
  
  '\\u4e25'   
  
  
     
  
  
  >>> us = s.decode('unicode_escape')   
  
  
     
  
  
  >>> us   
  
  
     
  
  
  u'\u4e25'

十六進(jìn)制格式的字符串

有時(shí)候，也會(huì)看到類似這樣的str，’\xd1\xcf’，看起來也很熟悉，跟漢字“嚴(yán)”的gbk編碼’xd1xcf’很像，區(qū)別在于前者多了一個(gè)‘’，這樣就無法解釋成一個(gè)十六進(jìn)制了。解決辦法是python-specific-encodings中的string_escape

 
 
 
 
  
  
  
  >>> s='\\xd1\\xcf'   
  
  
     
  
  
  >>> s   
  
  
     
  
  
  '\\xd1\\xcf'   
  
  
     
  
  
  >>> print s   
  
  
     
  
  
  \xd1\xcf   
  
  
     
  
  
  >>> news = s.decode('string_escape')   
  
  
     
  
  
  >>> news   
  
  
     
  
  
  '\xd1\xcf'   
  
  
     
  
  
  >>> print news   
  
  
     
  
  
  嚴(yán)

給讀者的一個(gè)問題

在這里留下一個(gè)問題：

 
 
 
 
  
  
  
  u'嚴(yán)' == '嚴(yán)'

返回值是True 還是 False呢？當(dāng)然這里故意省去了上下文環(huán)境，不過明確的說，在不同的編碼環(huán)境下，答案是不一樣的，原因都在上文中！

總結(jié)與建議

不管怎么樣解釋，python2.x中的字符編碼還是一件讓人頭疼的事情，即使搞懂了，之后遇到了也可能忘記。對(duì)于這個(gè)問題，諸多建議如下：

***：使用python3，就不用再糾結(jié)str于unicode了；但是這個(gè)很難開發(fā)者說了算；

第二：不要使用中文，注釋什么的都用英文；理想很豐滿，現(xiàn)實(shí)很難，只是導(dǎo)致大量的拼音；

第三：對(duì)于中文字符串，不要用str表示，而是用unicode表示；現(xiàn)實(shí)中也不好實(shí)施，大家都不愿意多寫一個(gè)u

第四：只在傳輸，或者持久化的時(shí)候?qū)nicode進(jìn)行encode，相反的過程時(shí)decode

第五：對(duì)于網(wǎng)絡(luò)接口，約定好編解碼格式，強(qiáng)烈建議使用utf-8

第六：看到UnicodeXXXError不要慌，如果XXX是Encode，那么一定是unicode轉(zhuǎn)str的時(shí)候出了問題；如果是Decode，一定是str轉(zhuǎn)unicode的時(shí)候出了問題。

參考

python codecs
python-specific-encodings
字符編碼筆記：ASCII，Unicode 和 UTF-8
玩轉(zhuǎn)Python讓人討厭的編碼問題

標(biāo)題名稱：不想再被鄙視？那就看進(jìn)來！一文搞懂Python2字符編碼
網(wǎng)站鏈接：http://fisionsoft.com.cn/article/cciogjd.html

新聞中心

其他資訊