年關(guān)到了，欠下的Python爬蟲(chóng)「亂碼」改完了嗎？！

來(lái)源：奇酷教育發(fā)表於：2019-01-17 10:46:53

現(xiàn)指的是指快過(guò)年了，Python爬取網(wǎng)站時(shí)，欠下的亂碼還沒有改完！

　　所謂年關(guān)，指農(nóng)曆年底。舊時(shí)欠租、負(fù)債的人在這時(shí)需要清償債務(wù)，過(guò)年像過(guò)關(guān)一樣，所以稱(chēng)為年關(guān)。

　　現(xiàn)指的是指快過(guò)年了，Python爬取網(wǎng)站時(shí)，欠下的亂碼還沒有改完！

　　一、亂碼問(wèn)題的出現(xiàn)

　　以爬取51job網(wǎng)站舉例，講講為何會(huì)出現(xiàn)“亂碼”問(wèn)題，如何解決它以及其背後的機(jī)制。

　　代碼示例：

　　顯示結(jié)果：

　　列印res.text時(shí)，發(fā)現(xiàn)了什麼？中文亂碼！！！不過(guò)發(fā)現(xiàn)，網(wǎng)頁(yè)的字符集類(lèi)型採用的gbk編碼格式。

　　我們知道Requests 會(huì)基於 HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè)。當(dāng)你訪(fǎng)問(wèn) r.text 之時(shí)，Requests 會(huì)使用其推測(cè)的文本編碼。你可以找出 Requests 使用了什麼編碼，並且能夠使用r.encoding 屬性來(lái)改變它。

　　接下來(lái)，我們一起通過(guò)resquests的一些用法，來(lái)看看Requests 會(huì)基於 HTTP 頭部對(duì)響應(yīng)的編碼方式。

　　輸(shū)出結(jié)果為：

　　可以發(fā)現(xiàn)Requests 推測(cè)的文本編碼（也就是網(wǎng)頁(yè)返回即爬取下來(lái)後的編碼轉(zhuǎn)換(huàn)）與源網(wǎng)頁(yè)編碼不一致，由此可知其正是導(dǎo )致亂碼原因。

　　二、亂碼背後的奧秘

　　當(dāng)源網(wǎng)頁(yè)編碼和爬取下來(lái)後的編碼轉(zhuǎn)換(huàn)不一致時(shí)，如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流，而我們抓取下後程序直接使用utf-8進(jìn)行編碼並輸(shū)出到存儲(chǔ)文件中，這必然會(huì)引起亂碼，即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)後程序直接使用處理編碼一致時(shí)，則不會(huì)出現(xiàn)亂碼，此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁(yè)無(wú)論何種編碼格式，都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。

　　注意：區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換(huàn)字符的編碼C-utf-8。

　　在此，我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)繫，大概如下：

　　最早的編碼是iso8859-1，和ascii編碼相似。但為了方便表示各種各樣的語言，逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬於單字節(jié)編碼，最多能表示的字符範圍是0-255，應(yīng)用於英文系列。很明顯，iso8859-1編碼表示的字符範圍很窄，無(wú)法表示中文字符。

　　年中國(guó)人民通過(guò)對(duì) ASCII 編碼的中文擴充改造，產(chǎn)生了 GB2312 編碼，可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了，包括繁體和各種字符，於是產(chǎn)生了 GBK 編碼，它包括了 GB2312 中的編碼，同時(shí)擴充了很多。中國(guó)又是個(gè)多民族國(guó)家，各個(gè)民族幾乎都有自己獨(dú)立的語言系統(tǒng)，為了表示那些字符，繼續(xù)把 GBK 編碼擴充為 GB18030 編碼。每個(gè)國(guó)家都像中國(guó)一樣，把自己的語言編碼，於是出現(xiàn)了各種各樣的編碼，如果你不安裝相應(yīng)的編碼，就無(wú)法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終於，有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ，這種編碼非常大，大到可以容納世界上任何一個(gè)文字和標(biāo)誌。所以只要電腦上有 UNICODE 這種編碼系統(tǒng)，無(wú)論是全球哪種文字，只需要保存文件的時(shí)候，保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸(shū)中，出現(xiàn)了兩(liǎng)個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16，分別每次傳輸(shū) 8個(gè)位和 16個(gè)位。於是就會(huì)有人產(chǎn)生疑問(wèn)，UTF-8 既然能保存那麼多文字、符號(hào)，為什麼國(guó)內(nèi)還有這麼多使用 GBK 等編碼的人？因為 UTF-8 等編碼體積比較大，佔電腦空間比較多，如果面向的使用人群絕大部分都是中國(guó)人，用 GBK 等編碼也可以。

　　也可以這樣來(lái)理解：字符串是由字符構(gòu )成，字符在計(jì)算機(jī)硬體中通過(guò)二進(jìn)位形式存儲(chǔ)，這種二進(jìn)位形式就是編碼。如果直接使用 “字符串??字符??二進(jìn)位表示（編碼）” ，會(huì)增加不同類(lèi)型編碼之間轉(zhuǎn)換(huàn)的複雜性。所以引入了一個(gè)抽象層，“字符串??字符??與存儲(chǔ)無(wú)關(guān)的表示??二進(jìn)位表示（編碼）” ，這樣，可以用一種與存儲(chǔ)無(wú)關(guān)的形式表示字符，不同的編碼之間轉(zhuǎn)換(huàn)時(shí)可以先轉(zhuǎn)換(huàn)到這個(gè)抽象層，然後再轉(zhuǎn)換(huàn)為其他編碼形式。在這裡，unicode 就是 “與存儲(chǔ)無(wú)關(guān)的表示”，utf—8 就是 “二進(jìn)位表示”。

　　三、亂碼的解決方法

　　根據(jù)原因來(lái)找解決方法，就非常簡(jiǎn)單了。

　　方法一：直接指定res.encoding

　　方法二：

　　通過(guò)res.apparent_encoding屬性指定

　　方法三：通過(guò)編碼、解碼的方式

　　輸(shū)出結(jié)果：

　　基本思路三步走：確定源網(wǎng)頁(yè)的編碼A---gbk、程序通過(guò)編碼B---ISO-8859-1對(duì)源網(wǎng)頁(yè)數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換(huàn)字符的編碼C-utf-8。至於為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢？網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)數(shù)據(jù)來(lái)源很多，不可能使用數(shù)據(jù)時(shí)，再轉(zhuǎn)化為其原始的數(shù)據(jù)，假使這樣做是很廢事的。所以一般的爬蟲(chóng)系統(tǒng)都要對(duì)抓取下來(lái)的結(jié)果進(jìn)行統(tǒng)一編碼，從而在使用時(shí)做到一致對(duì)外，方便使用。

　　比如如果我們想講網(wǎng)頁(yè)數(shù)據(jù)保存下來(lái)，則會(huì)將起轉(zhuǎn)為utf-8，代碼如下：

　　四、總結(jié)

　　關(guān)於網(wǎng)絡(luò)爬蟲(chóng)亂碼問(wèn)題，本文不僅給出了一個(gè)解決方案，還深入到其中的原理，由此問(wèn)題引申出很多有意思的問(wèn)題，如，utf-8、gbk、gb2312的編碼方式怎樣的？為什麼這樣轉(zhuǎn)化就可以解決問(wèn)題？

　　文章精選

　　圍觀(guān)

　　爬蟲(chóng)實(shí)戰丨高能預警！抖音小姐姐視頻集來(lái)了！

　　熱文

　　天Python訓(xùn)練營(yíng);乾貨+實(shí)戰萬(wàn)元禮包免費(fèi)領(lǐng)！

　　學(xué)習(xí)像闖關(guān)太難，戳原文底部人生三級(jí)跳

下一篇:黑客常用哪幾種程式語言_黑客都用Py 上一篇:編程享受一本降30分和保送北大清華

日韩亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

年關(guān)到了，欠下的Python爬蟲(chóng)「亂碼」改完了嗎？！

欄目導(dǎo )航

奇酷熱點(diǎn)

常見(jiàn)問(wèn)題

奇酷技術(shù)交流中心

相關(guān)文章

日韩 亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

年關(guān)到了，欠下的Python爬蟲(chóng)「亂碼」改完了嗎？！

欄目導(dǎo )航

奇酷熱點(diǎn)

常見(jiàn)問(wèn)題

奇酷技術(shù)交流中心

相關(guān)文章

日韩亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

年關(guān)到了，欠下的Python爬蟲(chóng)「亂碼」改完了嗎？！