日韩 亚洲一区二_久久vs国产综合色大全_国产精品福利在线_欧美在线一级A片免费观看欧美在线_女同性毛片60分钟

您現(xiàn)在所在的位置:首頁(yè) >關(guān)於奇酷 > 行業(yè)動(dòng)態(tài) > 《戰狼Ⅱ》破50億 Python爬蟲(chóng)抓取獲取12萬(wàn)條影評(píng)分析看它在說(shuō)

《戰狼Ⅱ》破50億 Python爬蟲(chóng)抓取獲取12萬(wàn)條影評(píng)分析看它在說(shuō)

來(lái)源:奇酷教育 發(fā)表於:

《戰狼Ⅱ》破50億了,你還不知道它在說(shuō)啥?本文通過(guò)Python爬蟲(chóng)抓取獲取12萬(wàn)條影評(píng)分析,告訴你《戰狼Ⅱ》用什麼撩到了你。

  《戰狼Ⅱ》破50億了,你還不知道它在說(shuō)啥?本文通過(guò)Python爬蟲(chóng)抓取獲取12萬(wàn)條影評(píng)分析,告訴你《戰狼Ⅱ》用什麼撩到了你。
 
  先上一張炸裂的海報(bào)。
  數(shù)據(jù)的獲取
 
  對(duì)於數(shù)據(jù)的獲取,本文採用的是Python爬蟲(chóng)的方式獲取的數(shù)據(jù)。用到的主要是requests包與正則包re。該程序並未對(duì)驗(yàn)證碼進(jìn)行處理。
 
  之前也爬取過(guò)豆瓣的網(wǎng)頁(yè),當(dāng)時(shí)由於爬取的內(nèi)容少,所以並沒有遇到驗(yàn)證碼的事情。在寫(xiě)本文爬蟲(chóng)的時(shí)候,原以為也不會(huì)有驗(yàn)證碼,但是當(dāng)爬取到大概15000個(gè)評(píng)論的時(shí)候跳出來(lái)驗(yàn)證碼。然後我就想不就是十二萬(wàn)嗎?最多我也就是輸(shū)入大概十幾次驗(yàn)證碼,所以就沒有處理驗(yàn)證碼的事情。
 
  但是接下來(lái)的事情就有點(diǎn)坑到我了。爬取15000左右評(píng)論並輸(shū)入驗(yàn)證碼的時(shí)候,我以為會(huì)接下來(lái)爬取到30000左右,可是才爬了3000左右就不行了,還是要輸(shū)驗(yàn)證碼。然後就一直這樣,跌跌撞撞,有時(shí)候爬取好長(zhǎng)時(shí)間才需要驗(yàn)證碼,有時(shí)候則不是。不過(guò)最後還是把評(píng)論爬取下來(lái)了。
 
  爬取的內(nèi)容主要是:用戶(hù)名,是否看過(guò),評(píng)論的星星點(diǎn)數(shù),評(píng)論時(shí)間,認(rèn)為有用的人數(shù),評(píng)論內(nèi)容。參看下圖(用戶(hù)名已隱藏):
  這個(gè)是影評(píng)的起始頁(yè):豆瓣影評(píng)
 
  以下是Python爬蟲(chóng)的代碼
 

import requests

import re

import pandas as pd

url_first='https://movie.douban.com/subject/26363254/comments?start=0'

head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}

html=requests.get(url_first,headers=head,cookies=cookies)



cookies={'cookie':'你自己的cookie'}  #也就是找到你的帳號(hào)對(duì)應(yīng)的cookie



reg=re.compile(r'.*?.*?(.*?).*?(.*?).*?title="(.*?)">.*?title="(.*?)">.*?class=""> (.*?)\n',re.S)  #評(píng)論等內(nèi)容

while html.status_code==200:

    url_next='https://movie.douban.com/subject/26363254/comments'+re.findall(reg,html.text)[0]                             

    zhanlang=re.findall(ren,html.text)

    data=pd.DataFrame(zhanlang)

    data.to_csv('/home/wajuejiprince/文檔/zhanlang/zhanlangpinglun.csv', header=False,index=False,mode='a+') #寫(xiě)入csv文件,'a+'是追加模式

    data=[]

    zhanlang=[]

    html=requests.get(url_next,cookies=cookies,headers=head)