模拟登陆豆瓣

第一次登陆需要验证码,之后的登陆可以隐去 “login(”username’,’password’)”,因为使用session保存了必要的登陆信息,代码如下:

import requests
try:import cookielib
except:import http.cookiejar as cookielib
import re
import time
import os.path
import json
from bs4 import BeautifulSoup
try:from PIL import Image
except:passfrom mywordCloud import save_jieba_result
from mywordCloud import draw_wordcloud
import threading
import codecs
# 构造 Request headers
agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
headers = {"Host": "www.douban.com","Referer": "https://www.douban.com/",'User-Agent': agent,
}#使用cookie登录信息
session=requests.session()
session.cookies=cookielib.LWPCookieJar(filename='cookies')try:session.cookies.load(ignore_discard=True)print('成功加载cookie')
except:print("cookie 未能加载")# 获取验证码
def get_captcha(url):#获取验证码print('获取验证码',url)captcha_url = urlr = session.get(captcha_url, headers=headers)print('test')with open('captcha.jpg', 'wb') as f:f.write(r.content)f.close()# 用pillow 的 Image 显示验证码# 如果没有安装 pillow 到源代码所在的目录去找到验证码然后手动输入try:im = Image.open('captcha.jpg')im.show()im.close()except:print(u'请到 %s 目录找到captcha.jpg 手动输入' % os.path.abspath('captcha.jpg'))captcha = input("please input the captcha\n>")return captchadef isLogin():#登录个人主页,查看是否登录成功url='https://www.douban.com/people/151607908/'login_code=session.get(url,headers=headers,allow_redirects=False).status_codeif login_code==200:return Trueelse:return Falsedef login(acount,secret):douban="https://www.douban.com/"htmlcha=session.get(douban,headers=headers).textpatterncha=r'id="captcha_image" src="(.*?)" alt="captcha"'httpcha=re.findall(patterncha,htmlcha)pattern2=r'type="hidden" name="captcha-id" value="(.*?)"'hidden_value=re.findall(pattern2,htmlcha)print(hidden_value)post_data = {"source": "index_nav",'form_email': acount,'form_password': secret}if len(httpcha)>0:print('验证码连接',httpcha)capcha=get_captcha(httpcha[0])post_data['captcha-solution']=capchapost_data['captcha-id']=hidden_value[0]print (post_data)post_url='https://www.douban.com/accounts/login'login_page=session.post(post_url,data=post_data,headers=headers)#保存cookiessession.cookies.save()if isLogin():print('登录成功')else:print('登录失败')def get_movie_sort():time.sleep(1)movie_url='https://movie.douban.com/chart'html=session.get(movie_url,headers=headers)soup=BeautifulSoup(html.text,'html.parser')result=soup.find_all('a',{'class':'nbg'})print(result)#爬取短评论
def get_comment(filename):  #filename为爬取得内容保存的文件begin=1comment_url = 'https://movie.douban.com/subject/11600078/comments'next_url='?start=20&limit=20&sort=new_score&status=P'headers2 = {"Host": "movie.douban.com","Referer": "https://www.douban.com/",'User-Agent': agent,'Connection': 'keep-alive',}f=open(filename,'w+',encoding='utf-8')while(True):time.sleep(6)html=session.get(url=comment_url+next_url,headers=headers2)soup=BeautifulSoup(html.text,'html.parser')#爬取当前页面的所有评论result=soup.find_all('div',{'class':'comment'}) #爬取得所有的短评pattern4 = r'<p class=""> (.*?)' \r'</p>'for item in result:s=str(item)count2=s.find('<p class="">')count3=s.find('</p>')s2=s[count2+12:count3]  #抽取字符串中的评论if 'class' not in s2:f.write(s2)#获取下一页的链接next_url=soup.find_all('div',{'id':'paginator'})pattern3=r'href="(.*?)">后页'if(len(next_url)==0):breaknext_url=re.findall(pattern3,str(next_url[0]))  #得到后页的链接if(len(next_url)==0): #如果没有后页的链接跳出循环breaknext_url=next_url[0]print('%d爬取下一页评论...'%begin)begin=begin+1#如果爬取了5次则多休息2秒if(begin%6==0):time.sleep(40)print('休息...')print(next_url)f.close()#多线程爬虫,爬取豆瓣影评
def thread_get_comment(filename):next_url = '?start=19&limit=20&sort=new_score&status=P'headers2 = {"Host": "movie.douban.com","Referer": "https://www.douban.com/",'User-Agent': agent,'Connection': 'keep-alive',}f = open(filename, 'w+', encoding='utf-8')comment_url = 'https://movie.douban.com/subject/26363254/comments'crawl_queue=[comment_url+next_url]crawl_queue.append('https://movie.douban.com/subject/26363254/comments?start=144&limit=20&sort=new_score&status=P')seen=set(crawl_queue)def process_queue():begin = 1while True:try:url=crawl_queue.pop()except  IndexError:breakelse:time.sleep(5)html = session.get(url=url,headers=headers2)soup = BeautifulSoup(html.text, 'html.parser')# 爬取当前页面的所有评论result = soup.find_all('div', {'class': 'comment'})  # 爬取得所有的短评pattern4 = r'<p class=""> (.*?)' \r'</p>'for item in result:s = str(item)count2 = s.find('<p class="">')count3 = s.find('</p>')s2 = s[count2 + 12:count3]  # 抽取字符串中的评论f.write(s2)# 获取下一页的链接next_url = soup.find_all('div', {'id': 'paginator'})pattern3 = r'href="(.*?)">后页'if (len(next_url) == 0):breaknext_url = re.findall(pattern3, str(next_url[0]))  # 得到后页的链接if (len(next_url) == 0):  # 如果没有后页的链接跳出循环breaknext_url = next_url[0]print('%d爬取下一页评论...' % begin)begin = begin + 1# 如果爬取了6次则多休息2秒if (begin % 6 == 0):print('休息...')time.sleep(30)print(next_url)if comment_url+next_url not in seen:seen.add(comment_url+next_url)crawl_queue.append(comment_url+next_url)threads=[]max_threads=5while threads or crawl_queue:for thread in threads:if not thread.is_alive():threads.remove(thread)while len(threads)< max_threads and crawl_queue:thread=threading.Thread(target=process_queue)print('--------下一个线程----------')thread.setDaemon(True) # set daemon so main thread can exit when receive ctrl + Cthread.start()threads.append(thread)time.sleep(2)f.close()if __name__=='__main__':if isLogin():print('您已经登录')else:print('xs')login('dsdz@qq.com','5sdfsd6')file_name='key3.txt'get_comment(file_name)        #单线程爬虫#thread_get_comment(file_name)  #多线程爬虫save_jieba_result(file_name)draw_wordcloud('pjl_jieba.txt')

爬取得评论保存在key3.txt 文本文件中:

生成图云

第一步需要:安装必要的python 库,其中需要的有 生成图云scipy 、wordcloud。python库的安装方法,可以参考笔者的博客安装第三方库。一切准备就绪之后,就可以使用jieba分词对得到的所有评论进行分词,分词时候就可以绘制图云。

其中主要的代码 mywordCloud.py

from scipy.misc import  imread
import codecs
from os import  path
import jieba
from wordcloud import WordCloud#暂时没有用到
def get_all_keywords(file_name):word_lists=[]  #关键词列表with codecs.open(file_name,'r',encoding='utf-8') as f:Lists=f.readlines()for li in Lists:cut_list=list(jieba.cut(li))for word in cut_list:word_lists.append(word)word_lists_set=set(word_lists)  #去除相同的元素sort_count=[]word_lists_set=list(word_lists_set)length=len(word_lists_set)print(u'共有%d个关键词'%length)k = 1for w in word_lists_set:sort_count.append(w + u':' + str(word_lists.count(w)) + u"次\n")print(u"%d---" % k + w + u":" + str(word_lists.count(w)) + u"次")k += 1with codecs.open('count_word.txt', 'w', encoding='utf-8') as f:f.writelines(sort_count)def save_jieba_result(file_name):#设置多线程切割#jieba.enable_parallel(4)dirs=path.join(path.dirname(__file__),file_name)print(dirs)with codecs.open(dirs,encoding='utf-8') as f:comment_text=f.read()cut_text=" ".join(jieba.cut(comment_text))with codecs.open('pjl_jieba.txt','w',encoding='utf-8') as f:f.write(cut_text)def draw_wordcloud(file_name):with codecs.open(file_name,encoding='utf-8') as f:comment_text=f.read()color_mask=imread('timg.jpg') #读取背景图片stopwords = ['png','douban','com','href','https','img','img3','class','source','icon','shire',u'有点',u'真的',u'觉得',u'还是',u'一个',u'就是', u'电影', u'你们', u'这么', u'不过', u'但是', u'什么', u'没有', u'这个', u'那个', u'大家', u'比较', u'看到', u'真是',u'除了', u'时候', u'已经', u'可以']font = r'C:\Windows\Fonts\simfang.ttf'cloud=WordCloud(font_path=font,background_color='white',max_words=20000,max_font_size=200,min_font_size=10,mask=color_mask,stopwords=stopwords)word_cloud=cloud.generate(comment_text)  #产生词云word_cloud.to_file('mycloud.jpg')

通过上面两个代码,就可以生成漂亮的图云,来预测观看《战狼2》这部电影的人主要评论的关键词:

附上笔者的github源代码地址:https://github.com/wu-yy/warWolf

爬取《战狼2》电影短评论,生成图云相关推荐

  1. python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...

    导语 在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给 ...

  2. Python爬取你好李焕英豆瓣短评生成词云

    爬取过程: 你好,李焕英 短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...

  3. 抓取网易云音乐歌曲热门评论生成词云(转)

    非原创作品,转载自:http://blog.csdn.net/marksinoberg/article/details/70809830 前言 网易云音乐一直是我向往的"神坛",听 ...

  4. Python 爬取B站视频信息 弹幕信息 生成词云统计

    本文介绍功能:实现爬取B站视频信息(用户输入关键词).爬取弹幕信息(支持自定义天数).生成词云图 完整代码地址:https://github.com/736755244/py_bilibili 一.数 ...

  5. Python单线程爬取QQ空间说说存入MySQL并生成词云(超详细讲解,踩坑经历)

    利用python爬取好友说说并分析 看了网上的许多博客,基本上都是一个样,基本的知识也没详细解释,我这次也想跟大家仔细分析一下,自己还是要有一定爬虫基础,本人技术有限,如果本文哪有错误或不够准确的地方 ...

  6. 爬取那种月饼最受欢迎,生成词云一目了然

    提交中秋节主题征文比赛: 今年的中秋又要到啦,诚邀亲爱的博主参与投稿,分享"程序员"视角下的中秋夜之美! 内容可以是: 程序员过中秋的正确方式:团圆.赏月.还是惨兮兮地加班? 互联 ...

  7. Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影《后来的我们》的插曲《再见》张震岳的几十万热评+词云:发现“再见”亦是再也不见

    Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影<后来的我们>的插曲<再见>张震岳的几十万热评+词云:发现"再见"亦是 ...

  8. Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

    代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...

  9. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  10. 怎么用python爬豆瓣_python爬虫16 | 你,快去试试用多进程的方式重新去爬取豆瓣上的电影...

    我们在之前的文章谈到了高效爬虫 在 python 中 多线程下的 GIL 锁会让多线程显得有点鸡肋 特别是在 CPU 密集型的代码下 多线程被 GIL 锁搞得效率不高 特别是对于多核的 CPU 来说 ...

最新文章

  1. iPhoneX-关于底部的那个一个横条的问题
  2. [建筑可视化]Evermotion-Archinteriors for UE4
  3. python中yield使用
  4. c语言编程统计单词的个数,使用c语言如何统计单词个数
  5. c++程序设计中的多态与虚函数知识点
  6. shell例题3-百度面试题
  7. Codeforces Round #564 (Div. 2) C. Nauuo and Cards
  8. androidpn的学习研究(一)androidpn-server服务端相关配置的常识
  9. 暗影之枪显示连接服务器失败,暗影之枪传奇进不去怎么办?游戏更新进不去问题详解[多图]...
  10. 剑指 Offer II 056 二叉搜索树中两个节点之和
  11. 雷神开机logo更改_笔记本电脑开机LOGO太丑?大神教你来更换
  12. 主编编辑器怎么把文章转成长图?
  13. 2017二本各大学计算机分数线,2017全国二本大学排名及分数线查询 (2017二本大学名单一览)...
  14. R语言使用grid包的unit函数将数据对象转化为有计量单位的数据(例如转化为毫米单位、长度单位mm)
  15. 基于C#的网站地图制作
  16. OC - @preperty的一些修饰词
  17. 大数据有哪些存储方式?
  18. 线性回归实战---Abalone鲍鱼年龄预测
  19. linux uart应用开发(ttyS*设备)
  20. 如何打开.pt文件?

热门文章

  1. HBase master,slaver web端口配置
  2. SAP ABAP内表OCCURS,WORK AREA等 语法对比!
  3. 水花兄弟又凑齐了(20220111 Week2-1)
  4. kafka auto.offset.reset latest earliest 详解
  5. 【思维导图训练2】--发散思维的秘诀
  6. 根据VendorId 和DeviceId 查看PCI设备的名称
  7. C_CAPM模型(上)
  8. 学习zencart模板制作
  9. 牛客网 - [牛客假日团队赛6]Mud Puddles(BFS)
  10. 秒懂设计模式之原型模式(Prototype Pattern)