利用python爬取复仇者联盟3无限战争豆瓣短评

漫威粉丝，恰恰最近在学习python爬虫，于是就照着参考书目做了一个可以爬取豆瓣短评的爬虫，结果输出到txt文档，之后便可以进行词云分析，搞一些好玩的东西啦，话不多说，上代码。

import requests
from bs4 import BeautifulSoup

首先是两个需要用到的包，一个requests用于请求网页，一个beautiful soup用于解析网页，获取我们想要的内容。

def get_comments(url_comments):                                  #定义评论爬取函数

    headers ={("User-Agent":'Mozilla/5.0(Windows
;U;Windows NT 6.1;Win64;x64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'),
     'Host':'movie.douban.com'
    }                                             #定义爬虫请求头
    comments_list=[]                                 #定义存储评论的列表
    for i in range(0,10):link=url_comments+str(i*20)   #换页
        r=requests.get(link,headers= headers,timeout=20)print (str(1),"页响应状态码：",r.status_code)soup=BeautifulSoup(r.text,"lxml")                   #利用beautifulsoup进行页面解析
        div_list =soup.find_all('div',class_='comment')       #获取类型为comment标签为div后的文本
        for  each in div_list:comment=each.p.text.strip()comments_list.append(comment)return comments_list

然后就是定义了一个获取评论的函数，参数为需要获取短评的网页的链接（入门级代码，后续会完善到输入电影名称）

接下来就是调用了。

host_l=input('please paste the urls and ended at \'start=\'')      #输入短评链接
comments=get_comments(host_l)
with open('avengers_comments.txt',"a+",encoding='utf-8')  as f:              #输出到txt# 对txt及进行重新编码f.write(str(comments))f.close()
print("文件已写入")

注释都在文中，截至至2018年5月23日，这个代码都是没有问题的。

供和我一样初出茅庐的人学习参考。

以上便是复联3豆瓣短评爬下来的部分内容了。

完整代码如下：

import requests
from bs4 import BeautifulSoup
def get_comments(url_comments):                                  #定义评论爬取函数

    headers ={"User-Agent":'Mozilla/5.0(Windows;U;Windows NT 6.1;Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36',
     'Host':'movie.douban.com'
    }                                             #定义爬虫请求头
    comments_list=[]                                 #定义存储评论的列表
    for i in range(0,10):link=url_comments+str(i*20)   #换页
        r=requests.get(link,headers= headers,timeout=20)print (str(1),"页响应状态码：",r.status_code)soup=BeautifulSoup(r.text,"lxml")                   #利用beautifulsoup进行页面解析
        div_list =soup.find_all('div',class_='comment')       #获取类型为comment标签为div后的文本
        for  each in div_list:comment=each.p.text.strip()comments_list.append(comment)return comments_listhost_l=input('please paste the urls and ended at \'start=\'')      #输入短评链接
comments=get_comments(host_l)
with open('avengers_comments.txt',"a+",encoding='utf-8')  as f:              #输出到txt
    # 对txt及进行重新编码
    f.write(str(comments))f.close()
print("文件已写入")

感谢参考，欢迎交流学习。

利用python爬取复仇者联盟3无限战争豆瓣短评相关推荐

利用Python爬取《囧妈》豆瓣短评数据，并进行snownlp情感分析
利用Python爬取<囧妈>豆瓣短评数据,并进行snownlp情感分析一.电影评论爬取今年的贺岁片<囧妈>上映前后,在豆瓣评论上就有不少网友发表了自己的观点,到底是好评的声 ...
Python爬取唐人街探案3豆瓣短评并生成词云
爬取唐人街探案3短评过程要爬取的URL: https://movie.douban.com/subject/27619748/comments?start=20&limit=20&s ...
Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图
词云图: 爬取过程: 你好,李焕英短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&a ...
Python爬取你好李焕英豆瓣短评生成词云
爬取过程: 你好,李焕英短评的URL: https://movie.douban.com/subject/34841067/comments?start=20&limit=20&st ...
python 怎么爬桌软件数据_如何利用Python爬取并分析红岭创投的数据？
第一步:爬取数据通过 selenium + Firefox 的无头模式将需要的数据爬取出来,代码实现不在赘述,详细步骤可查看我的上一篇图文(如何利用Python爬取网易新闻), 由于 seleniu ...
python 翻译库本地库_利用python爬取并翻译GEO数据库
原标题:利用python爬取并翻译GEO数据库 GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这 ...
利用python爬取东方财富网股吧评论并进行情感分析（一）
利用python爬取东方财富网股吧评论(一) python-东方财富网贴吧文本数据爬取分享一下写论文时爬数据用到的代码,有什么问题或者改善的建议的话小伙伴们一起评论区讨论.涉及内容在前人的研究基础之 ...
python爬取股票信息_利用Python爬取网易上证所有股票数据（代码
利用Python爬取网易上证所有股票数据(代码发布时间:2018-04-14 17:30, 浏览次数:1261 , 标签: Python import urllib.request import r ...
利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

利用python爬取复仇者联盟3无限战争豆瓣短评

利用python爬取复仇者联盟3无限战争豆瓣短评相关推荐

最新文章

热门文章