获取至少两个页面的豆瓣影评,包括每一条影评的标题、评论,然后将多条影评信息存入CSV文件。

具体代码如下:

#doubanyingping.py
import requests
from bs4 import BeautifulSoup
import re
def getHTMLText(url):kv={'cookie':'viewed="26987890"; bid=LtZlXs-lxWE; __gads=ID=2f05664627755103-228fcabf2eca0085:T=1625664681:RT=1625664681:S=ALNI_MbErnNq9E-gQKSusKFmubZ33JrR1A; gr_user_id=23ab9cd5-12ea-402d-af1f-f82384037c1a; douban-fav-remind=1; ll="108291"; dbcl2="220543507:+d6RaThYFJg"; push_noty_num=0; push_doumail_num=0; _vwo_uuid_v2=D2BBDC590CDF4A6D94F22488FC0507F3C|f20d9349bb838c0ffda7ad25fbd40373; __utmz=30149280.1631793610.4.3.utmcsr=link.csdn.net|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmz=223695111.1631793610.2.2.utmcsr=link.csdn.net|utmccn=(referral)|utmcmd=referral|utmcct=/; ck=re1Y; __utma=30149280.516384608.1625664683.1632279401.1632391188.7; __utmb=30149280.0.10.1632391188; __utmc=30149280; __utma=223695111.1494505190.1631782526.1632279401.1632391188.5; __utmb=223695111.0.10.1632391188; __utmc=223695111; _pk_ref.100001.4cf6=%5B%22%22%2C%22%22%2C1632391194%2C%22https%3A%2F%2Flink.csdn.net%2F%3Ftarget%3Dhttps%253A%252F%252Fmovie.douban.com%252Ftop250%253Fstart%253D0%2526filter%253D%22%5D; _pk_id.100001.4cf6=f45412f108713ba2.1631782532.5.1632391194.1632279427.; _pk_ses.100001.4cf6=*','user-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"}try:r = requests.get(url,headers=kv,timeout=30)r.raise_for_status()r.encoding = 'utf-8'return r.textexcept:return ""
def fillReviewList(rlist,html):soup = BeautifulSoup(html,"html.parser")for div in soup.find_all('div',{"class":"main-bd"}):rlist.append([div.find('a',{"href":re.compile("https:")}).text.strip("\n "),\div.find('div',{"class":"short-content"}).text.strip("影评可能有\剧透\n \xa0(展开)这篇剧评可能有剧透")])def main():rinfo=[]start_url='https://movie.douban.com/review/best/?start='for i in range(5):try:url = start_url+str(20*i)html = getHTMLText(url)fillReviewList(rinfo,html)except:continuefw=open("D:/rinfo3.csv","w",encoding='utf-8-sig')fw.write(",".join(["title","review"])+"\n")for r in rinfo:fw.write(','.join(r)+'\n')fw.close()
main()

运行截图如下:

python使用多线程进行爬豆瓣电影top250海报图片,附源码加运行结果_小赵同学的博客-CSDN博客

利用python爬虫程序爬取豆瓣影评相关推荐

  1. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  2. python爬虫爬取音乐_利用python爬虫实现爬取网易云音乐热歌榜

    利用python爬虫实现爬取网易云音乐热歌榜 发布时间:2020-11-09 16:12:28 来源:亿速云 阅读:102 作者:Leah 本篇文章给大家分享的是有关利用python爬虫实现爬取网易云 ...

  3. 第一次写爬虫程序爬取豆瓣5W条电影数据

    第一次写爬虫程序爬取豆瓣5W条电影数据 最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾.于是趁着最近不是很忙的机会,重新写 ...

  4. Python爬虫04-xpath爬取豆瓣韩剧数据

    xpath爬取豆瓣韩剧数据 需求:爬取豆瓣韩剧的标题.评分.评论以及详情页地址. 1.导入模块 import requests from lxml import etree import csv 2. ...

  5. python爬虫教程书籍-Python爬虫教程-爬取豆瓣读书

    豆瓣读书爬虫 Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书! 写在前面 通过豆瓣评分和评价人数等规则,可非常好的探索挖掘经典图书和隐藏好书,从中更高效地汲取书中智慧. 实现功能 1 可以爬 ...

  6. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  7. Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图

    目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import jsonfrom PIL import Image from pyque ...

  8. Python爬虫实例-爬取豆瓣电影Top250

    这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...

  9. python爬虫,爬取豆瓣电影《芳华》电影短评,分词生成云图。

    项目github地址:https://github.com/kocor01/spider_cloub/ Python版本为3.6 最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构 爬虫爬 ...

  10. 利用Python爬虫技术爬取京东商品评论

    这是我第一次接触python时,我们学校做的项目实训,其实整个项目实训过程很简单,并没有什么难度,认真学学就会. 首先,我们要明确我们的目标:从京东上爬取产品的评论.一般评论都是进行情感分析,但我还没 ...

最新文章

  1. 获取序列全排列Java,java中全排列的生成算法汇总
  2. Ubuntu下bpf纯c程序的编写与运行
  3. python爬虫百科-Python爬虫之requests库介绍(一)
  4. 爱情第五课,终极选择题
  5. Icarus Verilog与GTKWave简介及其下载安装
  6. RTMP流媒体播放过程:握手,建立连接,建立流,播放
  7. postfix搭建及配置
  8. React Native新手引导
  9. php正则匹配怎么写,正则表达式 - 求助怎么写php的正则匹配
  10. 用python的turtle画正方形内切圆_Python 用turtle实现用正方形画圆的例子
  11. 超有意思的代码注释_程序员搞笑的代码注释:谁的代码注释我都不服,就服你的...
  12. 家装计算器php,家装计算器
  13. 超过 40 款很有用而且很新的 jQuery 插件
  14. vue开发App商城实战项目
  15. Linux查看端口命令
  16. 深圳名校最新出炉 学校学区房房价飙升-查查吧深圳学区房地图
  17. SecKill——一款超级好用的抢单软件
  18. 致远互联蜂巢计划3.0:三维进化的协同创新生态
  19. 0基础不用怕,从0到1轻松教你入门Python
  20. Visualising Residuals

热门文章

  1. Redis源码之——跳表skiplist原理和源码调试
  2. Java Swing实现简易计算器
  3. 电磁学matlab仿真实验报告,利用MATLAB语言处理电磁学实验.doc
  4. BPC电波授时信号的“零成本”伪造
  5. sql vb xml 换行_VB中文本框换行--------急!!!
  6. 光载无线(RoF, Radio over Fiber)通信技术
  7. 都2022了,我为什么还要写博客?
  8. 有限元基础及ANSYS应用 - 第10节 - 实体结构的ANSYS分析
  9. 数据分析实战(三) 因子分析模型挖掘CSDN优质博主
  10. 大数据学长面试之华为面试题