Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

目录

输出结果

实现代码


输出结果

实现代码

# -*- coding: utf-8 -*-#Py之Crawler:利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评
import time
import requests
import csv
from bs4 import BeautifulSoup
head = 'https://movie.douban.com/subject/'
middle = '/comments?start='
zr_tail = '&limit=20&sort=new_score&status=P&percent_type='
names = []
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
}zr_urls = ['最热']
def createUrls(): for j in range(1, 34, 2): name = names[j]#print(name)for i in range(0, 100, 20):zr_urls.append(head + str(name) + middle + str(i) + zr_tail) #print(zr_urls)得到某个电影短评地址(默认最热排序),如https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=def readName(): with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:for i in f.readlines():i = i.strip('\n')names.append(i)#print(names)
readName()
createUrls()
get_comments(zr_urls)  #传入zr_urls

完整代码,后续一周内即将公布!

相关文章:Py之PIL:不一样的PS之利用PIL库的img.paste方法实现合成刘若英导演电影《后来的我们》海报设计

Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评相关推荐

  1. 爬虫练习(1)-- 爬取豆瓣最新电影

    准备工作 本次爬取的移动手机端的接口.我们可以使用 Google 浏览器自带的调试模式去做切换.可能会出现切换了手机模式,只是变成了一个手机浏览器的形式,不是真正的 移动端接口.一种解决方案是先切换为 ...

  2. Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

    Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内 目录 输出结果 设计思路 核心 ...

  3. Python爬虫笔记之用BeautifulSoup及requests库爬取

    这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享.点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:"https://alpha. ...

  4. 爬虫系列(1):极简爬虫——基于requests和re爬取安居客上海二手房价数据

    爬虫系列(1):极简爬虫--基于requests和re爬取安居客上海二手房价数据 入坑爬虫已经有一年多,一直想好好记录下从各位前辈和大佬处学到的技术,因此开了一个爬虫系列,想借此细致地介绍和演示其中的 ...

  5. Python中第三方库Requests库的高级用法详解

    Python中第三方库Requests库的高级用法详解 虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人实在感觉不好.它已经不适合现在的时代, ...

  6. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  7. 基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息

    基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息 注意:仅供学习交流,任何非法使用与作者无关! 目录 基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息 一.背景与取材 二. ...

  8. Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析

    爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: ...

  9. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

最新文章

  1. 某小公司 RESTful、共用接口、前后端分离、接口约定的实践
  2. python编写的程序大全_Python开发技术大全
  3. 原创 MySQL探秘(八):基于Redo Log和Undo Log的MySQL崩溃恢复流程(一致性)
  4. Spring Cloud--Honghu Cloud分布式微服务云系统—组件化
  5. 密钥文件登录服务器,密钥文件登录云服务器
  6. idea ssm框架 mysql_IDEA 2017 整合SSM框架(使用Maven创建工程)
  7. 【重难点】【Redis 01】为什么使用 Redis、Redis 的线程模型、Redis 的数据类型及其底层数据结构
  8. js图片轮播指示器箭头淡入淡出
  9. android 播放pdf文件格式,一个方法告诉你安卓手机如何打开PDF格式文件
  10. Get “https://github.com/electron-userland/electron-builder-binaries/releases/download/appimage-12.0.
  11. 桌面支持--skype登陆不上
  12. 降低PNG图片存储大小方法、图片压缩方法
  13. 去除网页腾讯 优酷 爱奇艺右上角logo水印
  14. 20145238-荆玉茗 《Java程序设计》第五次实验报告
  15. Window任务计划命令详解
  16. Mybatis中注解和xml可以同时使用吗?
  17. 【Codeforces Round #514 (Div. 2) D. Nature Reserve】 三分+推公式
  18. Android GreenDao3数据库升级,数据迁移
  19. Latex双栏格式下的摘要单栏+脚注设置
  20. word里怎么添加目录呢

热门文章

  1. 修改Ubuntu和XP双系统时的默认启动系统
  2. 你所不知道的ASP.NET Core MVC/WebApi基础系列(二)
  3. Latex学习(脚注)
  4. 世界读书日 阿里人是这样看书的?
  5. Android studio3.1卡顿严重
  6. 《Altium Designer 14电路设计与仿真从入门到精通》——1.4 Altium电路板总体设计流程...
  7. SimpleAdapter与listview,gridview的组合用法
  8. Dos批处理中符号作用大全
  9. 面试官问:上亿数据量下,Kafka是如何优化JVM GC问题的?
  10. Linux中查看日志文件的正确姿势,求你别tail走天下了!