Python爬取豆瓣正在上映的电影

#爬取豆瓣正在上映的电影
import requests
from lxml import etree
#1、将目标从网站上的页面抓取下来
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36','Referer':'https://movie.douban.com/'
}
url = 'https://movie.douban.com/cinema/nowplaying/dalian/'
response = requests.get(url,headers=headers)
text = response.text
#2、将抓取下来的数据按一定的规则进行提取
movies = []
html = etree.HTML(text)
ul = html.xpath("//ul[@class='lists']")[1]
lis = ul.xpath("./li")
for li in lis:title = li.xpath("@data-title")[0]score = li.xpath("@data-score")[0]release = li.xpath("@data-release")[0]duration = li.xpath("@data-duration")[0]region = li.xpath("@data-region")[0]director = li.xpath("@data-director")[0]actors = li.xpath("@data-actors")[0]movie = {'title':title,'score': score,'release': release,'duration': duration,'region': region,'director': director,'actors': actors}movies.append(movie)print(movies)

Python爬取豆瓣正在上映的电影相关推荐

  1. 利用python 爬取豆瓣即将上映的电影

    仅学习交流 Upcoming.py import re import requests from doubanapi import findmovie from bs4 import Beautifu ...

  2. 爬取豆瓣正在上映的电影

    爬取豆瓣正在上映的电影 1.目标 ​ 爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...

  3. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  4. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  5. python实践 爬取豆瓣各个标签的电影 爬虫

    python实践 爬取豆瓣各个标签的电影 实践题目 爬取豆瓣电影中,华语.欧美.韩国.日本电影每个标签下按评价排序的全部电影,需要如下信息: (1)每个电影的电影名.导演.编剧.主演.类型.国家.上映 ...

  6. python 爬取豆瓣top100电影页面

    python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...

  7. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  8. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

  9. python爬取豆瓣排行榜电影(静态爬取)(二次爬取)

    目录 python爬取豆瓣排行榜电影(静态爬取) 获取网站url 获取网站headers get请求访问url BeautifulSoup解析网站 爬取html数据 完整代码 python爬取豆瓣排行 ...

最新文章

  1. 无引脚表贴元器件焊接
  2. MATLAB实战系列(二十七)-数据预处理-PCA主成分分析
  3. 计算机科学学什么语言,在计算机科学中,什么不是正式语言? [关闭]
  4. 【368天】跃迁之路——程序员高效学习方法论探索系列(实验阶段126-2018.02.08)...
  5. 【Qt】QModbusRequest类
  6. 在家做什么能让隔壁报警?| 今日最佳
  7. 我的学习生涯(Delphi篇) - 21
  8. (软件工程复习核心重点)第四章总体设计-第四节:描绘软件结构的图形工具
  9. 疑似荣耀X10 Max巨屏新机入网:5000mAh电池+22.5W快充
  10. Lnmp上安装Yaf学习(一)
  11. VS2010 php 插件配置
  12. erp系统是什么转型
  13. PPT要怎么做?需掌握的一些制作设计技巧
  14. (转)Q格式的转换问题与移位
  15. (前端)html与css css 18、清除浮动,溢出隐藏
  16. Windows10下安装VS2015和Caffe
  17. Soda Theme sublime 自定义编辑器主题
  18. dns被劫持怎么办,一文说清dns劫持与防御
  19. git / Git 内部原理揭秘
  20. 税收完税证明模板图片_税收完税证明模板下载_税收完税证明模板设计素材

热门文章

  1. 树莓派3B+带的泽奇USB电源达不到标称的电流
  2. java vcf文件 昵称怎么写_Annovar注释vcf-笔记
  3. HSL值,HSLA,文档流,盒子模型等问题。
  4. 113.实矩阵乘法运算
  5. vmnet0 子网ip和子网掩码_在局域网配置IP地址和子网掩码的介绍
  6. 河北对口计算机专科学校排名及分数线,高考志愿填报 2017-2018河北专科学校排名及分数线...
  7. html 打印 页码 链接,打印html时的页面,打印页码_html_开发99编程知识库
  8. 室内温湿度检测系统解决方案
  9. matlab clf vs close 关闭图形
  10. toggle rate与switch activity