import requests
from lxml import etree# 将目标网站上的页面抓取下来
# headers  ->   url  -> requests   -> response
# response.text  返回的是一个经过解码后的字符串,是str(unicode)类型
# response.content 返回的是一个原生的字符串,就是从网页上抓取下来的,没有经过处理的字符串,是bytes类型
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36','Referer':'https://movie.douban.com/'
}url = 'https://movie.douban.com/cinema/nowplaying/nanjing/'
response = requests.get(url,headers=headers)
text = response.text# 将抓取下来的数据根据一定的规则进行提取
html = etree.HTML(text,parser=etree.HTMLParser())    # parser   html解析器
ul = html.xpath("//ul[@class='lists']")[0]    # 获取属性为lists的ul标签内容,因为正在上映和即将上映是一样的,所以取列表的第一个元素,即正在上映的ul
lis = ul.xpath("./li")    # 获取ul标签下的li标签(每部影片在一个li标签下面)
movies = []for li in lis:title = li.xpath("@data-title")[0]   # xpath返回的是一个列表    影片名字score = li.xpath("@data-score")[0]   # 影片评分release_time = li.xpath("@data-release")[0]  # 上映时间time = li.xpath("@data-duration")[0]    # 影片时长region = li.xpath("@data-region")[0]   # 制片国家地区director = li.xpath("@data-director")[0]  #导演actors = li.xpath("@data-actors")[0]   #主演category = li.xpath("@data-category")[0]    #上映类型image = li.xpath(".//img/@src")[0]   # 图片链接movie = {'title':title,'score':score,'release':release_time,'time':time,'region':region,'director':director,'actors':actors,'category':category,'image_link':image}movies.append(movie)for movie in movies:for value in movie.values():print(value + "||",end="")print()

爬取豆瓣正在上映的影片信息相关推荐

  1. 爬取豆瓣正在上映的电影

    爬取豆瓣正在上映的电影 1.目标 ​ 爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...

  2. python——利用正则表达式爬取豆瓣读书中的图书信息

    本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...

  3. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

  4. Python爬取豆瓣正在上映的电影

    Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...

  5. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

  6. 爬取豆瓣以及王者所有英雄信息实验报告(小生不才,记得点赞加关注)

    实验任务 准备工作 学习网络爬虫相关知识和Python编程语法 学习爬虫需要调用的模块用法 python爬虫练习实验 练习urllib.bs.re.xlwt库的调用(了解requests第三方库) 熟 ...

  7. 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

    首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看 在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式 此时点击NETWORK选项是 ...

  8. 爬取豆瓣电影TP250(文字信息+保存图片)

    思路: 1.豆瓣电影TOP250 url=https://movie.douban.com/top250 2.使用crawlspider获取250个电影详情页url 3.使用xpath解析数据:获取电 ...

  9. 【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息

    GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...

最新文章

  1. sm4 前后端 加密_这7个开源的Spring Boot前后端分离项目整理给你
  2. 人才招聘丨 清华大学精准医学研究院招聘启事
  3. linux 擦脚印工具,linux一步一脚印---rm命令
  4. 小机箱的评估,立人 vs Jobs机箱
  5. 第十届四川省大学生程序设计竞赛
  6. CT流程与CT图像的windowing操作(转载+整理)
  7. 牛客练习赛89——牛牛小数点(未解决)
  8. Springcloud整理
  9. Unity3D之NGUI基础6:UIButton按钮
  10. thinkphp vue后台管理系统模板_careyshop-admin 后台管理模板
  11. python裂缝检测_通过opencv-python检测裂缝
  12. 计算机网络共享服务器,办公室如何搭建共享服务器或文件共享服务器
  13. 自定义View之仿虾米音乐TabLayout
  14. uni-app【判断手机是否安装微信QQ】
  15. matplotlib 点线动画
  16. 2020年北京理工大学计算机学硕跨考上岸经验分享
  17. 游戏评论之——戴森球计划
  18. Ameya360代理 | 兆易创新发布GD32A503系列首款车规级MCU
  19. 独领风骚,卡兹特投影仪大热香港电子展
  20. ps -aux | grep 用法

热门文章

  1. mysql的左右连接 分页_Java 与 Mysql连接,并分页显示
  2. 用ip地址连接服务器无响应,DNS服务器无响应如何解决
  3. [单反一]尼克尔镜头参数解释
  4. 求助,关于用bitcoin core恢复wallet.dat钱包的问题
  5. 防火墙登录web页面(ensp)
  6. 关于myeclipse10.7破解的问题(破解不成功显示只有五天可用可激活)
  7. 多分类--dice acc计算
  8. win10 超级终端
  9. 视频号直播单月带货30万+,苹果竟成直播爆品
  10. Visual Studio 2017 设置语言以及下载语言包