目标

爬取当前时间段豆瓣电影中正在上映的电影的相关信息,如电影名、导演、演员表、上映时间、制作方等信息,然后再通过字典的方式,将其保存在本地文件当中,以便我们查询;

Code

#!/usr/bin/python3

# -*- coding:utf-8 -*-

# @Time : 2018-11-15 8:24

# @Author : Manu

# @Site :

# @File : doubanMovie.py

# @Software: PyCharm

import pprint

import requests

from lxml import etree

'''

爬取豆瓣电影上当前正在上映的电影信息,并保存到文件中

'''

HEADERS = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '

'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',

'Refer':'https://movie.douban.com/'

}

url = 'https://movie.douban.com/cinema/nowplaying/'

response = requests.get(url, headers=HEADERS)

print(response.text)

text = response.text

html = etree.HTML(text)

ul = html.xpath("//ul[@class='lists']")[0]

lis = ul.xpath('./li')

movies = []

for li in lis:

title = li.xpath('@data-title')[0]

score = li.xpath('@data-score')[0]

release = li.xpath('@data-release')[0]

duration = li.xpath('@data-duration')[0]

region = li.xpath('@data-region')[0]

director = li.xpath('@data-director')[0]

actors = li.xpath('@data-actors')[0]

thumbnail = li.xpath('.//img/@src')[0]

movie = {

'电影名':title,

'评分':score,

"上映时间":release,

'片长':duration,

'制片国家':region,

'导演':director,

'演员表':actors,

'海报':thumbnail

}

movies.append(movie)

pprint.pprint(movies)

with open('豆瓣正在上映.txt', 'w', encoding='utf-8') as movie_file:

for movie in movies:

movie_file.write('电影名:' + movie['电影名'] + '\n')

movie_file.write('评分:' + movie['评分'] + '\n')

movie_file.write('上映时间:' + movie['上映时间'] + '\n')

movie_file.write('片长:' + movie['片长'] + '\n')

movie_file.write('制片国家:' + movie['制片国家'] + '\n')

movie_file.write('导演:' + movie['导演'] + '\n')

movie_file.write('演员表:' + movie['演员表'] + '\n')

movie_file.write('海报:' + movie['海报'] + '\n')

movie_file.write('\n')

结果

java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取相关推荐

  1. python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取

    首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...

  2. python爬图片代码大全_爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据

    经过了前面的努力,我们成功获取到了数据,并且学会了保存,但是只是用网页展示出来,是不是有一些不够美观呢? 所以本节的内容是:数据的可视化.拿到了数据却不能使其简单易懂并且足够突出,那就是不是好的数据工 ...

  3. python爬虫实践记录-基于requests访问翻译网页爬取结果

    前言 目前主流的翻译网站反爬虫都挺严格的,某度有sign算法,谷歌自带技能冷却.... 查了一下发现一个反爬虫没用那么苛刻的翻译网站:译典通.         第一次听说这个网站,界面挺老,爬来的源代 ...

  4. Python爬虫--智联招聘职位和公司信息爬取

    用scrapy框架进行爬取 目录结构: 1. items.py 文件 事先定义好我们要进行爬取的信息 # -*- coding: utf-8 -*-# Define here the models f ...

  5. 20201126时隔一年半更新 python爬虫小项目--飞常准航班信息爬取variflight(下)

    时隔一年多,再更新飞常准的信息抓取,看了下其实就是和去年的没有太多变更的地方.打开首页.发现页面变了 入口在哪里了?之前首页有城市和航班信息入口,一开始怀疑是浏览器内存不支持加载一些脚本,更换了其他内 ...

  6. python爬取头条图集_Python爬虫基础练习(六) 今日头条街头篮球图片爬取

    今天我们要爬取的仍然是图片,不过与上一篇有所不一样的是,今天爬取的是今日头条上的图集,接着往下看吧~ 运行平台:Windows Python版本:Python3.6 IDE: Sublime Text ...

  7. java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息

    qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...

  8. python爬取公众号阅读量_Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看数...

    自从2013年,自媒体开始崛起.再到2014年,自媒体开始能够赚钱,自媒体逐渐成为这个时代的一个趋势性的潮流. 随着公众号平台的不断火爆,各个自媒体平台如春笋班拔地而起.自媒体的蓬勃发展,很大程度上重 ...

  9. python爬虫小项目--飞常准航班信息爬取variflight(上)

    很久不更新博客,分享下最近一个小项目 飞常准 .飞常准是飞友科技旗下一个航班信息数据网络品牌.主要为用户提供航空相关数据.目前核心业务为航班动态和便宜机票搜索引擎.飞友科技旗下总有飞友网.飞常准.Va ...

  10. Python爬虫实战(四):微博博主信息爬取(粉丝数、关注数、博文数、信用等级、认证信息、个人简介……)

    追风赶月莫停留,平芜尽处是春山. 文章目录 追风赶月莫停留,平芜尽处是春山. 好久没更新了,今天来更新一波. 一.网页分析 二.接口分析 url分析 返回数据分析 三.编写代码 获取数据 保存数据 完 ...

最新文章

  1. A.CPP (blur.CPP)如何调用B.CPP (zeros.cpp)中定义的方法
  2. 独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接)
  3. python 中关于py2exe打包
  4. java invoker_Spring的HTTPInvoker
  5. Java GC如何判断对象是否为垃圾
  6. 四篇NeurIPS 2019论文,快手特效中的模型压缩了解一下
  7. LeetCode Algorithm 876. 链表的中间结点
  8. java springboot+maven发送邮件
  9. Auto packing the repository in background for optimum performance.
  10. .gitignore文件_Django项目.gitignore文件建议忽略文件清单及是否需要忽略数据库迁移文件...
  11. mybatis使用经验
  12. 快速H.264编码算法的研究及实现
  13. BPF BTF 详细介绍
  14. 数字藏品:传承优秀传统文化的新载体
  15. 加油,我看好你 本题由擂主Wfox提供 -flag{bc57380e-9f8d-4b1e-8432-794b54b5625f}
  16. win7电脑提升开机速度方法
  17. 如何阻止华为杀应用_如何解决华为手机“杀后台”严重的情况呢?小技巧就能轻松搞定...
  18. C语言输出各种类型数据的方式
  19. [转载]Android性能优化来龙去脉总结
  20. Android电视开机进入AV,康佳电视如何设置开机成AV模式-康佳开机直接进电视

热门文章

  1. 三角网格(Triangle Mesh)
  2. 计算机网络课程设计(ftp)
  3. 小程序引入阿里云图标
  4. linux常用网络命令大全
  5. Windows Server 2008 R2 学习笔记——VMware Workstation中服务器(Windows Server 2008 R2)与客户机(Windows 7)的安装
  6. Java设计模式:简单工厂模式(附实例代码)每天一学设计模式
  7. Foxit PDF Editor(福昕阅读器)中插入新的PDF空白页方法
  8. 风云再续:他抖任他抖,IO诊断在我手
  9. python 拼音排序_Python实现针对中文排序的方法
  10. 20个免费和高质量的Android图标集—最佳