java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取
目标
爬取当前时间段豆瓣电影中正在上映的电影的相关信息,如电影名、导演、演员表、上映时间、制作方等信息,然后再通过字典的方式,将其保存在本地文件当中,以便我们查询;
Code
#!/usr/bin/python3
# -*- coding:utf-8 -*-
# @Time : 2018-11-15 8:24
# @Author : Manu
# @Site :
# @File : doubanMovie.py
# @Software: PyCharm
import pprint
import requests
from lxml import etree
'''
爬取豆瓣电影上当前正在上映的电影信息,并保存到文件中
'''
HEADERS = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',
'Refer':'https://movie.douban.com/'
}
url = 'https://movie.douban.com/cinema/nowplaying/'
response = requests.get(url, headers=HEADERS)
print(response.text)
text = response.text
html = etree.HTML(text)
ul = html.xpath("//ul[@class='lists']")[0]
lis = ul.xpath('./li')
movies = []
for li in lis:
title = li.xpath('@data-title')[0]
score = li.xpath('@data-score')[0]
release = li.xpath('@data-release')[0]
duration = li.xpath('@data-duration')[0]
region = li.xpath('@data-region')[0]
director = li.xpath('@data-director')[0]
actors = li.xpath('@data-actors')[0]
thumbnail = li.xpath('.//img/@src')[0]
movie = {
'电影名':title,
'评分':score,
"上映时间":release,
'片长':duration,
'制片国家':region,
'导演':director,
'演员表':actors,
'海报':thumbnail
}
movies.append(movie)
pprint.pprint(movies)
with open('豆瓣正在上映.txt', 'w', encoding='utf-8') as movie_file:
for movie in movies:
movie_file.write('电影名:' + movie['电影名'] + '\n')
movie_file.write('评分:' + movie['评分'] + '\n')
movie_file.write('上映时间:' + movie['上映时间'] + '\n')
movie_file.write('片长:' + movie['片长'] + '\n')
movie_file.write('制片国家:' + movie['制片国家'] + '\n')
movie_file.write('导演:' + movie['导演'] + '\n')
movie_file.write('演员表:' + movie['演员表'] + '\n')
movie_file.write('海报:' + movie['海报'] + '\n')
movie_file.write('\n')
结果
java抓取豆瓣网页内容_爬虫实践--豆瓣电影当前上映电影信息爬取相关推荐
- python爬取空气质量指标_python爬虫之静态网页——全国空气质量指数(AQI)爬取
首先爬取地址:http://www.air-level.com/ 利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html Beautifu ...
- python爬图片代码大全_爬虫入门教程⑩— 用漂亮的图表展示爬取到的数据
经过了前面的努力,我们成功获取到了数据,并且学会了保存,但是只是用网页展示出来,是不是有一些不够美观呢? 所以本节的内容是:数据的可视化.拿到了数据却不能使其简单易懂并且足够突出,那就是不是好的数据工 ...
- python爬虫实践记录-基于requests访问翻译网页爬取结果
前言 目前主流的翻译网站反爬虫都挺严格的,某度有sign算法,谷歌自带技能冷却.... 查了一下发现一个反爬虫没用那么苛刻的翻译网站:译典通. 第一次听说这个网站,界面挺老,爬来的源代 ...
- Python爬虫--智联招聘职位和公司信息爬取
用scrapy框架进行爬取 目录结构: 1. items.py 文件 事先定义好我们要进行爬取的信息 # -*- coding: utf-8 -*-# Define here the models f ...
- 20201126时隔一年半更新 python爬虫小项目--飞常准航班信息爬取variflight(下)
时隔一年多,再更新飞常准的信息抓取,看了下其实就是和去年的没有太多变更的地方.打开首页.发现页面变了 入口在哪里了?之前首页有城市和航班信息入口,一开始怀疑是浏览器内存不支持加载一些脚本,更换了其他内 ...
- python爬取头条图集_Python爬虫基础练习(六) 今日头条街头篮球图片爬取
今天我们要爬取的仍然是图片,不过与上一篇有所不一样的是,今天爬取的是今日头条上的图集,接着往下看吧~ 运行平台:Windows Python版本:Python3.6 IDE: Sublime Text ...
- java爬虫抓取起点小说_爬虫实践-爬取起点中文网小说信息
qidian.py: import xlwt import requests from lxml import etree import time all_info_list = [] def get ...
- python爬取公众号阅读量_Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看数...
自从2013年,自媒体开始崛起.再到2014年,自媒体开始能够赚钱,自媒体逐渐成为这个时代的一个趋势性的潮流. 随着公众号平台的不断火爆,各个自媒体平台如春笋班拔地而起.自媒体的蓬勃发展,很大程度上重 ...
- python爬虫小项目--飞常准航班信息爬取variflight(上)
很久不更新博客,分享下最近一个小项目 飞常准 .飞常准是飞友科技旗下一个航班信息数据网络品牌.主要为用户提供航空相关数据.目前核心业务为航班动态和便宜机票搜索引擎.飞友科技旗下总有飞友网.飞常准.Va ...
- Python爬虫实战(四):微博博主信息爬取(粉丝数、关注数、博文数、信用等级、认证信息、个人简介……)
追风赶月莫停留,平芜尽处是春山. 文章目录 追风赶月莫停留,平芜尽处是春山. 好久没更新了,今天来更新一波. 一.网页分析 二.接口分析 url分析 返回数据分析 三.编写代码 获取数据 保存数据 完 ...
最新文章
- A.CPP (blur.CPP)如何调用B.CPP (zeros.cpp)中定义的方法
- 独家 | 精选近期机器学习GitHub项目及Reddit热门话题(附链接)
- python 中关于py2exe打包
- java invoker_Spring的HTTPInvoker
- Java GC如何判断对象是否为垃圾
- 四篇NeurIPS 2019论文,快手特效中的模型压缩了解一下
- LeetCode Algorithm 876. 链表的中间结点
- java springboot+maven发送邮件
- Auto packing the repository in background for optimum performance.
- .gitignore文件_Django项目.gitignore文件建议忽略文件清单及是否需要忽略数据库迁移文件...
- mybatis使用经验
- 快速H.264编码算法的研究及实现
- BPF BTF 详细介绍
- 数字藏品:传承优秀传统文化的新载体
- 加油,我看好你 本题由擂主Wfox提供 -flag{bc57380e-9f8d-4b1e-8432-794b54b5625f}
- win7电脑提升开机速度方法
- 如何阻止华为杀应用_如何解决华为手机“杀后台”严重的情况呢?小技巧就能轻松搞定...
- C语言输出各种类型数据的方式
- [转载]Android性能优化来龙去脉总结
- Android电视开机进入AV,康佳电视如何设置开机成AV模式-康佳开机直接进电视
热门文章
- 三角网格(Triangle Mesh)
- 计算机网络课程设计(ftp)
- 小程序引入阿里云图标
- linux常用网络命令大全
- Windows Server 2008 R2 学习笔记——VMware Workstation中服务器(Windows Server 2008 R2)与客户机(Windows 7)的安装
- Java设计模式:简单工厂模式(附实例代码)每天一学设计模式
- Foxit PDF Editor(福昕阅读器)中插入新的PDF空白页方法
- 风云再续:他抖任他抖,IO诊断在我手
- python 拼音排序_Python实现针对中文排序的方法
- 20个免费和高质量的Android图标集—最佳