利用python 爬取豆瓣即将上映的电影
仅学习交流
Upcoming.py
import re
import requests
from doubanapi import findmovie
from bs4 import BeautifulSoup
url = "https://movie.douban.com/cinema/later/taian/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}
res = requests.get(url=url, headers=headers)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'lxml')
movies = []
for sp in soup.find_all('div',class_= re.compile('item mod.*')):weber = sp.div.h3.a.get('href')title = sp.div.h3.a.stringsp2 = sp.find_all('li')mtime = sp2[0].stringmtype = sp2[1].stringmlocat = sp2[2].stringmpeople = sp2[3].stringmid = re.sub("\D", "", weber)lits = findmovie(mid)dire = lits[0]actr = lits[1]content = lits[2]movie = {"标题":title,"时间":mtime,"类型":mtype,"地区":mlocat,"热度":mpeople,"导演":dire,"演员":actr,"简介":content,"详细信息":weber}print(movie)movies.append(movie)
print(movies)
doubanapi.py(调用api对电影信息进行补充)
import json
import requestsdef findmovie(urlid):baseurl = 'https://movie.querydata.org/api?id='url = baseurl + urlidres = requests.get(url)res.encoding = 'utf-8'lis = res.textlis = json.loads(lis)print(res.text) #测试content = lis['data'][0]['description']director = lis['director']actors = lis['actor']sumdire = ""sumact = ""for dire in director:sumdire += dire["data"][0]['name'] + " "for act in actors:sumact += act["data"][0]['name'] + " "sumer = {}sumer[0] = sumdiresumer[1] = sumactsumer[2] = contentreturn sumer
利用python 爬取豆瓣即将上映的电影相关推荐
- Python爬取豆瓣正在上映的电影
Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...
- 利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
- 爬取豆瓣正在上映的电影
爬取豆瓣正在上映的电影 1.目标 爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...
- python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
- 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看 在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式 此时点击NETWORK选项是 ...
- 利用python爬取豆瓣音乐_Python爬虫小白入门(七)爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接 使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比python自 ...
- 利用python爬取豆瓣音乐_Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析
节点的子节点,获取排名的代码为:li.span.text 绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href'] 蓝色框中是歌曲的名字.演唱者和播放次数,歌曲名是在cl ...
- python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库...
在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构 首先进入豆瓣电影Top250 ...
- 利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250
回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉 ...
最新文章
- 【Java】剑指 Offer II 022. 链表中环的入口节点
- MongoDB指定类型查询数据
- python爬虫背景_利用Python代码实现一键抠背景功能
- P1083 借教室(差分+二分)
- DebugView输出调试信息
- VC小技巧(网上搜的)
- 自然语言处理----词干提取器
- html打印强制分页
- Visio 直角连接线增加直角拐弯的方法, 取消自动附着,取消自动捕捉
- 金蝶EAS初始化操作手册之科目表
- Andorid 创建相册或文件夹
- Linux 服务大全详解
- 联想拯救者R720重装Win10系统的正确姿势
- 小米NFC手机 手环 复制加密IC门禁卡
- minecraft_适用于Linux的Minecraft故事模式,Alienware的Steam机器以及更多开放式游戏新闻
- 配置 Spring Batch 批处理失败重试机制
- 十折交叉验证pythoniris_python机器学习-交叉验证(cross-vaildation)
- C# 实现WinForm窗口最小化到系统托盘代码
- 在keras中使用gpu加速训练模型;安装cuda;cudnn;cudnn_cnn_infer64_8.dll 不在path中;device_lib.list_local_devices无gpu;挂掉
- 现代韦编三绝 新东方强浩老师自学新概念的故事
热门文章
- 信号 信号的注册 信号的发送 信号的阻塞
- meego linux 双系统,如何安装MeeGo和Windows 7双系统
- GBase 8a账号管理
- Alibaba Java Coding Guidelines安装使用教程
- 向这个病毒的编写者致以最高的敬礼!!!(是中国人必顶)
- Linux执行yum不显示时间图形,Linux命令yum
- S5PV210开发系列五 sd卡驱动实现
- 使用antV中的f2制作含百分比文字的环形图
- 基于多模态数据挖掘算法matlab,多模态生物数据分析与挖掘研究
- 使用Mybatis时由于粗心遇到Cause: java.sql.SQLException: sql injection violation异常