仅学习交流

Upcoming.py

import re
import requests
from doubanapi import findmovie
from bs4 import BeautifulSoup
url = "https://movie.douban.com/cinema/later/taian/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}
res = requests.get(url=url, headers=headers)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'lxml')
movies = []
for sp in soup.find_all('div',class_= re.compile('item mod.*')):weber = sp.div.h3.a.get('href')title = sp.div.h3.a.stringsp2 = sp.find_all('li')mtime = sp2[0].stringmtype = sp2[1].stringmlocat = sp2[2].stringmpeople = sp2[3].stringmid = re.sub("\D", "", weber)lits = findmovie(mid)dire = lits[0]actr = lits[1]content = lits[2]movie = {"标题":title,"时间":mtime,"类型":mtype,"地区":mlocat,"热度":mpeople,"导演":dire,"演员":actr,"简介":content,"详细信息":weber}print(movie)movies.append(movie)
print(movies)

doubanapi.py(调用api对电影信息进行补充)

import json
import requestsdef findmovie(urlid):baseurl = 'https://movie.querydata.org/api?id='url = baseurl + urlidres = requests.get(url)res.encoding = 'utf-8'lis = res.textlis = json.loads(lis)print(res.text)        #测试content = lis['data'][0]['description']director = lis['director']actors = lis['actor']sumdire = ""sumact = ""for dire in director:sumdire += dire["data"][0]['name'] + " "for act in actors:sumact += act["data"][0]['name'] + " "sumer = {}sumer[0] = sumdiresumer[1] = sumactsumer[2] = contentreturn sumer

利用python 爬取豆瓣即将上映的电影相关推荐

  1. Python爬取豆瓣正在上映的电影

    Python爬取豆瓣正在上映的电影 #爬取豆瓣正在上映的电影 import requests from lxml import etree #1.将目标从网站上的页面抓取下来 headers = {' ...

  2. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  3. 爬取豆瓣正在上映的电影

    爬取豆瓣正在上映的电影 1.目标 ​ 爬取豆瓣上显示正在上映的电影的信息,包括电影名.评分.导演.主演等信息.将其保存在一个CSV文件中,可以使用Excel打开查看. 2.思路分析 1.获取网页的UR ...

  4. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

  5. 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

    首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看 在这里我们可以看到即将上映的电影不多呀,先试试这个吧- 右键检查,打开开发者模式 此时点击NETWORK选项是 ...

  6. 利用python爬取豆瓣音乐_Python爬虫小白入门(七)爬取豆瓣音乐top250

    抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接 使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比python自 ...

  7. 利用python爬取豆瓣音乐_Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

    节点的子节点,获取排名的代码为:li.span.text 绿色框中A节点中是歌曲的链接和图片链接,获取歌曲链接的代码为:li.a['href'] 蓝色框中是歌曲的名字.演唱者和播放次数,歌曲名是在cl ...

  8. python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库...

    在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构 首先进入豆瓣电影Top250 ...

  9. 利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250

    回家很久了,实在熬不住,想起来爬点数据玩一玩,之前自己笔记本是win7加ubuntu16.04双系统,本打算在ubuntu里写代码的,可是回到家ubuntu打开一直是紫屏,百度知乎方法用了也没解决,厉 ...

最新文章

  1. 【Java】剑指 Offer II 022. 链表中环的入口节点
  2. MongoDB指定类型查询数据
  3. python爬虫背景_利用Python代码实现一键抠背景功能
  4. P1083 借教室(差分+二分)
  5. DebugView输出调试信息
  6. VC小技巧(网上搜的)
  7. 自然语言处理----词干提取器
  8. html打印强制分页
  9. Visio 直角连接线增加直角拐弯的方法, 取消自动附着,取消自动捕捉
  10. 金蝶EAS初始化操作手册之科目表
  11. Andorid 创建相册或文件夹
  12. Linux 服务大全详解
  13. 联想拯救者R720重装Win10系统的正确姿势
  14. 小米NFC手机 手环 复制加密IC门禁卡
  15. minecraft_适用于Linux的Minecraft故事模式,Alienware的Steam机器以及更多开放式游戏新闻
  16. 配置 Spring Batch 批处理失败重试机制
  17. 十折交叉验证pythoniris_python机器学习-交叉验证(cross-vaildation)
  18. C# 实现WinForm窗口最小化到系统托盘代码
  19. 在keras中使用gpu加速训练模型;安装cuda;cudnn;cudnn_cnn_infer64_8.dll 不在path中;device_lib.list_local_devices无gpu;挂掉
  20. 现代韦编三绝 新东方强浩老师自学新概念的故事

热门文章

  1. 信号 信号的注册 信号的发送 信号的阻塞
  2. meego linux 双系统,如何安装MeeGo和Windows 7双系统
  3. GBase 8a账号管理
  4. Alibaba Java Coding Guidelines安装使用教程
  5. 向这个病毒的编写者致以最高的敬礼!!!(是中国人必顶)
  6. Linux执行yum不显示时间图形,Linux命令yum
  7. S5PV210开发系列五 sd卡驱动实现
  8. 使用antV中的f2制作含百分比文字的环形图
  9. 基于多模态数据挖掘算法matlab,多模态生物数据分析与挖掘研究
  10. 使用Mybatis时由于粗心遇到Cause: java.sql.SQLException: sql injection violation异常