网址:https://movie.douban.com/

爬取豆瓣电影热播名单,包括题目(litile)、时间(time)、国家(country)、导演(director)、作者(actors)、评分(score)。
爬取下来的内容如下所示:

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
import urllib.request
import pandas as pd
url = "https://movie.douban.com/"     #原始网址
r = urllib.request.Request(url)
response = urllib.request.urlopen(r)
data= response.read()          #返回的网页内容
data= data.decode('utf-8')     soup = BeautifulSoup(data,"html.parser")
data1=soup.find_all(name = "div",attrs = {"class":"screening-bd"})
data1=str(data1)      #转化为文本形式

建立一个新的文档,利于保存数据

f1=pd.DataFrame()
title=[]
a= re.findall(r'data-title=".*?"',data1)
len(title)
for i in a:temp=re.sub(r"data-title=","",i)title.append(temp)
f1['title']=title也可以简单的方法:a= re.findall(r'data-title=".*?"',data1)
f1['title']=a'''
"胡桃夹子和四个王国 The Nutcracker And The Four Realms"
"飓风奇劫 The Hurricane Heist"
"冰封侠:时空行者"
"铁血战士 The Predator"
"流浪猫鲍勃 A Street Cat Named Bob"
"滴答屋 The House with a Clock in its Walls"
"无双 無雙"
"嗝嗝老师 Hichki"
"昨日青空"
"阴阳眼之瞳灵公馆"
"雪怪大冒险 Smallfoot"
"找到你"
"黑暗迷宫"
"你美丽了我的人生"
"我的间谍前男友 The Spy Who Dumped Me"
"阿拉姜色"
"八仙"
"追鹰日记 Brothers of the Wind"
"暮光·巴黎 Lumière Amoureuse"
"功夫联盟"
"影"
"悲伤逆流成河"
"为你写诗"
"黑暗深处之惊魂夜"
'''
time=[]
a= re.findall(r'data-duration=".*?"',data)
for i in a:temp=re.sub(r"data-duration=","",i)time.append(temp)
f1['time']=time'''
"99分钟"
"103分钟"
"87分钟"
"106分钟(中国大陆)"
"103分钟"
"104分钟"
"130分钟"
"116分钟(中国大陆)"
"82分钟"
"85分钟"
"96分钟"
"102分钟"
"97分钟"
"90分钟"
"117分钟"
"109分钟"
"87分钟"
"97分钟"
"91分钟"
"102分钟"
"116分钟"
"104分钟"
"105分钟"
"90分钟"
'''
country=[]
a= re.findall(r'data-region=".*?"',data)
for i in a:temp=re.sub(r"data-region=","",i)country.append(temp)
f1['country']=country'''
"美国"
"美国"
"中国大陆"
"美国"
"英国"
"美国"
"中国大陆"
"印度"
"中国大陆"
"中国大陆"
"美国"
"中国大陆"
"中国大陆"
"中国大陆"
"美国"
"中国大陆"
"中国大陆"
"奥地利"
"法国"
"中国大陆"
"中国大陆"
"中国大陆"
"中国大陆"
"中国大陆"
'''
director=[]
a= re.findall(r'data-director=".*?"',data)
for i in a:temp=re.sub(r"data-director=","",i)director.append(temp)
f1['director']=director'''
"拉斯·霍尔斯道姆"
"罗伯·科恩"
"叶伟民"
"沙恩·布莱克"
"罗杰·斯波蒂斯伍德"
"伊莱·罗斯"
"庄文强"
"Siddharth"
"奚超"
"张明伟"
"凯瑞·柯克帕特里克"
"吕乐"
"温河"
"阎清秀"
"苏珊娜·福格尔"
"松太加"
"曹博"
"杰拉多·奥利瓦雷斯"
"万沥方"
"刘镇伟"
"张艺谋"
"落落"
"吴克群"
"玉素"
'''
actors=[]
a= re.findall(r'data-actors=".*?"',data)
for i in a:temp=re.sub(r"data-actors=","",i)print(temp)actors.append(temp)
f1['actors']=actors'''
"麦肯吉·弗依 / 摩根·弗里曼 / 凯拉·奈特莉"
"托比·凯贝尔 / 玛姬·格蕾斯 / 瑞恩·柯万腾"
"甄子丹 / 黄圣依 / 王宝强"
"波伊德·霍布鲁克 / 崔凡特·罗兹 / 雅各布·特伦布莱"
"卢克·崔德威 / 猫鲍勃 / 露塔·格德米纳斯"
"杰克·布莱克 / 凯特·布兰切特 / 欧文·瓦卡罗"
"周润发 / 郭富城 / 张静初"
"拉妮·玛克赫吉 / 内拉吉·卡比 / 萨钦"
"苏尚卿 / 王一博 / 段艺璇"
"苑琼丹 / 景岗山 / 文熙"
"查宁·塔图姆 / 詹姆斯·柯登 / 赞达亚"
"姚晨 / 马伊琍 / 袁文康"
"聂远 / 葛天 / 杜奕衡"
"玉米提 / 古丽米娜·麦麦提 / 金星"
"米拉·库尼斯 / 凯特·麦克金农 / 贾斯汀·塞洛克斯"
"容中尔甲 / 尼玛颂宋 / 赛却加"
""
"让·雷诺 / 曼纽尔·卡马科 / 托比亚斯·莫雷蒂"
"塞缪尔·默瑟 / 西里尔·迪雷尔 / 苏珊娜·罗尔特-巴利特"
"赵文卓 / 安志杰 / 陈国坤"
"邓超 / 孙俪 / 郑恺"
"赵英博 / 任敏 / 辛云来"
"吴克群 / 周依然 / 周键铭"
"林潇 / 葛凌芮 / 李劲峰"
'''

注意的是,到获取评分的时候,是两种不一样的类。所以采取<li class = "rating">作为范围选取评分。

score=[]
for i in soup.find_all(name = "li",attrs = {"class":"rating"}):temp = i.get_text().strip()print(temp)score.append(temp)
f1['score']=score'''
6.1
5.9
2.6
5.1
8.0
5.6
8.1
7.5
6.1
暂无评分
7.6
7.4
4.8
暂无评分
6.3
7.6
暂无评分
7.3
暂无评分
3.6
7.4
5.9
4.0
暂无评分
'''

最后打印f1,可得到结果。再保存excel文档。

承接python、R、sql、spss作业代写:数据分析、数据挖掘、数据爬虫、机器学习、模型代跑、算法优化

https://item.taobao.com/item.htm?spm=a2oq0.12575281.0.0.50111deb9xAUhJ&ft=t&id=634285173072

python 简单快速爬取豆瓣电影热播名单相关推荐

  1. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  2. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

  3. 摆脱剧荒!教你用 Python 一步步爬取豆瓣电影新榜单

    本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路. 作者 | 周志鹏 责编 | 郭   芮 旁友,暑假,已经过了一大半了. 这个遥远而炙热的名 ...

  4. python爬虫,爬取豆瓣电影《芳华》电影短评,分词生成云图。

    项目github地址:https://github.com/kocor01/spider_cloub/ Python版本为3.6 最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构 爬虫爬 ...

  5. 使用python3 爬取豆瓣电影热映和即将上映

    使用python3爬取都摆即将上映和正在热映的电影,代码如下 直接使用bs4获取页面,使用css 获取到对应的信息后,使用字符串拼接的方式,将正在热映和即将上映的信息拼接出来并写入到html页面中,在 ...

  6. Python爬虫实例-爬取豆瓣电影Top250

    这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...

  7. 简单团队-爬取豆瓣电影TOP250-需求分析

    爬取[https://movie.douban.com/top250](https://movie.douban.com/top250 )页面内每部电影的详细信息(电影的排名,分数,名字,简介,导演, ...

  8. 【Python爬虫】爬取豆瓣电影Top 250

    豆瓣电影 Top 250 导入第三方包 urllib模块介绍 引入模块 import urllib.request,urllib.parse,urllib.error 获取一个get请求 respos ...

  9. Python练习之爬取豆瓣电影TOP250

    上代码: ''' 先爬豆瓣top250的电影,并放入一个表格中去. 思路: 先爬取最小共同父级标签<div>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接. 然后将其 ...

  10. 爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

最新文章

  1. Lint found fatal errors while assembling a release target.
  2. Swift 中使用 SQLite——查询数据
  3. Java yield详解_Java 中的 yield 关键字
  4. 详解深度学习中的Normalization,不只是BN(2)
  5. c语言switch scanf语句,c语言switch语句 谢谢·!~!~
  6. 源代码可以从应用提取码_大规模下加速源代码分析
  7. exls导入数据库 php_建站程序推荐:开源免费的PHP在线模拟考试系统PHPEMS可商用...
  8. 面试与工作差距大,程序员从准备到拿Offer全攻略
  9. 找不到可安装的ISAM
  10. 泰勒公式在近似计算中的应用
  11. BZOJ2563: 阿狸和桃子的游戏 贪心
  12. Atitit work remote solu 远程办公解决方案 Atitit6 远程办公四件套 目录 1. Ati标准四件套 2 1.1. Gmail Google 日历和 2 1.2.
  13. 深度优先搜索 - 最短路径
  14. 【在线分享】考研数学思维导图+高数思维导图+汤家凤重点笔记+武忠祥重点笔记以及高数Xmind思维导图
  15. 博弈论模型——Part 2 Part 3
  16. 分享!手机浏览器一键跳转微信加好友的方法
  17. 解除宝塔面板强制绑定手机号教程
  18. 定期360评估系统优于年度绩效考核
  19. android 黑白屏问题
  20. Android音频子系统(十二)------抖音直播功耗问题解析

热门文章

  1. Google官方架构MVI
  2. 快递行业面单打印解决方案-快宝云打印
  3. python证件照换底色_python利用opencv实现证件照换底
  4. 使用Git的Kdiff3解决合并冲突 显示乱码的问题
  5. 巨佬就是巨佬,乔布斯 1973 年求职申请表,拍出22万美元高价!
  6. uint和int的区别
  7. POJ 1201 Intervals(差分约束)
  8. poj 3709 斜率优化
  9. C语言等级考试作业,等级考试C语言基础测试题
  10. matlab 向量的基本运算