python 简单快速爬取豆瓣电影热播名单

网址：https://movie.douban.com/

爬取豆瓣电影热播名单，包括题目（litile）、时间（time）、国家（country）、导演（director）、作者（actors）、评分（score）。
爬取下来的内容如下所示：

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
import urllib.request
import pandas as pd

url = "https://movie.douban.com/"     #原始网址
r = urllib.request.Request(url)
response = urllib.request.urlopen(r)
data= response.read()          #返回的网页内容
data= data.decode('utf-8')     soup = BeautifulSoup(data,"html.parser")
data1=soup.find_all(name = "div",attrs = {"class":"screening-bd"})
data1=str(data1)      #转化为文本形式

建立一个新的文档，利于保存数据

f1=pd.DataFrame()

title=[]
a= re.findall(r'data-title=".*?"',data1)
len(title)
for i in a:temp=re.sub(r"data-title=","",i)title.append(temp)
f1['title']=title也可以简单的方法：a= re.findall(r'data-title=".*?"',data1)
f1['title']=a'''
"胡桃夹子和四个王国 The Nutcracker And The Four Realms"
"飓风奇劫 The Hurricane Heist"
"冰封侠：时空行者"
"铁血战士 The Predator"
"流浪猫鲍勃 A Street Cat Named Bob"
"滴答屋 The House with a Clock in its Walls"
"无双 無雙"
"嗝嗝老师 Hichki"
"昨日青空"
"阴阳眼之瞳灵公馆"
"雪怪大冒险 Smallfoot"
"找到你"
"黑暗迷宫"
"你美丽了我的人生"
"我的间谍前男友 The Spy Who Dumped Me"
"阿拉姜色"
"八仙"
"追鹰日记 Brothers of the Wind"
"暮光·巴黎 Lumière Amoureuse"
"功夫联盟"
"影"
"悲伤逆流成河"
"为你写诗"
"黑暗深处之惊魂夜"
'''

time=[]
a= re.findall(r'data-duration=".*?"',data)
for i in a:temp=re.sub(r"data-duration=","",i)time.append(temp)
f1['time']=time'''
"99分钟"
"103分钟"
"87分钟"
"106分钟(中国大陆)"
"103分钟"
"104分钟"
"130分钟"
"116分钟(中国大陆)"
"82分钟"
"85分钟"
"96分钟"
"102分钟"
"97分钟"
"90分钟"
"117分钟"
"109分钟"
"87分钟"
"97分钟"
"91分钟"
"102分钟"
"116分钟"
"104分钟"
"105分钟"
"90分钟"
'''

country=[]
a= re.findall(r'data-region=".*?"',data)
for i in a:temp=re.sub(r"data-region=","",i)country.append(temp)
f1['country']=country'''
"美国"
"美国"
"中国大陆"
"美国"
"英国"
"美国"
"中国大陆"
"印度"
"中国大陆"
"中国大陆"
"美国"
"中国大陆"
"中国大陆"
"中国大陆"
"美国"
"中国大陆"
"中国大陆"
"奥地利"
"法国"
"中国大陆"
"中国大陆"
"中国大陆"
"中国大陆"
"中国大陆"
'''

director=[]
a= re.findall(r'data-director=".*?"',data)
for i in a:temp=re.sub(r"data-director=","",i)director.append(temp)
f1['director']=director'''
"拉斯·霍尔斯道姆"
"罗伯·科恩"
"叶伟民"
"沙恩·布莱克"
"罗杰·斯波蒂斯伍德"
"伊莱·罗斯"
"庄文强"
"Siddharth"
"奚超"
"张明伟"
"凯瑞·柯克帕特里克"
"吕乐"
"温河"
"阎清秀"
"苏珊娜·福格尔"
"松太加"
"曹博"
"杰拉多·奥利瓦雷斯"
"万沥方"
"刘镇伟"
"张艺谋"
"落落"
"吴克群"
"玉素"
'''

actors=[]
a= re.findall(r'data-actors=".*?"',data)
for i in a:temp=re.sub(r"data-actors=","",i)print(temp)actors.append(temp)
f1['actors']=actors'''
"麦肯吉·弗依 / 摩根·弗里曼 / 凯拉·奈特莉"
"托比·凯贝尔 / 玛姬·格蕾斯 / 瑞恩·柯万腾"
"甄子丹 / 黄圣依 / 王宝强"
"波伊德·霍布鲁克 / 崔凡特·罗兹 / 雅各布·特伦布莱"
"卢克·崔德威 / 猫鲍勃 / 露塔·格德米纳斯"
"杰克·布莱克 / 凯特·布兰切特 / 欧文·瓦卡罗"
"周润发 / 郭富城 / 张静初"
"拉妮·玛克赫吉 / 内拉吉·卡比 / 萨钦"
"苏尚卿 / 王一博 / 段艺璇"
"苑琼丹 / 景岗山 / 文熙"
"查宁·塔图姆 / 詹姆斯·柯登 / 赞达亚"
"姚晨 / 马伊琍 / 袁文康"
"聂远 / 葛天 / 杜奕衡"
"玉米提 / 古丽米娜·麦麦提 / 金星"
"米拉·库尼斯 / 凯特·麦克金农 / 贾斯汀·塞洛克斯"
"容中尔甲 / 尼玛颂宋 / 赛却加"
""
"让·雷诺 / 曼纽尔·卡马科 / 托比亚斯·莫雷蒂"
"塞缪尔·默瑟 / 西里尔·迪雷尔 / 苏珊娜·罗尔特－巴利特"
"赵文卓 / 安志杰 / 陈国坤"
"邓超 / 孙俪 / 郑恺"
"赵英博 / 任敏 / 辛云来"
"吴克群 / 周依然 / 周键铭"
"林潇 / 葛凌芮 / 李劲峰"
'''

注意的是，到获取评分的时候，是两种不一样的类。所以采取<li class = "rating">作为范围选取评分。

score=[]
for i in soup.find_all(name = "li",attrs = {"class":"rating"}):temp = i.get_text().strip()print(temp)score.append(temp)
f1['score']=score'''
6.1
5.9
2.6
5.1
8.0
5.6
8.1
7.5
6.1
暂无评分
7.6
7.4
4.8
暂无评分
6.3
7.6
暂无评分
7.3
暂无评分
3.6
7.4
5.9
4.0
暂无评分
'''

最后打印f1，可得到结果。再保存excel文档。

承接python、R、sql、spss作业代写：数据分析、数据挖掘、数据爬虫、机器学习、模型代跑、算法优化

https://item.taobao.com/item.htm?spm=a2oq0.12575281.0.0.50111deb9xAUhJ&ft=t&id=634285173072

python 简单快速爬取豆瓣电影热播名单相关推荐

python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片，分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
摆脱剧荒！教你用 Python 一步步爬取豆瓣电影新榜单
本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路. 作者 | 周志鹏责编 | 郭芮旁友,暑假,已经过了一大半了. 这个遥远而炙热的名 ...
python爬虫，爬取豆瓣电影《芳华》电影短评，分词生成云图。
项目github地址:https://github.com/kocor01/spider_cloub/ Python版本为3.6 最近突然想玩玩云图,动手写了个简单的爬虫,搭建了简单的爬虫架构爬虫爬 ...
使用python3 爬取豆瓣电影热映和即将上映
使用python3爬取都摆即将上映和正在热映的电影,代码如下直接使用bs4获取页面,使用css 获取到对应的信息后,使用字符串拼接的方式,将正在热映和即将上映的信息拼接出来并写入到html页面中,在 ...
Python爬虫实例-爬取豆瓣电影Top250
这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...
简单团队-爬取豆瓣电影TOP250-需求分析
爬取[https://movie.douban.com/top250](https://movie.douban.com/top250 )页面内每部电影的详细信息(电影的排名,分数,名字,简介,导演, ...
【Python爬虫】爬取豆瓣电影Top 250
豆瓣电影 Top 250 导入第三方包 urllib模块介绍引入模块 import urllib.request,urllib.parse,urllib.error 获取一个get请求 respos ...
Python练习之爬取豆瓣电影TOP250
上代码: ''' 先爬豆瓣top250的电影,并放入一个表格中去. 思路: 先爬取最小共同父级标签<div>,然后针对每一个父级标签,提取里面的序号/电影名/评分/推荐语/链接. 然后将其 ...
爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

python 简单快速爬取豆瓣电影热播名单

python 简单快速爬取豆瓣电影热播名单相关推荐

最新文章

热门文章