python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250
#爬取 豆瓣电影Top250
#250个电影 ,分为10个页显示,1页有25个电影
import urllib.request
from bs4 import BeautifulSoup
url = "https://movie.douban.com/top250"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'}
#headers 要根据自己的网页抓取情况修改
targetPath = "storage path" #填写自己想要存储的地址
def saveText(f,text):
f.write(text)
#获取网页源码
def getData(url,headers):
req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
data = res.read()
return data
#解析网页
def praseHtml(f,url,headers):
currenturl = url
i = 1 #序号
#flag = True
while currenturl :
#解析当前页,获取想要的内容
html = getData(currenturl,headers)
soup = BeautifulSoup(html,'lxml')
moveList = soup.find('ol',attrs = {'class':'grid_view'})
for moveLi in moveList.find_all('li'):
detail = moveLi.find('p',attrs = {'class':'hd'})
moveName = detail.find('span',attrs = {'class':'title'})
saveText(f,str(i)+ moveName.getText()+'n')
i += 1
print(moveName.getText())
#下一页
nextpage = soup.find('span',attrs = {'class':'next'}).find('a')
#next = nextpage['href'] #这样写报错:NoneType object is not subscriptable
if nextpage:
currenturl = url + nextpage['href']
else :
currenturl = None
f = open(targetPath,"w")
praseHtml(f,url,headers)
python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250相关推荐
- python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析
/ 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...
- python爬取豆瓣电影top250_利用python爬取豆瓣电影Top250,并把数据放入MySQL数据库...
在学习了python基础后,一心想着快速入门爬虫,因为我就是为爬虫而学的python,所以就找了这个豆瓣电影来爬取.好了,废话不多说,进入正题 1.找到网页并分析网页结构 首先进入豆瓣电影Top250 ...
- python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
- python爬取公众号历史文章_pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)...
原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs) 大数据挖掘DT数据分析 公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...
- python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
- python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...
- 爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片
获取图片比获取文字更加复杂,获取文字在网页当中可以直接一次性的读取到文字:获取图片是获取图片的链接地址,然后通过链接地址下载到本地. 第一步:如何获取图片的链接地址 打开图片新闻的地址:https:/ ...
- Java爬虫采集电影,java的webmagic爬虫实现爬出某电影网的下载地址
事先说明不要用这技术,做一些违法的事情,网上玩爬虫的已经有还能多被抓了,此文就是为了学习webmagic 源码地址:https://github.com/smltq/spring-boot-demo/ ...
- python爬取多页_Python 爬虫 2 爬取多页网页
本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Re ...
最新文章
- Python itertools 实现全组合
- Hello World!!
- LeetCode Algorithm 22. 括号生成
- 当当年中庆典,力度超前,花120买300的硬核书
- Web Hacking 101 中文版 十一、SQL 注入
- LeetCode(509)——斐波那契数(JavaScript)
- L1L2 Regularization的原理
- Windows API一日一练(40)CreateRectRgn和CombineRgn函数
- 基于51单片机WiFi温湿度远程控制
- latex插入参考文献技巧
- 初中英语语法(018)-间接疑问句
- 2020年度“广东省守合同重信用企业”
- 关于使用梆梆加固后,适配android5.0系统与64位机型的问题
- [ 数据集 ] COCO 数据集介绍
- PYTHON实现机械臂运动检测
- Java8种Stream流相关操作——集合的筛选、归约、分组、聚合
- lv双肩包尺寸对照表_lv双肩包mini尺寸对照表
- 【HEOI2012】采花
- 尼日利亚4g频段_尼日利亚初创公司Tizeti在全国范围内推出4G LTE网络
- 一键安装nginx脚本
热门文章
- Linux学习总结(50)——grep查看打印匹配的下几行或前后几行使用总结
- 报Cannot find /usr/local/tomcat/bin/setclasspath.sh错误
- JS判断两个日期的差或者判断两个日期的大小
- VS发布 错误 未能将文件 复制到
- [xcode]instruments来检验你的app
- 当配置 DispatcherServlet拦截“/”,SpringMVC访问静态资源的三种方式
- C# Reflection
- Java_常遇问题(一)
- 笨方法学python - 04
- GB-T 16260.1-2006 软件工程 产品质量