python爬虫--爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下:
以便于不会被网站反爬虫拒绝。
1 import requests 2 from bs4 import BeautifulSoup 5 def get_movies(): 6 headers = { 7 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36', 8 'Host': 'movie.douban.com' 9 } 10 movie_list = [] #定义序列 11 for i in range(0, 10): 12 link = 'https://movie.douban.com/top250?start=' + str(i * 25) #通过循环,下载第二页,第三页 13 r = requests.get(link, headers=headers, timeout=10) #timeout=10,响应时长 14 print(str(i + 1), "页响应状态码:", r.status_code) #显示状态码,返回200,请求成功 15 16 soup = BeautifulSoup(r.text, "lxml") 17 div_list = soup.find_all('div', class_='hd') #如下图显示,电影名字在div标签之后 18 for each in div_list: 19 movie = each.a.span.text.strip() #span后的文本 20 movie_list.append(movie) #append(movie),在movie_list中添加movie序列21 return movie_list 24 movies = get_movies() 25 print(movies)
转载于:https://www.cnblogs.com/leon507/p/7614345.html
python爬虫--爬取豆瓣top250电影名相关推荐
- python爬虫爬取豆瓣top250电影影评
信息系统课程项目,小组准备做一个电影推荐系统,自己选了觉得很有趣的资源模块,需要获取电影的评价资源等信息.花了大约一周看Web Scraping with Python这本书,对爬虫有了大体但是初略的 ...
- python爬虫——爬取豆瓣TOP250电影
相信很多朋友在看一部电影的时候喜欢先去豆瓣找一下网友对该片的评价.豆瓣作为国内最权威的电影评分网站,虽然有不少水军和精日精美分子,但是TOP250的电影还是不错的,值得一看. 爬取目标 本文将爬取豆瓣 ...
- Python爬虫爬取豆瓣TOP250和网易云歌单
python爬虫(网易云)笔记 @(python学习) 先推荐看一下b站的视频链接如下:https://www.bilibili.com/video/BV12E411A7ZQ?from=search& ...
- task1 - 爬取豆瓣Top250电影名
豆瓣Top250电影名怎么爬 参考博文:https://www.cnblogs.com/leon507/p/7614345.html 怎么实现 因为没有系统学习过,所以只能做搬运工.看了几篇有关爬取豆 ...
- python爬虫——爬取豆瓣热门电影海报生成html文件
环境 webbrowser urllib requests v2.21.0 实现功能 过程 1.查看豆瓣热门电影模块源码: 看到其所在class为list-wp,我们想通过urllib里面的reque ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
- Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录 爬虫爬取豆瓣Top250 完整代码 第一步获取整个网页并以html来解析 正则表达式来匹配关键词 所有信息写入列表中 存入Excel中 效果如图 本文学习自B站UP ...
最新文章
- android 过滤格式,android Intent.setType() 过滤图片,返回所有的文件类型
- android热更新插件,与Android热更新方案Amigo的再次接触
- tornado数据库迁移
- [ARC073C] Ball Coloring(贪心)
- 机器学习算法(7)——K近邻(KNN)、K-means、模糊c-均值聚类、DBSCAN与层次与谱聚类算法
- Tomcat Caused by java lang OutOfMemoryError PermGen space
- java基础的正则表达式
- KITTI Odometry数据集处理:将全局pose转换为帧间pose转换
- unity将指定UI图片置为灰色
- 电路原理02 电阻、独立源、受控源
- 自我提升的10个好习惯
- 能力素质有所欠缺_表达能力至关重要
- 盒须图(Boxplot)
- eclipse安装SVN三种方法
- 如何在Java中将汉字转成汉语拼音
- 5、注意力机制和Transformer模型
- 【颜色】Web 颜色记录
- 董事长,总经理,总裁,CEO
- RoboMaster机甲大师——视觉组——计算平台的选型与感想(主流几款)
- 我观察14年才发现,那些很努力却没成就的人都有一个特点
热门文章
- C#foreach循环的优点
- ssh备份linux系统,远程自动备份 rsync+ssh+sshpass
- 9.特殊矩阵的压缩存储
- [蓝桥杯]基础练习 回文数
- 2013年C++A:买不到的数目(互质数)
- 递归法:求n个元素的全排列
- bzoj 1115: [POI2009]石子游戏Kam(博弈)
- bzoj 1113: [Poi2008]海报PLA(栈)
- Visdom:Python可视化神器
- [转] 面向对象编程 - 类和实例