爬虫学习--豆瓣top250
最近在学习爬虫技术,在网上找了一些资料,也找到了一些例子,但找到的例子是基于python2的所以就改成了python3的,而且加了一个将电影的评分也打印出来的语句,话不多说,上代码:
#!/usr/bin/python
# -*- coding: utf-8 -*- #
import requests,sys,re
from bs4 import BeautifulSoup#reload(sys)
#sys.setdefaultencoding('utf-8')
print('正在从豆瓣电影Top250抓取数据......')
pnames=[]
pscore=[]
for page in range(10):url='https://movie.douban.com/top250?start='+str((page-1)*25)print('---------------------------正在爬取第'+str(page+1)+'页......--------------------------------')html=requests.get(url)html.raise_for_status()try:soup=BeautifulSoup(html.text,'html.parser')soup=str(soup) # 利用正则表达式需要将网页文本转换成字符串title=re.compile(r'<span class="title">(.*)</span>')sco00=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')names=re.findall(title,soup)score=re.findall(sco00,soup)for name in names:if name.find('/')==-1: # 剔除英文名(英文名特征是含有'/')pnames.append(name)for core in score:pscore.append(core)except Exception as e:print(e)
print('爬取完毕!')for i in range(len(pscore)):print(pnames[i] + '\t' + pscore[i])
输出结果如图:
等等。。。。。
参考资料:
http://www.cnblogs.com/carpenterworm/p/6026274.html
爬虫学习--豆瓣top250相关推荐
- Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子
问题 本文是对<Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?> 一文的补充 我们以<追风少年>为例 用chrome的developer tool查看源 ...
- Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?
[CSDN 编者按]程序员刷豆瓣也要刷出技术感,本文爬取豆瓣 TOP250 告诉你这些书"热门"在哪里!案例分析之外,重在梳理编写爬虫的逻辑和链路关键点,手把手教你形成自己编写爬虫 ...
- 爬虫-关于豆瓣top250的数据可视化
目的:该文章的目的是对豆瓣TOP250网页的爬虫就行可视化分析. 明确目标,导入所需库 使用flask库建立网络框架 完成每个网页的内容 豆瓣电影评分top250:豆瓣电影 Top 250 (doub ...
- Python爬虫之豆瓣TOP250爬取
文章目录 1.分析网页 1.1为什么要分析网页 1.2如何分析网页 1.3打开编辑环境 1.4生成链接 2.请求网页 2.1导入包 2.2设置浏览器代理 2.3请求服务器 2.4请求服务器代码汇总 3 ...
- python——爬虫(豆瓣top250)
一.抓取豆瓣top250网页数据 import urllib.request as urlrequest from bs4 import BeautifulSouptop250_url = " ...
- Python爬虫实战----------豆瓣TOP250
*前段时间学习了一些浅显的爬虫知识,防止遗忘写个博客记录一下,如果能帮到其他人是更好的 本篇介绍一下如何一步一步实现使用python爬取豆瓣电影TOP250,博主是个小白,如果内容有误,请将宝贵的建议 ...
- python爬虫项目——豆瓣Top250
我们今天讲一个爬虫项目案例,实现对豆瓣电影top榜的爬取 .把爬取的数据存到我们电脑本地文件当中.通过这个项目可以让我们真正感受到爬虫的带给我们的乐趣.现在我来讲一下思路以及实现方法,因为豆瓣电影的这 ...
- 近期爬虫学习体会以及爬豆瓣Top250源码实战
近期爬虫学习体会以及爬豆瓣Top250源码实战 我是在B站https://www.bilibili.com/video/BV12E411A7ZQ?p=25里学习的,至今已经可以手写爬豆瓣Top250代 ...
- 爬虫(豆瓣电影Top250数据分析)学习笔记
学习了有关python爬虫的内容,也算有所收获,写下第一篇博客来对所学进行一个总结,也算督促自己进行主动研究学习的第一步. 主要内容: 首先总结一下学习的主要内容: 从豆瓣获取数据 建立SQLite数 ...
最新文章
- 编译原理练习题(第二章)
- 英文投稿成功接收的经验
- 详解python中的用法_详解python中*号的用法
- 欧拉回路和哈密尔顿回路
- uaa 授权_使用UAA OAuth2授权服务器–客户端和资源
- 【渝粤题库】陕西师范大学292391 金融机构管理 作业(专升本)
- ES6_解构赋值_note
- 二. python面向对象(内置方法and析构函数)
- XmlDocument,XDocument相互转换
- iOS的UILabel设置居上对齐,居中对齐,居下对齐
- jmeter展示内存cpu_Jmeter监控服务器-CPU,Memory,Disk,Network性能指标
- 微信小程序消息推送(java)
- 三维可视化常见的技术路线浅析
- 喜欢吃鱼的朋友一定要转哦
- ADP(自适应动态规划)-值迭代
- Python爬虫实战,QQ音乐爬取全部歌曲
- 聊聊如何度过寒冬(公司篇)
- 百度中的高级搜索功能
- Qt下QTableWidget 基本用法
- mysql三国人物库_一文带你使用neo4j生成三国人物社交关系图