python爬虫笔记_python简单爬虫笔记
python模拟游览器爬取相关页面
import urllib.request
url="https://blog.51cto.com/itstyle/2146899"
#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
fh=open("D:/5.html","wb")
fh.write(data)
fh.close()
python爬取新闻网站并将文章下载到本地
import urllib.request
import urllib.error
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
data2=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(data2)
for i in range(0,len(allurl)):
try:
print("第"+str(i+1)+"次爬取")
thisurl=allurl[i]
file="D:/pac/sinanews/"+str(i)+".html"
urllib.request.urlretrieve(thisurl,file)
print("-----成功-----")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
python爬取月光博客文章下载到本地
import re
import urllib.request
import urllib.error
data=urllib.request.urlopen("http://www.williamlong.info/").read()
pat='rel="bookmark">(.*?)'
pat_url='class="post-title">
data=data.decode("utf-8")
mydata=re.compile(pat).findall(data) #所有的博客文章名
allurl=re.compile(pat_url).findall(data) #所有的网址链接
for i in range(0,len(allurl)):
try:
print("正在生产第"+str(i+1)+"次文件")
thisurl=allurl[i]
file="E:/PAS/yueguang/"+mydata[i]+".html"
urllib.request.urlretrieve(thisurl,file)
print("生产成功")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
python爬虫笔记_python简单爬虫笔记相关推荐
- python绘制糖葫芦_python简单爬虫(一)
学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...
- tornado 获取html,python使用tornado实现简单爬虫
本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下 代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码 ...
- python 百度百科 爬虫_python简单爬虫
爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...
- python 爬虫框架_Python网络爬虫-scrapy框架的使用
1. Scrapy 1.1 Scrapy框架的安装 Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted .lxml和pyOpenSSL.在不同的平台环境下,它所依赖 ...
- python 爬虫论_Python网络爬虫(理论篇)
欢迎关注公众号:Python爬虫数据分析挖掘,回复[开源源码]免费获取更多开源项目源码 网络爬虫的组成 网络爬虫由控制节点,爬虫节点,资源库构成. 网络爬虫的控制节点和爬虫节点的结构关系 控制节点(爬 ...
- python与数据思维基础笔记_Python小课笔记--Python基础:数据和函数(二)
截图来自Python小课 文|仟樱雪 在Python小课-1-2节中,已经学习了基础模块--数据--数据类型(整数.字符串),以及基础模块--变量,基础模块--函数(input函数.print函数). ...
- python网络爬虫学习_python网络爬虫学习笔记
介绍: 网络爬虫的名字非常有意思,英文名称web spider. 真得非常形象.蜘蛛结网为了获取食物,而我们的爬虫程序,也是为了获取网络上的资源. 这篇blog是本人学习过程中的记录.学习过程中,使用 ...
- python最简单的爬取邮箱地址_python简单爬虫,抓取邮箱
最近,老师给了一个练习是,实现一个爬虫,就爬大概100个网页,匹配出邮箱. 于是,我花了几天时间,熟悉熟悉了python,就有了下面这个超级简单的爬虫程序.各种毛病...... 这里先说明一下,pyt ...
- python简单爬虫入门一_Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结 ...
- python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
最新文章
- Spring知识点总结-2
- git 上传代码到指定仓库_初次使用git上传代码到github远程仓库
- STL_Hash_map
- php xml expat,PHP Expat :XML的解析器
- QLattice:你不知道的新的机器学习模型
- 中级统计师基础知识中计算机,【2014年中级统计师《统计基础理论及相关知识》预习:计算机操作系统】- 环球网校...
- linux安装g++编译器_Ubuntu Desktop下配置Rosetta安装教程
- java中死锁_关于java中死锁的总结
- HTML5缓存和GPS定位
- 创建一个SQL测试数据库 - 消费者数据库
- jsapi微信扫一扫
- 从源代码中加载res / values / dimension.xml中的维度值
- 厉害了!3分钟搞定开发部署,这个霸榜的AI开源项目大公司都在用
- Java EE7和Maven工程入门(1)
- QT中双击mdiArea区域打开文件(监听双击事件)
- eval解析json字符串
- 详细指南!手把手教你上手Tableau软件!
- android 播放器架构,Android播放器框架设计系列-1
- python制作qq登录界面_使用Python编写一个QQ办公版的图形登录界面
- 前端学习系列——(九)理解什么是ID选择器的“唯一性”
热门文章
- winrar大全+压缩
- 关于document.cookie的使用javascript
- 扩展Spring-自定义Bean的作用域(Scope)
- 常见js表单验证方法(H5,layUI,amazeUI,vue)
- 【Shiro第七篇】SpringBoot + Shiro实现会话管理
- 这10个idea小技巧,让我的开发效率提升了10倍
- javascript滚动条响应鼠标滑轮的实现上下滚动事件
- Mysql创建存储过程,使用游标Cursor循环更新
- 20172304 2017-2018-2 《程序设计与数据结构》第五周学习总结
- Zookeeper使用案例