python模拟游览器爬取相关页面

import urllib.request

url="https://blog.51cto.com/itstyle/2146899"

#模拟浏览器

headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

data=opener.open(url).read()

fh=open("D:/5.html","wb")

fh.write(data)

fh.close()

python爬取新闻网站并将文章下载到本地

import urllib.request

import urllib.error

import re

data=urllib.request.urlopen("http://news.sina.com.cn/").read()

data2=data.decode("utf-8","ignore")

pat='href="(http://news.sina.com.cn/.*?)">'

allurl=re.compile(pat).findall(data2)

for i in range(0,len(allurl)):

try:

print("第"+str(i+1)+"次爬取")

thisurl=allurl[i]

file="D:/pac/sinanews/"+str(i)+".html"

urllib.request.urlretrieve(thisurl,file)

print("-----成功-----")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

python爬取月光博客文章下载到本地

import re

import urllib.request

import urllib.error

data=urllib.request.urlopen("http://www.williamlong.info/").read()

pat='rel="bookmark">(.*?)'

pat_url='class="post-title">

data=data.decode("utf-8")

mydata=re.compile(pat).findall(data) #所有的博客文章名

allurl=re.compile(pat_url).findall(data) #所有的网址链接

for i in range(0,len(allurl)):

try:

print("正在生产第"+str(i+1)+"次文件")

thisurl=allurl[i]

file="E:/PAS/yueguang/"+mydata[i]+".html"

urllib.request.urlretrieve(thisurl,file)

print("生产成功")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

python爬虫笔记_python简单爬虫笔记相关推荐

  1. python绘制糖葫芦_python简单爬虫(一)

    学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...

  2. tornado 获取html,python使用tornado实现简单爬虫

    本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下 代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码 ...

  3. python 百度百科 爬虫_python简单爬虫

    爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...

  4. python 爬虫框架_Python网络爬虫-scrapy框架的使用

    1. Scrapy 1.1 Scrapy框架的安装 Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted .lxml和pyOpenSSL.在不同的平台环境下,它所依赖 ...

  5. python 爬虫论_Python网络爬虫(理论篇)

    欢迎关注公众号:Python爬虫数据分析挖掘,回复[开源源码]免费获取更多开源项目源码 网络爬虫的组成 网络爬虫由控制节点,爬虫节点,资源库构成. 网络爬虫的控制节点和爬虫节点的结构关系 控制节点(爬 ...

  6. python与数据思维基础笔记_Python小课笔记--Python基础:数据和函数(二)

    截图来自Python小课 文|仟樱雪 在Python小课-1-2节中,已经学习了基础模块--数据--数据类型(整数.字符串),以及基础模块--变量,基础模块--函数(input函数.print函数). ...

  7. python网络爬虫学习_python网络爬虫学习笔记

    介绍: 网络爬虫的名字非常有意思,英文名称web spider. 真得非常形象.蜘蛛结网为了获取食物,而我们的爬虫程序,也是为了获取网络上的资源. 这篇blog是本人学习过程中的记录.学习过程中,使用 ...

  8. python最简单的爬取邮箱地址_python简单爬虫,抓取邮箱

    最近,老师给了一个练习是,实现一个爬虫,就爬大概100个网页,匹配出邮箱. 于是,我花了几天时间,熟悉熟悉了python,就有了下面这个超级简单的爬虫程序.各种毛病...... 这里先说明一下,pyt ...

  9. python简单爬虫入门一_Python简单爬虫入门二

    接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结 ...

  10. python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页

    目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...

最新文章

  1. Spring知识点总结-2
  2. git 上传代码到指定仓库_初次使用git上传代码到github远程仓库
  3. STL_Hash_map
  4. php xml expat,PHP Expat :XML的解析器
  5. QLattice:你不知道的新的机器学习模型
  6. 中级统计师基础知识中计算机,【2014年中级统计师《统计基础理论及相关知识》预习:计算机操作系统】- 环球网校...
  7. linux安装g++编译器_Ubuntu Desktop下配置Rosetta安装教程
  8. java中死锁_关于java中死锁的总结
  9. HTML5缓存和GPS定位
  10. 创建一个SQL测试数据库 - 消费者数据库
  11. jsapi微信扫一扫
  12. 从源代码中加载res / values / dimension.xml中的维度值
  13. 厉害了!3分钟搞定开发部署,这个霸榜的AI开源项目大公司都在用
  14. Java EE7和Maven工程入门(1)
  15. QT中双击mdiArea区域打开文件(监听双击事件)
  16. eval解析json字符串
  17. 详细指南!手把手教你上手Tableau软件!
  18. android 播放器架构,Android播放器框架设计系列-1
  19. python制作qq登录界面_使用Python编写一个QQ办公版的图形登录界面
  20. 前端学习系列——(九)理解什么是ID选择器的“唯一性”

热门文章

  1. winrar大全+压缩
  2. 关于document.cookie的使用javascript
  3. 扩展Spring-自定义Bean的作用域(Scope)
  4. 常见js表单验证方法(H5,layUI,amazeUI,vue)
  5. 【Shiro第七篇】SpringBoot + Shiro实现会话管理
  6. 这10个idea小技巧,让我的开发效率提升了10倍
  7. javascript滚动条响应鼠标滑轮的实现上下滚动事件
  8. Mysql创建存储过程,使用游标Cursor循环更新
  9. 20172304 2017-2018-2 《程序设计与数据结构》第五周学习总结
  10. Zookeeper使用案例