python爬虫笔记_python简单爬虫笔记

python模拟游览器爬取相关页面

import urllib.request

url="https://blog.51cto.com/itstyle/2146899"

#模拟浏览器

headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")

opener=urllib.request.build_opener()

opener.addheaders=[headers]

data=opener.open(url).read()

fh=open("D:/5.html","wb")

fh.write(data)

fh.close()

python爬取新闻网站并将文章下载到本地

import urllib.request

import urllib.error

import re

data=urllib.request.urlopen("http://news.sina.com.cn/").read()

data2=data.decode("utf-8","ignore")

pat='href="(http://news.sina.com.cn/.*?)">'

allurl=re.compile(pat).findall(data2)

for i in range(0,len(allurl)):

try:

print("第"+str(i+1)+"次爬取")

thisurl=allurl[i]

file="D:/pac/sinanews/"+str(i)+".html"

urllib.request.urlretrieve(thisurl,file)

print("-----成功-----")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

python爬取月光博客文章下载到本地

import re

import urllib.request

import urllib.error

data=urllib.request.urlopen("http://www.williamlong.info/").read()

pat='rel="bookmark">(.*?)'

pat_url='class="post-title">

data=data.decode("utf-8")

mydata=re.compile(pat).findall(data) #所有的博客文章名

allurl=re.compile(pat_url).findall(data) #所有的网址链接

for i in range(0,len(allurl)):

try:

print("正在生产第"+str(i+1)+"次文件")

thisurl=allurl[i]

file="E:/PAS/yueguang/"+mydata[i]+".html"

urllib.request.urlretrieve(thisurl,file)

print("生产成功")

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code)

if hasattr(e,"reason"):

print(e.reason)

python爬虫笔记_python简单爬虫笔记相关推荐

python绘制糖葫芦_python简单爬虫(一)
学习python前纠结了下,到底是应该一个个知识点吃透,然后写些小程序.还是应该快速掌握基础语法,快速实践.思考后认为前者这么学习速度真心不高,于是花2天时间看了下python3的语法,虽然很多都不明 ...
tornado 获取html,python使用tornado实现简单爬虫
本文实例为大家分享了python使用tornado实现简单爬虫的具体代码,供大家参考,具体内容如下代码在官方文档的示例代码中有,但是作为一个tornado新手来说阅读起来还是有点困难的,于是我在代码 ...
python 百度百科爬虫_python简单爬虫
爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习 ...
python 爬虫框架_Python网络爬虫-scrapy框架的使用
1. Scrapy 1.1 Scrapy框架的安装 Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted .lxml和pyOpenSSL.在不同的平台环境下,它所依赖 ...
python 爬虫论_Python网络爬虫（理论篇）
欢迎关注公众号:Python爬虫数据分析挖掘,回复[开源源码]免费获取更多开源项目源码网络爬虫的组成网络爬虫由控制节点,爬虫节点,资源库构成. 网络爬虫的控制节点和爬虫节点的结构关系控制节点(爬 ...
python与数据思维基础笔记_Python小课笔记--Python基础：数据和函数（二）
截图来自Python小课文|仟樱雪在Python小课-1-2节中,已经学习了基础模块--数据--数据类型(整数.字符串),以及基础模块--变量,基础模块--函数(input函数.print函数). ...
python网络爬虫学习_python网络爬虫学习笔记
介绍: 网络爬虫的名字非常有意思,英文名称web spider. 真得非常形象.蜘蛛结网为了获取食物,而我们的爬虫程序,也是为了获取网络上的资源. 这篇blog是本人学习过程中的记录.学习过程中,使用 ...
python最简单的爬取邮箱地址_python简单爬虫，抓取邮箱
最近,老师给了一个练习是,实现一个爬虫,就爬大概100个网页,匹配出邮箱. 于是,我花了几天时间,熟悉熟悉了python,就有了下面这个超级简单的爬虫程序.各种毛病...... 这里先说明一下,pyt ...
python简单爬虫入门一_Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们BeautifulSoup的基本结 ...
python爬去百度百科词条_python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...

python爬虫笔记_python简单爬虫笔记

python爬虫笔记_python简单爬虫笔记相关推荐

最新文章

热门文章