python spider code

Python代码

#FileName: toolbox_insight.py
from sgmllib import SGMLParser
import threading
import time
import urllib2
import StringIO
import gzip
import string
import os
#rewrite SGMLParser for start_a
class Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页，把网页中的所有链接放在self.url中。
def reset(self):
self.url = []
SGMLParser.reset(self)
def start_a(self, attrs):
href = [v for k, v in attrs if k == 'href']
if href:
self.url.extend(href)
#for quickly finding
class Newlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中，返回True,当不在LIST中，返回False并把num按二分法插入LIST中
def find(self, num):
l = len(self)
first = 0
end = l - 1
mid = 0
if l == 0:
self.insert(0,num)
return False
while first < end:
mid = (first + end)/2
if num > self[mid]:
first = mid + 1
elif num < self[mid]:
end = mid - 1
else:
break
if first == end:
if self[first] > num:
self.insert(first, num)
return False
elif self[first] < num:
self.insert(first + 1, num)
return False
else:
return True
elif first > end:
self.insert(first, num)
return False
else:
return True
#下面的reptile顾名思义是一个爬虫
class reptile(threading.Thread):
#Name: 是爬虫是名字，queue是任务队列，所有的爬虫共用同一个任务队列
#从中取出一个任务项进行运行，每个任务项是一个要下载网页的URL
#result: 也是一个队列，将下载的网页中包含的URL放入该队列中
#inittime: 在本程序中没有用，只是一个为了以后扩展用的
#downloadway:是下载的网页存放的路径
#configfile: 是配置文件，存放网页的URL和下载下后的路径
#maxnum: 每个爬虫有个最大下载量，当下载了这么多网页后，爬虫dead
def __init__(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = 'D:\\bbs\\',configfile = 'D:\\bbs\\conf.txt', maxnum = 10000):
threading.Thread.__init__(self, name = Name)
self.queue = queue
self.result = result
self.Flcok = Flcok
self.inittime = inittime
self.mainway = downloadway
self.configfile = configfile
self.num = 0 #已下载的网页个数
self.maxnum = maxnum
os.makedirs(downloadway + self.getName()) #系统调用：在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹
self.way = downloadway + self.getName() + '\\'
def run(self):
opener = urllib2.build_opener() #创建一个开启器
while True:
url = self.queue.get() #从队列中取一个URL
if url == None: #当取得一个None后表示爬虫结束工作，用于外部方便控制爬虫的生命期
break
parser = Basegeturls() #创建一个网页分析器
request = urllib2.Request(url) #网页请求
request.add_header('Accept-encoding', 'gzip')#下载的方式是gzip压缩后的网页，gzip是大多数服务器支持的一种格式
try: #这样可以减轻网络压力
page = opener.open(request)#发送请求报文
if page.code == 200: #当请求成功
predata = page.read() #下载gzip格式的网页
pdata = StringIO.StringIO(predata)#下面6行是实现解压缩
gzipper = gzip.GzipFile(fileobj = pdata)
try:
data = gzipper.read()
except(IOError):
print 'unused gzip'
data = predata#当有的服务器不支持gzip格式，那么下载的就是网页本身
try:
parser.feed(data)#分析网页
except:
print 'I am here'#有的网页分析不了，如整个网页就是一个图片
for item in parser.url:
self.result.put(item)#分析后的URL放入队列中
way = self.way + str(self.num) + '.html'#下面的是网页的保存，不多说了
self.num += 1
file = open(way, 'w')
file.write(data)
file.close()
self.Flcok.acquire()
confile = open(self.configfile, 'a')
confile.write( way + ' ' + url + '\n')
confile.close()
self.Flcok.release()
page.close()
if self.num >= self.maxnum:#达到最大量后退出
break
except:
print 'end error'
#和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页
class proinsight(threading.Thread):
def __init__(self, queue, list, homepage, inqueue):
threading.Thread.__init__(self)
self.queue = queue#和爬虫中的result队列是同一个
self.list = list#是上面Newlist的对象
self.homepage = homepage#主页
self.inqueue = inqueue#处理完后的URL的去处
def run(self):
length = len(self.homepage)
while True:
item = self.queue.get()
if item == None:
break
if item[0:4] == '\r\n':
item = item[4:]
if item[-1] == '/':
item = item[:-1]
if len(item) >= len('http://') and item[0:7] == 'http://':
if len(item) >= length and item[0:length] == self.homepage:
if self.list.find(item) == False:
self.inqueue.put(item)
elif item[0:5] == '/java' or item[0:4] == 'java':
pass
else:
if item[0] != '/':
item = '/' + item
item = self.homepage + item
if self.list.find(item) == False:
self.inqueue.put(item)
下面的是一个主函数过程
我下载的网站是http://bbs.hit.edu.cn
开始网页是http://bbs.hit.edu.cn/mainpage.php
#FileName:test
from toolbox_insight import *
from Queue import Queue
import threading
import sys
num = int(raw_input('Enter the number of thread:'))
pnum = int(raw_input('Enter the number of download pages:'))
mainpage = str(raw_input('The mainpage:'))
startpage = str(raw_input('Start page:'))
queue = Queue()
key = Queue()
inqueue = Queue()
list = Newlist()
thlist = []
Flock = threading.RLock()
for i in range(num):
th = reptile('th' + str(i), queue, key, Flock)
thlist.append(th)
pro = proinsight(key, list, mainpage, inqueue)
pro.start()
for i in thlist:
i.start()
queue.put(startpage)
for i in range(pnum):
queue.put(inqueue.get())
for i in range(num):
queue.put(None)

python spider code相关推荐

[Study]Python Spider
文章目录一.Python 基础 1.1 pip 1.2 数据类型 1.3 运算符 1.4 关键字 1.5 流程控制 1.6 字符串函数 1.7 列表函数 1.8 字典函数 1.9 切片 1.10 函 ...
Python:Spider
Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页( ...
python spider 安装_Python爬虫(11):Scrapy框架的安装和基本使用
大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy.Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装. Scrapy的安装 Scrapy的安装是很麻烦的,对于一 ...
python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类
Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...
【python VS Code】调用自定义模块 ModuleNotFoundError: No module named XXX
写 python 很久了,今天本没打算熬夜,但却被这么简单的问题困到了零点半 - 有点像脑筋急转弯. 在 VS Code 等轻量文本编辑器/项目管理器中,我不希望像 pycharm 一样由配置文件自 ...
python spider模块_spider【第三篇】python爬虫模块requests
requests简介 requests模块是python3自带的库,可直接使用,该库主要用来处理http请求 requests模块的简单使用 requests模块发送简单的请求.获取响应一.requ ...
Python Spider: 爬取项目外包网站TaskCity
对于想要做软件外包的小伙伴们来说,每天登陆外包网站,并且搜索合适的项目,是很累人并且十分枯燥的事情.使用Python爬虫,可以自动对外包网站上面最新的软件外包项目进行搜索.提取和保存.可以大大提高大家 ...
python spider是什么_Scrapy框架下的Spider类是什么
Spider类 Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作 ...
python exit code 1602_树莓派1602lcd实验
为利用学习单片机时留下的1602lcd,在树莓派下尝试使用,查找资料时发现了李凡希大神的博客早有记载,故利用他的实验代码,仿照搭建了下.其博客原地址为:https://www.freemindworl ...

python spider code

python spider code相关推荐

最新文章

热门文章