python 一个简单的网站采集

因为项目需要需要做定向采集企业网站文章

这里是通用采集URL地址（因为不能对每个网站写采集规则这里就是用了通用化）采集文章方法就不公布了

#!/usr/local/bin/python
#coding=utf8
#网站定向简易采集
#QQ:29295842
import get_post
import re
import re, sys, time
import os.path as osp
#from urlparse import urlparse
from urllib.parse import urlparsedef getUrl(url):  #采集print(url)open_url=[]  #已经采集d_url=[]   #等待采集i=0open_url,d_url=getOneUrl(url,open_url,d_url)  #采集初始化while True: #死循环遍历if(len(d_url)==0):break #跳出xx_url=d_url[0]del d_url[0]if not d_url in open_url:   #print(colour)open_url,d_url=getOneUrl(xx_url,open_url,d_url)  #采集单页open_url=list(set(open_url))d_url=list(set(d_url))print(xx_url,"===",len(open_url),"===",len(d_url))#d_url.remove(url)  #删除元素def getOneUrl(url,open_url,d_url):  #采集单页parts = urlparse(url)  #URL地址拆解open_url.append(url)  #已经采集get_bool,html=get_post.get_web(url,ua="",timeout=10)href_arr=[]if(get_bool):format = formatURL(clearBlank(html),url)  # 格式化html代码if(format==""):return open_url,d_urlurls = re.findall(r'''(<a[^>]*?href="([^"]+)"[^>]*?>)|(<a[^>]*?href='([^']+)'[^>]*?>)''',format,re.I)if urls != None :  # 取出所有的连接for regs in urls:  # 得到一个单一的urlsUrl = en2chr(regs[1].strip())    #if sUrl.find(parts.netloc):if re.search('http(.*?)/'+parts.netloc+'/(.*?)',sUrl,re.I):href_arr.append(sUrl)if(len(href_arr)>=1):   #print(href_arr)href_arr_x=list(set(href_arr))  #数组去重   #print(href_arr_x)for colour in href_arr_x:    #print(colour)if not colour in open_url:   #print(colour)d_url.append(colour)   #等待采集# print(open_url)# print(d_url)return open_url,d_url#==================================================================
# 替换实体为正常字符
def en2chr(enStr):return enStr.replace('&amp;','&')# 清除html代码里的多余空格
def clearBlank(html):if len(html) == 0 : return ''html = re.sub('\r|\n|\t','',html)while html.find("  ")!=-1 or html.find('&nbsp;')!=-1 :html = html.replace('&nbsp;',' ').replace('  ',' ')return html# 格式化url
def formatURL(html,url):try:urls = re.findall('''(<a[^>]*?href="([^"]+)"[^>]*?>)|(<a[^>]*?href='([^']+)'[^>]*?>)''',html,re.I)if urls == None : return htmlfor regs in urls :html = html.replace(regs[0],matchURL(regs[0],url))return htmlexcept:return ""# 格式化单个url
def matchURL(tag,url):try:urls = re.findall('''(.*)(src|href)=(.+?)( |/>|>).*|(.*)url\(([^\)]+)\)''',tag,re.I)if urls == None :return tagelse :if urls[0][5] == '':urlQuote = urls[0][2]else:urlQuote = urls[0][5]if len(urlQuote) > 0 :cUrl = re.sub('''['"]''','',urlQuote)else :return tagurls = urlparse(url); scheme = urls[0]if scheme!='' : scheme+='://'host = urls[1]; host = scheme + hostif len(host)==0 : return tagpath = osp.dirname(urls[2])if path=='/' : path = '';if cUrl.find("#")!=-1 : cUrl = cUrl[:cUrl.find("#")]# 判断类型if re.search('''^(http|https|ftp):(//|\\\\)(([\w/\\\+\-~`@:%])+\.)+([\w/\\\.\=\?\+\-~`@':!%#]|(&amp;)|&)+''',cUrl,re.I) != None :# http开头的url类型要跳过return tagelif cUrl[:1] == '/' :# 绝对路径cUrl = host + cUrlelif cUrl[:3]=='../' :# 相对路径while cUrl[:3]=='../' :cUrl = cUrl[3:]if len(path) > 0 :path = osp.dirname(path)elif cUrl[:2]=='./' :cUrl = host + path + cUrl[1:]elif cUrl.lower()[:7]=='mailto:' or cUrl.lower()[:11]=='javascript:' :return tagelse :cUrl = host + path + '/' + cUrlR = tag.replace(urlQuote,'"' + cUrl + '"')return Rexcept:return ""
#==================================================================if __name__=="__main__":#getOneUrl("http://www.dzrpump.com/")  #采集初始化getUrl("http://www.dzrpump.com/")   #遍历

python 一个简单的网站采集相关推荐

直播系统源码python 一个简单的网站采集
#!/usr/local/bin/python #coding=utf8 #网站定向简易采集 #QQ:29295842 import get_post import re import re, sys ...
使用 Python 的 flask 架构搭建一个简单web网站
使用 Python 的 flask 架构搭建一个简单web网站 1.flask最简单框架,返回hello world: from flask import * app = Flask(__name__ ...
自己动手搭建一个简单的网站
我准备搭建一个属于自己的网站,一方面是了解建站的知识,另一个方面是为了测试Http请求相关的内容. 建站资料下面是建站需要的资料: 服务器:也就是高级一点的电脑,它主要用来存放网页数据: web服务 ...
Ubuntu 18.04 安装 nginx 并搭建一个简单的网站
目录一.安装 nginx 二.设置 nginx 服务器模块三.总结四.参考资料尽你所学(采用 html.或 CSS.或 Javascript 等)完成一个静态网页,比如制作一个简单的个人介绍网 ...
用python实现简单的网站信息更新自动通知
用python实现简单的网站信息更新自动通知因为需要及时收到学校研究生网站的消息,每过一小段时间去网站看耗费精力,且不一定能及时的收到消息,所以萌生了用程序定时检测网站是否更新的想法.代码地址点这里 ...
使用Android studio做一个简单的网站APP
1.首先创建一个空白Android项目 2.然后打开项目,切换为Android视图,这时候会看到三个文件夹,分别是manifests.java.res.首先修改res/layout下的activity ...
html抓取文章,网页抓取工具：一个简单的文章采集示例
通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程. 本例以 http://faq.locoy.com/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明. ( ...
一个简单的网站该怎样建设
如何建设一个简单的网站?当你接触建站的时候你肯定会想我要不要做一个网站来玩玩.但也会有担心这个网站好不好建,该如何建呢?其实建一个简单网站很简单的.做好下面几个就好了. 1.目的要明确:做网站当然要先 ...
Python后端---使用Django+Mysql搭建一个简单的网站
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一.项目搭建前期准备命令行创建项目和app Django项目配置文件说明使用数据库编写业务逻辑配置url主路 ...

python 一个简单的网站采集

python 一个简单的网站采集相关推荐

最新文章

热门文章