python 网站模板_使用Python抓取模板之家的CSS模板
Python版本是2.7.9,在win8上测试成功,就是抓取有点慢,本来想用多线程的,有事就罢了。模板之家的网站上的url参数与页数不匹配,懒得去做分析了,就自己改代码中的url吧。大神勿喷!
代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# by ustcwq
# 2015-03-15
import urllib,urllib2,os,time
from bs4 import BeautifulSoup
start = time.clock()
path = os.getcwd()+u’/模板之家抓取的模板/’
if not os.path.isdir(path):
os.mkdir(path)
url = “http://www.cssmoban.com/cssthemes/index_80.shtml” # 源网站中的index后面数字怎么编排的?
theme_url =’http://www.cssmoban.com/cssthemes/’
response = urllib2.urlopen(url)
soup = BeautifulSoup(response)
result = soup.select(‘p[class=”title”] a’)
print result
for item in result:
link = item[‘href’]
# down_name = item.text # 文件名称
new_url = theme_url+link.split(‘/’)[-1]
response = urllib2.urlopen(new_url)
soup = BeautifulSoup(response)
result = soup.select(‘.btn a’)
down_url = result[1][‘href’] # 文件链接
local = path+time.strftime(‘%Y%m%d%H%M%S’,time.localtime(time.time()))+’.zip’
urllib.urlretrieve(down_url, local) # 远程保存函数
end = time.clock()
print u’模板抓取完成!’
print u’一共用时:’,end-start,u’秒’
以上所述就是本文的全部内容了,希望大家能够喜欢。
python 网站模板_使用Python抓取模板之家的CSS模板相关推荐
- Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图 1. 创建项目 2. 使用ImagesPipeline爬取数据 items.py setings.py aut ...
- python网站迁移_在Python中利用Into包整洁地进行数据迁移的教程
动机 我们花费大量的时间将数据从普通的交换格式(比如CSV),迁移到像数组.数据库或者二进制存储等高效的计算格式.更糟糕的是,许多人没有将数据迁移到高效的格式,因为他们不知道怎么(或者不能)为他们的工 ...
- python爬虫资源大全_Python爬虫抓取纯静态网站及其资源(基础篇)
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 **( 想要学习Python?Python ...
- 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
- python基金预测分析_Python爬虫抓取基金数据分析、预测系统设计与实现
版权声明:本文为博主原创文章,如果转载请给出原文链接:http://doofuu.com/article/4156231.html 目前在开发一款基于Python的基金爬取.分析.预测系统,目前已经开 ...
- python爬虫:使用scrapy框架抓取360超清壁纸(10W+超清壁纸等你来爬)
目的:闲着无聊,利用爬虫爬取360超清壁纸,并将其数据存储至MongoDB/MySQL中,将图片下载至指定文件夹. 要求:确保以安装MongoDB或者MySQL数据库.scrapy框架也肯定必须有的: ...
- Python之免费代理ip的抓取与使用
Python之免费代理ip的抓取与使用 使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理进行操作,屏蔽自己真实ip. 本文直接从网站中抓取代理ip地址,进行测试,并将测 ...
- python爬虫代理服务器_Python爬虫多线程抓取代理服务器
Python作为一门功能强大的脚本语言来说,经常被用来写爬虫程序,下面是Python爬虫多线程抓取代理服务器 首先通过谷歌把包含代理服务器地址的网页查出来,我选择从 http://www.88181. ...
- Python基础之12306车票信息抓取案例
Python基础之12306车票信息抓取案例 注:12306上请求网址链接经常变化,需要随时检查更改(我已经修改三遍了),请求的数据也有小几率发生变动,所以也需要检查更改 2018-10-22 第四遍 ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
最新文章
- “微信应用号对行业影响”之一,app开发速来围观
- 出现这四种情况,才是考虑分库分表的时候!
- 词频-逆向文件频率TF-IDF构建实战
- zipimport.ZipImportError: can't decompress data; zlib not available 解决办法
- python以20字符宽居中输出,Python 字符串内置方法(一)
- 【OpenCV 例程200篇】15. 图像的加权加法(cv2.addWeight)
- Android中的Context理解
- ex28 布尔表达式练习
- ASCII、ANSI、UNICODE及UTF-8编码
- 标识符——Python
- Eclipse-cpp-2022-03下载地址
- Unity Shader - shader lab 的 SRP Batcher compatible 兼容性(未使用 RenderDoc 验证 API)
- java连连看怎么加音效,怎么给视频配音,添加音效与BGM都教给你
- IT男的魔都10年及N次面试 - 如何在500强升职顺便搞定漂亮MM
- c语言n个自然数得阶乘求和,计算n个自然数阶乘的和
- 计算机网络教室财产登记表,固定资产清查登记表-资产管理.DOC
- 漫话NFT——NFT的应用场景
- bzoj1937: [Shoi2004]Mst 最小生成树
- 机房专用空调设备的安装
- mysql数据库设计与应用答案智慧树_知到智慧树_MySQL数据库设计与应用_答案完整...