网络爬虫--抓取图片_vortex_新浪博客
花了一整天时间学习python,一整天时间都花在了看视频和尝试上了。网上找的视频真心不错,真的要感谢分享的人和主讲人,这里也分享一下自己在网上找的资源,希望有些帮助:http://pan.baidu.com/s/1eSGksl8
下午的时候闲着无聊,也顾不上基础牢不牢固,比着视频自己写了一个爬虫程序,真的是花了整整一个下午得时间,效率真的低到不行。估计是心态不行,中午竟然无所事事的睡到三点钟,真的是颓废了。
import urllib.request
import time
total_addr = []
URL = 'https://www.symmz.com'
KeyWord = ['xueshengmei', 'meinvxizao', 'mingxing', 'niuzaiku', 'sucaitu', 'wangluomeinv',
'kunbang', 'nvyou', 'chemo', 'meimei', 'neihantu', 'cosplay', 'ribenshaonv',
'rentiyishu', 'leisi', 'mishu', 'hushi', 'neiyi', 'hanguomeinv', 'duanzi', 'kunbang',
'sipai', 'duanqun', 'weimei', 'qingchun', 'qizhi', ]
Header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
def create_file(folder='D:/DownLoad'):
if not os.path.exists(folder):
os.mkdir(folder)
os.chdir(folder)
def link_open(url):
res = urllib.request.Request(url, Header)
html = urllib.request.urlopen(url)
html = html.read()
return html
def find_page(url, page):
page_addr = []
html = link_open(url)
html = html.decode('utf-8')
a = html.find(r'href="/' + page)
while a != -1:
b = html.find('html', a, a + 100)
if b != -1:
page_addr.append(html[a + 6:b + 4])
# print(html[a+6:b+4])
a = html.find(r'href="/' + page, b)
return page_addr
def get_image(url):
image_addr = []
# print(url)
html = link_open(url)
html = html.decode('utf-8')
a = html.find(r'src="http://img.symmz.com')
print(a)
while a != -1:
b = html.find('jpg', a, a + 56)
if b != -1:
image_addr.append(html[a + 5:b + 3])
print(html[a + 5:b + 3])
else:
print(b)
a = html.find(r'src="http://img.symmz.com', b)
return image_addr
def download_image(addr):
i = 000
create_file(folder='D:/DownLoad')
for each in addr:
filename = 'image' + str(i) + r'.jpg'
with open(filename, 'wb') as f:
img = link_open(each)
f.write(img)
i = i + 1
if i % 50 == 0:
time.sleep(2)
with open('log.txt', 'wb') as f:
for each in addr:
f.write(each + '\n')
#------------ 主体部分 ------------#
for page in KeyWord:
temp_url = URL + r'/' + page + r'.html'
print(temp_url)
print('\n')
get_addr = find_page(temp_url, page)
for each in get_addr:
temp = URL + each
image_addr = get_image(temp)
total_addr.extend(image_addr)
download_image(total_addr)
print('下载结束')
尚且不够好,源码在:https://github.com/ywxkgdw/Vortex/blob/master/LessonF.py
网络爬虫--抓取图片_vortex_新浪博客相关推荐
- 递归神经网络 训练、推到、实现(网络资料整理)_codestorm_新浪博客
参考: RNN求解过程推导与实现 人人都能用Python写出LSTM-RNN的代码![你的神经网络学习最佳起步] Hinton 的课件 我的最佳学习法就是通过玩具代码,一边调试一边学习理论.这篇博客通 ...
- 浅谈UWB室内定位(一)_vortex_新浪博客
最近一直在研究UWB室内定位,我们组买了DECA的两块板子,就两块板子就花去了1000多大洋,而且给的代码还是入门级的可想而知UWB室内定位在我国尚且处于发展的萌芽状态,最近在读官方给的文档时发现之中 ...
- 实例--[QSerialPort]串口通信_vortex_新浪博客
编写了好久的串口通信软件,本来以为很简单的的一个程序,不知道为什么只能接收不能发送,真是一件头疼的事情,到晚上找了许多资料也找不到解决方法,个人感觉是兼容性问题,因为我找到了许多的实例,跑了他们的程序 ...
- Qt 方式问题_vortex_新浪博客
放下那些博客上的典例,我发现我真的什么都做不成,再加的那段日子我仅仅是做了一个写字板,便觉得有点小开心了,"不就是这么简单吗",呵呵,其实还真不是.我发现qt的类太多了,你很难去真 ...
- [转载]Qt之获取本机网络信息_vortex_新浪博客
原文地址:Qt之获取本机网络信息作者:一去丶二三里 经常使用命令行来查看一些计算机的配置信息. 1.首先按住键盘上的"开始键+R键",然后在弹出的对话框中输入"CMD&q ...
- [转载]Qt之解决中文乱码_vortex_新浪博客
博主很给力 原文地址:Qt之解决中文乱码作者:一去二三里 在项目开发的过程中,中文乱码是比较常见的问题!用Qt开发也不例外,之前在做界面的时候没有发现什么问题,但是在程序移植的过程中问题出现了! 在W ...
- MySQL常用命令_vortex_新浪博客
1. 登录 >>mysql -u root -p 2. 数据库操作 A. 显示数据库 >>show databases; B. 选中数据库 >>use yourd ...
- python3 常见命令_vortex_新浪博客
1. 安装>pip install xxx(easy_install xxx) 2. 查看>pip list 3. 卸载>pip uninstall xxx 4. 更新>pip ...
- 问题描述_vortex_新浪博客
为什么这两次不同方式输出结果不一样?
最新文章
- 色彩(颜色)空间原理(实现代码)
- oracle grant 权限
- 总结 | 机器学习的通俗讲解!
- 唠唠SE的集合-04——ArrayList
- [NOIP 2011普及组 No.4] 表达式的值
- mpeg4ip.h:126: error: new declaration ‘char* strcasestr(const char*, const char*)’
- 力压微信成 App Store 榜第一,子弹短信能否避免火一把就“死”?| 畅言
- php pg connect 扩展,php安装gnupg扩展
- 微软认知语音服务 语音识别
- git 设置和取消代理
- modelsim安装_Modelsim10.7安装教程
- win10桌面美化,带音乐播放特效
- php codesniffer 代码规范,如何用PHP_CodeSniffer检查代码规范
- ABAP BAPI 复制标准项目模板实现项目立项
- 各种字符串Hash函数比较
- 评'深圳妙龄女白领控诉 要求“熬夜衰老”算工伤'
- 亚马逊评价计算器 分析评价利器
- STM32G070芯片开发笔记:一、如何用ST送的学习板上的STLink烧录调试
- springboot毕设项目美食网站设计与实现62e76(java+VUE+Mybatis+Maven+Mysql)
- Logo(图片)作为报表水印的解决方法
热门文章
- 2d unity 多物体 射线_24小时入门Unity游戏开发系列教程
- linux设备树sysfs,迅为-iMX6开发板-设备树内核-sys方式控制GPIO
- android studio打测试包,AndroidStudio1.5上进行单元测试(简单)
- ecshop 支持 php,ecshop支持PHP7的修改方法
- 用c语言实现数据结构算法将两个有序链表并为一个有序链表的算法,,(完整版)数据结构-习题集答案-(C语言版严蔚敏)...
- node怎么解析vue代码_vue中node_modules中第三方模块的修改使用详解
- 强烈安利 uTools 我的生产力工具
- python输入字符串str_python字符串String模块
- java反射创建带参数对象_反射 Java反射对象创建 - 闪电教程JSRUN
- 三次iframe框架切换