花了一整天时间学习python,一整天时间都花在了看视频和尝试上了。网上找的视频真心不错,真的要感谢分享的人和主讲人,这里也分享一下自己在网上找的资源,希望有些帮助:http://pan.baidu.com/s/1eSGksl8

下午的时候闲着无聊,也​顾不上基础牢不牢固,比着视频自己写了一个爬虫程序,真的是花了整整一个下午得时间,效率真的低到不行。估计是心态不行,中午竟然无所事事的睡到三点钟,真的是颓废了。

import urllib.request

import time

total_addr = []

URL = 'https://www.symmz.com'

KeyWord = ['xueshengmei', 'meinvxizao', 'mingxing', 'niuzaiku', 'sucaitu', 'wangluomeinv',

'kunbang', 'nvyou', 'chemo', 'meimei', 'neihantu', 'cosplay', 'ribenshaonv',

'rentiyishu', 'leisi', 'mishu', 'hushi', 'neiyi', 'hanguomeinv', 'duanzi', 'kunbang',

'sipai', 'duanqun', 'weimei', 'qingchun', 'qizhi', ]

Header = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

def create_file(folder='D:/DownLoad'):

if not os.path.exists(folder):

os.mkdir(folder)

os.chdir(folder)

def link_open(url):

res = urllib.request.Request(url, Header)

html = urllib.request.urlopen(url)

html = html.read()

return html

def find_page(url, page):

page_addr = []

html = link_open(url)

html = html.decode('utf-8')

a = html.find(r'href="/' + page)

while a != -1:

b = html.find('html', a, a + 100)

if b != -1:

page_addr.append(html[a + 6:b + 4])

# print(html[a+6:b+4])

a = html.find(r'href="/' + page, b)

return page_addr

def get_image(url):

image_addr = []

# print(url)

html = link_open(url)

html = html.decode('utf-8')

a = html.find(r'src="http://img.symmz.com')

print(a)

while a != -1:

b = html.find('jpg', a, a + 56)

if b != -1:

image_addr.append(html[a + 5:b + 3])

print(html[a + 5:b + 3])

else:

print(b)

a = html.find(r'src="http://img.symmz.com', b)

return image_addr

def download_image(addr):

i = 000

create_file(folder='D:/DownLoad')

for each in addr:

filename = 'image' + str(i) + r'.jpg'

with open(filename, 'wb') as f:

img = link_open(each)

f.write(img)

i = i + 1

if i % 50 == 0:

time.sleep(2)

with open('log.txt', 'wb') as f:

for each in addr:

f.write(each + '\n')

#------------  主体部分  ------------#

for page in KeyWord:

temp_url = URL + r'/' + page + r'.html'

print(temp_url)

print('\n')

get_addr = find_page(temp_url, page)

for each in get_addr:

temp = URL + each

image_addr = get_image(temp)

total_addr.extend(image_addr)

download_image(total_addr)

print('下载结束')

​尚且不够好,源码在:https://github.com/ywxkgdw/Vortex/blob/master/LessonF.py

网络爬虫--抓取图片_vortex_新浪博客相关推荐

  1. 递归神经网络 训练、推到、实现(网络资料整理)_codestorm_新浪博客

    参考: RNN求解过程推导与实现 人人都能用Python写出LSTM-RNN的代码![你的神经网络学习最佳起步] Hinton 的课件 我的最佳学习法就是通过玩具代码,一边调试一边学习理论.这篇博客通 ...

  2. 浅谈UWB室内定位(一)_vortex_新浪博客

    最近一直在研究UWB室内定位,我们组买了DECA的两块板子,就两块板子就花去了1000多大洋,而且给的代码还是入门级的可想而知UWB室内定位在我国尚且处于发展的萌芽状态,最近在读官方给的文档时发现之中 ...

  3. 实例--[QSerialPort]串口通信_vortex_新浪博客

    编写了好久的串口通信软件,本来以为很简单的的一个程序,不知道为什么只能接收不能发送,真是一件头疼的事情,到晚上找了许多资料也找不到解决方法,个人感觉是兼容性问题,因为我找到了许多的实例,跑了他们的程序 ...

  4. Qt 方式问题_vortex_新浪博客

    放下那些博客上的典例,我发现我真的什么都做不成,再加的那段日子我仅仅是做了一个写字板,便觉得有点小开心了,"不就是这么简单吗",呵呵,其实还真不是.我发现qt的类太多了,你很难去真 ...

  5. [转载]Qt之获取本机网络信息_vortex_新浪博客

    原文地址:Qt之获取本机网络信息作者:一去丶二三里 经常使用命令行来查看一些计算机的配置信息. 1.首先按住键盘上的"开始键+R键",然后在弹出的对话框中输入"CMD&q ...

  6. [转载]Qt之解决中文乱码_vortex_新浪博客

    博主很给力 原文地址:Qt之解决中文乱码作者:一去二三里 在项目开发的过程中,中文乱码是比较常见的问题!用Qt开发也不例外,之前在做界面的时候没有发现什么问题,但是在程序移植的过程中问题出现了! 在W ...

  7. MySQL常用命令_vortex_新浪博客

    1. 登录 >>mysql -u root -p 2. 数据库操作 A. 显示数据库​ >>show databases; B. 选中数据库 >>use yourd ...

  8. python3 常见命令_vortex_新浪博客

    1. 安装>pip install xxx(easy_install xxx) 2. 查看>pip list 3. 卸载>pip uninstall xxx 4. 更新>pip ...

  9. 问题描述_vortex_新浪博客

    为什么这两次不同方式输出结果不一样?

最新文章

  1. 色彩(颜色)空间原理(实现代码)
  2. oracle grant 权限
  3. 总结 | 机器学习的通俗讲解!
  4. 唠唠SE的集合-04——ArrayList
  5. [NOIP 2011普及组 No.4] 表达式的值
  6. mpeg4ip.h:126: error: new declaration ‘char* strcasestr(const char*, const char*)’
  7. 力压微信成 App Store 榜第一,子弹短信能否避免火一把就“死”?| 畅言
  8. php pg connect 扩展,php安装gnupg扩展
  9. 微软认知语音服务 语音识别
  10. git 设置和取消代理
  11. modelsim安装_Modelsim10.7安装教程
  12. win10桌面美化,带音乐播放特效
  13. php codesniffer 代码规范,如何用PHP_CodeSniffer检查代码规范
  14. ABAP BAPI 复制标准项目模板实现项目立项
  15. 各种字符串Hash函数比较
  16. 评'深圳妙龄女白领控诉 要求“熬夜衰老”算工伤'
  17. 亚马逊评价计算器 分析评价利器
  18. STM32G070芯片开发笔记:一、如何用ST送的学习板上的STLink烧录调试
  19. springboot毕设项目美食网站设计与实现62e76(java+VUE+Mybatis+Maven+Mysql)
  20. Logo(图片)作为报表水印的解决方法

热门文章

  1. 2d unity 多物体 射线_24小时入门Unity游戏开发系列教程
  2. linux设备树sysfs,迅为-iMX6开发板-设备树内核-sys方式控制GPIO
  3. android studio打测试包,AndroidStudio1.5上进行单元测试(简单)
  4. ecshop 支持 php,ecshop支持PHP7的修改方法
  5. 用c语言实现数据结构算法将两个有序链表并为一个有序链表的算法,,(完整版)数据结构-习题集答案-(C语言版严蔚敏)...
  6. node怎么解析vue代码_vue中node_modules中第三方模块的修改使用详解
  7. 强烈安利 uTools 我的生产力工具
  8. python输入字符串str_python字符串String模块
  9. java反射创建带参数对象_反射 Java反射对象创建 - 闪电教程JSRUN
  10. 三次iframe框架切换