[Python] 纯文本查看 复制代码import requestsimport os

import time

from lxml import etree

'''

xpath获取的element对象返回的是个字典.tag(标签名称) .attrib(标签属性) .text(标签文本)

'''

def get_xpath_text(url,headers):

response = requests.get(url, headers)

response.encoding = 'utf-8'

xpath_html = etree.HTML(response.text)

return xpath_html

def xpath_get_urls(html):

xpath_html = etree.HTML(html)

urls = xpath_html.xpath("//div[@class='item']/div[@class='p']/a")

return urls

def get_group_pageinfo(page_url):

grouppage_urls=[]

xpath_html = get_xpath_text(page_url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'})

pagenumstr = xpath_html.xpath("//div[@class='page']/li[1]/a")[0].text

group_pic_name = xpath_html.xpath("//h1")[0].text

pagenumstr = pagenumstr.replace('共', '').replace('页:', '')

for i in range(1,int(pagenumstr)+1):

if(i==1):

grouppage_urls.append(page_url)

else:

grouppage_urls.append(page_url.replace('.html','_%d.html'%i))

return grouppage_urls,group_pic_name

def get_picurls(page_url):

picurls = []

xpath_html = get_xpath_text(page_url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'})

picurl_elements = xpath_html.xpath('//div[@class="contents"]/a/img')

for pic_url_element in picurl_elements:

picurls.append(pic_url_element.attrib['src'])

return picurls

if __name__ == '__main__':

#存储每组图片的url

group_pic_urls=[]

#选取10组图片

for num in range(1,2):

page_url = 'http://www.beautyleg7.com/siwameitui/list_3_%d.html' % num

response = requests.get(page_url,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'})

response.encoding = 'utf-8'

for ul in xpath_get_urls(response.text):

group_pic_urls.append(ul.attrib['href'])

#for循环访问每组套图的url 每个页面获取图片的xpath://div[@class="contents"]/a

#获取总共的页数xpath://div[@class="page"]/li[1]/a

for group_pic_url in group_pic_urls:

group_pageurls,group_pic_name = get_group_pageinfo(group_pic_url)

num = 1

//文件的存储路径可根据需要自己选择

filepath = "F:\crawler\leg\\"+group_pic_name.replace('/','-')

print(filepath)

if( not os.path.exists(filepath)):

os.makedirs(filepath.strip())

os.chdir(filepath)

for group_pageurl in group_pageurls:

picurls = get_picurls(group_pageurl)

for pic_url in picurls:

print(pic_url)

response = requests.get(pic_url)

img = response.content

with open(filepath+'\%d.jpg'%num,'wb') as f:

f.write(img)

num=num+1

python自学免费图片_自学Python----爬取Beautyleg图片相关推荐

  1. python爬去百度图片_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  2. 成中文自学python编程免费教程_自学python编程语言都有哪些免费网站值得收藏?...

    python是未来人工智能最好的编程语言,很多程序员在有其她编程基础的情况选择学习python是比较容易的,当然现在很多想进入编程界的新手选择python开始接触学习编程,但是由于经费有限,只能选择最 ...

  3. python爬虫爬取百度图片总结_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  4. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

  5. python视频网站分类_科学网—爬取网站视频简单方法之一:python的you-get模块使用方法 - 周朝宪的博文...

    目的:网站有海量的视频(包括讲座.电影电视剧等),用python语言的you-get模块爬下来 1.安装you-get模块 在pycharm的terminal下安装.pip install you-g ...

  6. python编程免费小说_使用Python开发小说下载器,不再为下载小说而发愁

    有点荒废 这几天有点荒废,之前弃坑的网文<伏天氏>,这几天又给捡起来了.然后一发不可收拾的只想看小说,荒废了我的学习.在这里我要检讨啊..... 像我这样的穷人,看小说肯定是找免费的网站, ...

  7. python爬虫小案例_从豆瓣爬取《哪吒之魔童降世》的剧照

    一.在豆瓣电影网爬取以下剧照保存到本地: 本次案例只爬取前 5 页的剧照,先获取前五页的链接: for i in range(5):url = 'https://movie.douban.com/su ...

  8. python学习笔记之模块爬虫实战-爬取网站图片(十四)

    背景说明 爬取煎蛋网中随手拍栏目中的某页的所有图片 实战 分析 先打开煎蛋网站中的"随手拍",链接为:http://jandan.net/ooxx/MjAyMDA1MTctMTc1 ...

  9. python商品评论分析_用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...

  10. python爬取妹子图片_利用爬虫爬取清纯妹子图片

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 from bs4 import BeautifulSoup import requests import time import os def get_h ...

最新文章

  1. linux oracle 用户创建,LINUX下Oracle数据库用户创建方法详解
  2. 全球资金看好中国的AI(人工智能)
  3. Apache Subversion command line tools下载地址 svn命令行客户端
  4. Web安全学习 Week1
  5. Eclipse调试Logcat类的说明
  6. o.s.b.d.LoggingFailureAnalysisReporte报错
  7. HaaS UI小程序
  8. android教程1009无标题,Android ActionBarActivity设置全屏无标题实现方法总结_Android_脚本之家...
  9. node.js 初体验(转载)
  10. 学习 Python 第八天
  11. 《程序员之禅》一一2.2 佛教中的“小鬼”
  12. Xcode5 证书配置
  13. vs2010开发activex(MFC)控件/ie插件(一)
  14. 政府12345便民服务热线 -- MICC全媒体智能呼叫中心建设方案
  15. foo, bar, 甲乙丙丁
  16. Wondershare Flash Gallery Factory
  17. 枫叶永恒 服务器维护,3月8日服务器维护公告
  18. 【其实是空空荡荡的牵挂,没有结局的怀念】
  19. moment.js时间操作
  20. 怎么判断是显卡不行了还是CPU不行了?

热门文章

  1. 【社区周会】2021-05-11 内容概要
  2. 操作系统原理总结,非科班必看!!!
  3. sequelize 向数据库插入数据,自增id该如何添加
  4. matlab mck传递函数,我的C实践(4):基本操作的位运算实现
  5. 红海云签约中国中医药出版社,开启出版行业人力资源数字化新篇章
  6. Science | 利用深度学习搭建蛋白质功能位点(Scaffolding protein functional sites using deep learning)
  7. java调用别人的接口获取数据存到mysql数据库
  8. sdkman 管理开发中使用的sdk
  9. 易订宝 移动营销网络订货平台
  10. 2013,手游迎首轮大洗牌,小团队如何存活