这个是抓取信息的
from bs4 import BeautifulSoup
import requestsurl = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)                                                   #解析网页
soup = BeautifulSoup(response.text,'lxml')                                     #.text将解析到的网页可读
storenames = soup.select('#J_ItemList > div > div > p.productTitle > a')       #选择出商店的信息
prices = soup.select('#J_ItemList > div > div > p.productPrice > em')          #选择出价格的信息
sales = soup.select('#J_ItemList > div > div > p.productStatus > span > em')   #选择出销售额的信息for storename, price, sale in zip(storenames,prices,sales):storename = storename.get_text().strip()     #用get_text()方法筛选出标签中的文本信息,由于筛选结果有换行符\n所以用strip()将换行符去掉price = price.get_text()sale = sale.get_text()print('商店名:%-40s价格:%-40s销售额:%s'%(storename,price,sale))     #使打印出来的信息规范print('----------------------------------------------------------------------------------------------')

这个是下载图片的

from bs4 import BeautifulSoup
import requests
import urllib.requesturl = 'https://list.tmall.com/search_product.htm?q=%CB%AE%BA%F8+%C9%D5%CB%AE&type=p&vmarket=&spm=875.7931836%2FA.a2227oh.d100&from=mallfp..pc_1_searchbutton'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
imgs = soup.select('#J_ItemList > div > div > div.productImg-wrap > a > img')a = 1
for i in imgs:if(i.get('src')==None):breakimg = 'http:'+i.get('src')  #这里废了好长的时间,原来网站必须要有http:的#print(img)urllib.request.urlretrieve(img,'%s.jpg'%a, None,)a = a+1

ps:

1.选择信息的时候用css

2.用get_text()方法筛选出标签中的文本信息

3.strip,lstrip,rstrip的用法:

Python中的strip用于去除字符串的首尾字符;同理,lstrip用于去除左边的字符;rstrip用于去除右边的字符。
这三个函数都可传入一个参数,指定要去除的首尾字符。
需要注意的是,传入的是一个字符数组,编译器去除两端所有相应的字符,直到没有匹配的字符,比如:
[python]
theString = 'saaaay yes no yaaaass'  
print theString.strip('say')  
theString依次被去除首尾在['s','a','y']数组内的字符,直到字符在不数组内。所以,输出的结果为:
yes no
比较简单吧,lstrip和rstrip原理是一样的。
注意:当没有传入参数时,是默认去除首尾空格和换行符的。
[python] 
theString = 'saaaay yes no yaaaass'  
print theString.strip('say')  
print theString.strip('say ') #say后面有空格  
print theString.lstrip('say')  
print theString.rstrip('say')  
运行结果:
yes no
es no
yes no yaaaass
saaaay yes no

Python爬虫之抓取京东店铺信息及下载图片相关推荐

  1. python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例

    本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...

  2. Python爬虫技术干货,教你如何实现抓取京东店铺信息及下载图片

    什么是Python爬虫开发 Python爬虫开发,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所 ...

  3. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  4. python简单爬虫代码-python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息...

    原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息 最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...

  5. java爬虫 京东_教您使用java爬虫gecco抓取JD全部商品信息(一)

    #教您使用java爬虫gecco抓取JD全部商品信息(一) ##gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取 ...

  6. python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...

    昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...

  7. python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?

    原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...

  8. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  9. python爬虫_抓取瓦片图片信息并将其拼接_以mapbar为例(适用交通工程类专业)

    python爬虫_抓取瓦片图片信息并将其拼接_以mapbar为例(适用交通工程类专业) 这次就以mapbar为例爬取道路交通拥堵情况 第一步,瓦片标号解析 第二步,拼url,然后下载 第三步,图片拼接 ...

最新文章

  1. typedef用法小结
  2. 导入Scrapy 项目报错:no module named scrapy
  3. 【CentOS】磁盘管理与vim编译器
  4. 事件驱动java实现_基于spring实现事件驱动
  5. leetcode614. 二级关注者(SQL)
  6. MyBatis基本例子-实现增删改查
  7. PIMPL(private implementation或者pointer to implementation)
  8. spring boot 配置 druid的filters时报错 Reason: org.apache.log4j.Priority
  9. 概率论与数理统计(第四版) 第一章:概率论的基本概念(总结)
  10. leach算法的实现过程_leach算法原理详解
  11. 基于Ruby 安装 sass 安装出现的错误以及解决
  12. php pecl命令,linux 运行pecl命令报错解决办法
  13. 如何把vs2003转化成vs2005
  14. 第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(上海)G Fibonacci
  15. MySQL 从 8.0.31 开始从原来的 mysql:mysql-connector-java 改为 com.mysql:mysql-connector-j
  16. ppt.mfa.gov.cn\/appo\/index.html,海外申请护照在线预约网官网登录入口:http://ppt.mfa.gov.cn/ap...
  17. 计算机主机如何睡眠,win7怎样设置电脑休眠_w7电脑设置休眠的详细步骤
  18. Word的样式库在 选项卡中_如何使用word文档?word文档使用技巧教程?
  19. 不可不知的JavaScript面向对象
  20. 小云站:小程序定制开发让店家看到了最简单的赢利方位

热门文章

  1. 一些AC自动机的(水)题
  2. js实现分数计算器的代码
  3. 极多数据的输出前k(k10)大值——swust oj福布斯排行榜(0273)
  4. mysql工具都有什么作用是什么_Navicat for MySQL是什么
  5. 【报告分享】 2021年家电行业报告-百度(附下载)
  6. 一分钟分清概率函数,分布函数,概率密度函数
  7. 握手言和,腾讯向老干妈道歉,后续双方将合作,网友:鹅爹干妈 CP,锁了!...
  8. 【思考进步】2022年1月读书思考和改进方案
  9. GAMES104实录 | 如何构建游戏世界(上)
  10. Hadoop生态里,为什么Hive活了下来