代码部分:
下面是正确的:

import requests
import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)fee = re.findall(r'\"view_fee\"\:\"[\d\.]*\"',html)xiao = re.findall(r'\"view_sales\"\:\".*?\"',html)tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)shop = re.findall(r'\"nick\"\:\".*?\"',html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])feeprice = eval(fee[i].split(':')[1])xiaoliang = eval(xiao[i].split(':')[1])title = eval(tlt[i].split(':')[1])shopname = eval(shop[i].split(':')[1])ilt.append([price,feeprice,xiaoliang,title,shopname])#,salexcept:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:8}\t{:8}\t{:16}\t{:8}"print(tplt.format("序号","价格","邮费","销量","商品名称                                          ","店铺名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count,g[0],g[1],g[2],g[3],g[4]))def main():goods = '书包'depth = 1start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44*i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

这个爬取的正则表达式:

其中在爬取销量那个标签的时候,没有报错。
但是也不会出现自己想要的东西。其他的爬取成功的信息也不会显示出来。
后来,我看了看网页源代码:
其中有个“人付款”,这个是中文的呀。
明显用数字的正则表达式来爬取是不可以爬取到,也许是因为超时了?
反正就是什么都输出不来。

成功示例图:


失败示例图:

代码,真有意思!

Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误相关推荐

  1. 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图

    13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18​上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...

  2. python打印汉字报错_python中文输出报错解决方案(实例教程)

    对于刚刚开始接触python这门语言的人来说,可能会对于如何使用这门语言来进行编程会存在有一定的疑惑.如何使用中文来进行程序的编写,会不会与英文的编写有不一样的地方?今天我们就来看一下在python中 ...

  3. Python使用try...except...输出详细错误信息(比如报错具体位置在第几行)

     代码详情如下: # Python使用try...except...输出详细错误信息(比如报错具体位置在第几行)import sys import tracebacktry:print(1/1)pri ...

  4. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  5. python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)

    我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...

  6. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  7. python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  8. beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源

    一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...

  9. java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面

    使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...

最新文章

  1. 用python实现杨辉三角的几种不同方式
  2. redis详解(四)-- 高可用分布式集群
  3. .NET Core SignalR Redis底板详解(一)
  4. 3.3 参数估计:贝叶斯估计
  5. Microsoft Tech Summit 2018 课程简述:利用 Windows 新特性开发出更好的手绘视频应用...
  6. 为什么Controller层注入的是Service接口,而不是ServiceImpl实现类
  7. C语言数据结构课程设计(可运行)
  8. python修改pdf元信息 metadata
  9. pytest-allure美化——定制化输出测试报告
  10. 查准率/查全率/F1指标
  11. kvs(Kyoto Visualization System)的初次使用
  12. 我最喜爱的九位历史人物 - 曾国藩(Space搬家)
  13. 魏文王问扁鹊的注释_魏文王问扁鹊 魏文王问扁鹊:“子昆弟三人其孰最善为医?” 扁...
  14. 年前人间尤物,年后惨不忍睹
  15. Vue动画出现和隐藏
  16. CDA-Community Data Access规则
  17. 小说里的编程 【连载之二十三】元宇宙里月亮弯弯
  18. 白月黑羽教python之selenium:课后练习作业二
  19. “第二期政府CIO论坛”顺利举行
  20. 计算机网络自顶向下方法 第六章 链路层和局域网 6.3 多路访问链路和协议

热门文章

  1. 亚马逊机器学习服务:深入研究AWS SageMaker
  2. 比Hadoop快至少10倍的物联网大数据平台,我把它开源了
  3. Python编写循环的两个建议 | 鹅厂实战
  4. 首发 | 旷视14篇CVPR 2019论文,都有哪些亮点?
  5. 机器学习开源项目Top10
  6. 捅破砂锅!这位在AI医疗埋头多年的创业者,说出了这些行业真相
  7. Java实现pdf和Excel的生成及数据动态插入、导出
  8. Elasticsearch索引生命周期管理方案
  9. 不想CRUD干到老,就来看看这篇OOM排查的实战案例!
  10. 网络常见的 9 大命令,非常实用!