Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误
代码部分:
下面是正确的:
import requests
import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)fee = re.findall(r'\"view_fee\"\:\"[\d\.]*\"',html)xiao = re.findall(r'\"view_sales\"\:\".*?\"',html)tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)shop = re.findall(r'\"nick\"\:\".*?\"',html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])feeprice = eval(fee[i].split(':')[1])xiaoliang = eval(xiao[i].split(':')[1])title = eval(tlt[i].split(':')[1])shopname = eval(shop[i].split(':')[1])ilt.append([price,feeprice,xiaoliang,title,shopname])#,salexcept:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:8}\t{:8}\t{:16}\t{:8}"print(tplt.format("序号","价格","邮费","销量","商品名称 ","店铺名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count,g[0],g[1],g[2],g[3],g[4]))def main():goods = '书包'depth = 1start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44*i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()
这个爬取的正则表达式:
其中在爬取销量那个标签的时候,没有报错。
但是也不会出现自己想要的东西。其他的爬取成功的信息也不会显示出来。
后来,我看了看网页源代码:
其中有个“人付款”,这个是中文的呀。
明显用数字的正则表达式来爬取是不可以爬取到,也许是因为超时了?
反正就是什么都输出不来。
成功示例图:
失败示例图:
代码,真有意思!
Python,自己修改的爬取淘宝网页的代码 修改Python爬虫,爬取淘宝商品信息也不报错,也不输出信息的错误相关推荐
- 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图
13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...
- python打印汉字报错_python中文输出报错解决方案(实例教程)
对于刚刚开始接触python这门语言的人来说,可能会对于如何使用这门语言来进行编程会存在有一定的疑惑.如何使用中文来进行程序的编写,会不会与英文的编写有不一样的地方?今天我们就来看一下在python中 ...
- Python使用try...except...输出详细错误信息(比如报错具体位置在第几行)
代码详情如下: # Python使用try...except...输出详细错误信息(比如报错具体位置在第几行)import sys import tracebacktry:print(1/1)pri ...
- python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
- python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)
我们的这个爬虫设计来爬取京东图书(jd.com). scrapy框架相信大家比较了解了.里面有很多复杂的机制,超出本文的范围. 1.爬虫spider tips: 1.xpath的语法比较坑,但是你可以 ...
- python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例
这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...
- python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- beautifulsoup爬取网页中的表格_Python爬虫爬取BT之家找电影资源
一.写在前面 最近看新闻说圣城家园(SCG)倒了,之前BT天堂倒了,暴风影音也不行了,可以说看个电影越来越费力,国内大厂如企鹅和爱奇艺最近也出现一些幺蛾子,虽然目前版权意识虽然越来越强,但是很多资源在 ...
- java用爬虫爬一个页面_使用Java写一个简单爬虫爬取单页面
使用Java爬虫爬取人民日报公众号页面图片 使用Java框架Jsoup和HttpClient实现,先看代码 爬取目标页面 1.使用Maven构建一个普通Java工程 加入依赖: org.jsoup j ...
最新文章
- 用python实现杨辉三角的几种不同方式
- redis详解(四)-- 高可用分布式集群
- .NET Core SignalR Redis底板详解(一)
- 3.3 参数估计:贝叶斯估计
- Microsoft Tech Summit 2018 课程简述:利用 Windows 新特性开发出更好的手绘视频应用...
- 为什么Controller层注入的是Service接口,而不是ServiceImpl实现类
- C语言数据结构课程设计(可运行)
- python修改pdf元信息 metadata
- pytest-allure美化——定制化输出测试报告
- 查准率/查全率/F1指标
- kvs(Kyoto Visualization System)的初次使用
- 我最喜爱的九位历史人物 - 曾国藩(Space搬家)
- 魏文王问扁鹊的注释_魏文王问扁鹊 魏文王问扁鹊:“子昆弟三人其孰最善为医?” 扁...
- 年前人间尤物,年后惨不忍睹
- Vue动画出现和隐藏
- CDA-Community Data Access规则
- 小说里的编程 【连载之二十三】元宇宙里月亮弯弯
- 白月黑羽教python之selenium:课后练习作业二
- “第二期政府CIO论坛”顺利举行
- 计算机网络自顶向下方法 第六章 链路层和局域网 6.3 多路访问链路和协议