关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息

python小白最近看老师课程,发现淘宝网页升级了,用以前的代码爬不了,查找了很多资料后发现了一些缺陷,在此分享给大家

老师的代码大体上没问题,就是需要加一个headers
这里我们可以用https://curl.trillworks.com/#这个来获取headers

  • 首先来到书包首页,按F12,然后按照图示步骤操纵
  • 复制完cURL(bash)后点击这个链接:https://curl.trillworks.com/#,然后把内容复制到左边窗口,在获取右边窗口的headers信息就行了
  • 最后在getHTNLText()函数中加上headers就行了

附上代码:

import requests
import redef getHTMLText(url):try:#在这里添加headersheader = {'authority': 's.taobao.com','cache-control': 'max-age=0','upgrade-insecure-requests': '1','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.72 Safari/537.36 Edg/89.0.774.45','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','sec-fetch-site': 'same-origin','sec-fetch-mode': 'navigate','sec-fetch-user': '?1','sec-fetch-dest': 'document','referer': '*******','accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6,ja;q=0.5','cookie': '*******',}#这里我把cookie和referer改了,大家可以直接按照操作获取r = requests.get(url,headers = header, timeout = 30)  #这里别忘了把headers加进去r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'"view_price":"[\d.]*"', html) #其实老师这里加了'\'来进行转义,但其实不加也行,加了更好tlt = re.findall(r'"raw_title":".*?"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except:print("")def printGoodsList(ilt):tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = count + 1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 3   #爬取深度start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44 * i)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

其实这篇文章和我上次那个爬取大学排名文章的处理方法很类似,只不过这个更麻烦,最后还是提醒以下,不要不加限制的爬取这个网页

最后附上爬取大学排名文章的链接:https://blog.csdn.net/wzy1414/article/details/114599525

关于中国大学mooc嵩天老师课程中定向爬取淘宝产品信息相关推荐

  1. 通过requests库re库进行淘宝商品爬虫爬取(对中国大学mooc嵩天老师爬虫进行修改)

    中国大学mooc上的爬取淘宝页面商品已经因为淘宝的维护而无法爬取 比如,只出现个表头: 这是我按照嵩天老师代码学习,遇到的问题. 原代码如下: import requests import re de ...

  2. 定向爬取淘宝商品名称和价格(嵩天老师)

    嵩天老师的代码不能爬取现在的淘宝,那是因为现在淘宝的反扒技术升级了 解决方法:我们要将headers中的cookie替换成淘宝的(每个人的cookie值是不同的) 具体方法参考:通过requests库 ...

  3. 使用计算机要遵循哪些规则,中国大学MOOC:\\\在计算机网络的定义中,把众多计算机有机连接起来要遵循规定的约定和规则,称之为( )。\\\;...

    问题:中国大学MOOC:\\\"在计算机网络的定义中,把众多计算机有机连接起来要遵循规定的约定和规则,称之为( ).\\\"; 更多相关问题 在地方性分异因素作用下,土地类型的分布 ...

  4. python合法的变量名有哪些_中国大学MOOC: 以下不是Python中合法变量名的是______。...

    中国大学MOOC: 以下不是Python中合法变量名的是______. 答:5MyGod "32位微型计算机"中的32指的是( ) 答:机器字长 以下是细胞因子治疗肿瘤的特点的是: ...

  5. python语言程序设计是什么课文_中国大学MOOC有哪些优质课程?

    说到学习,相信很多人囤了一堆自学网站吧?囤完之后,是不是依然不知道要学什么? 因为免费的网络课程,质量参差不齐,试错成本太高. 所以小叶子帮大家做了这样一件事,直接帮你从中国大学MOOC里挑选了25门 ...

  6. 七步爬取淘宝天猫bra销售数据,分析中国女性胸部大小分布比例

    这是一个有趣的项目,关于bra销售数据分析的.是网络爬虫和数据分析的综合应用项目.从淘宝抓取bra销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句.Pandas ...

  7. python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名

    from bs4 import BeautifulSoup # 网页解析 获取数据 import re # 正则表达式 进行文字匹配 import urllib.request, urllib.err ...

  8. 史上最细,Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程

    今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...

  9. linux 文件在哪个硬盘,中国大学MOOC: 在Linux文件系统中,文件名也存放在磁盘上,存放于磁盘的下述哪个区域 答案:文件存储区...

    相关问题 中国大学MOOC:"唐蕃会盟碑又称为甥舅会盟碑,对吗?"; 中国大学MOOC:"If students plan to study in a second la ...

最新文章

  1. VTK:彩色海拔地图用法实战
  2. Java基础学习总结(30)——Java 内存溢出问题总结
  3. 在asp中使用js的encodeURIComponent方法
  4. 微软Skype即将抛弃Windows Phone 8和8.1用户
  5. 百度服务器状态异常,百度抓取异常连接超时是什么意思
  6. 安装远程服务器管理工具(RSAT-Remote Server Administration Tools)
  7. Linux基本的键盘输入快捷键和一些常用命令
  8. Unity 获取 两个点的中心点
  9. safari 调试 打印刚加载界面时缓存的log信息 iOS Safari调试iPhone设备上的网页
  10. 从执行计划的预估行数看执行计划是否正确
  11. BufferQueue has been abandoned解决方案
  12. 1、已知:1公里=2里=1000米,请编写一个程序,输入公里数,将其转换成里和米。要求程序的输入输出如下: 请输入公里数: 3.3 3.30公里=6.60里=3300米
  13. Pr简介安装教学与素材全家桶
  14. 20190723 架构师-形成技术体系
  15. 中国蚁剑下载、安装、使用教程
  16. 物流团队怎么做阿米巴电商?
  17. 手写数字识别——算法
  18. python基础案例:迅雷下载
  19. jmeter怎么读(jmeter怎么读)
  20. Linux系统下进程的概念《一》

热门文章

  1. 二维码的生成以及长按识别
  2. 阿里云Code已升级为新版Codeup,更大容量、更多功能还免费的新版Codeup真香
  3. 迅捷PDF转换器(app.xunjiepdf.com)
  4. NRF24L01之数据手册要点解析和经验分享
  5. 基于STM32的简单数字示波器
  6. php 挡住刷流量,恶意刷流量屏蔽过滤方法分享
  7. 整站优化部分关键词排名卡在第二页上不去的原因
  8. Java秒杀系统方案优化 高性能高并发实战视频
  9. 机器学习习题(18)
  10. Python 之父 Guido 宣布退休,离开 Dropbox