只用来学习请勿无限制使用爬虫
功能描述
目标:获取淘宝搜索页面的信息媒体去其中的商品名称和价格
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上

修改headers的方法请看:https://blog.csdn.net/wyatt007/article/details/105433009

import requests
import redef getHTMLText(url):try:# 淘宝用了反爬虫机制,必须提取cookie让他认为是用户在操作headers = {'authority': 's.taobao.com','cache-control': 'max-age=0','upgrade-insecure-requests': '1','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36','sec-fetch-dest': 'document','accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9','sec-fetch-site': 'same-site','sec-fetch-mode': 'navigate','sec-fetch-user': '?1','referer': 'https://login.taobao.com/member/login.jhtml?redirectURL=http%3A%2F%2Fs.taobao.com%2Fsearch%3Fq%3D%25E4%25B9%25A6%25E5%258C%2585%26imgfile%3D%26commend%3Dall%26ssid%3Ds5-e%26search_type%3Ditem%26sourceId%3Dtb.index%26spm%3Da21bo.2017.201856-taobao-item.1%26ie%3Dutf8%26initiative_id%3Dtbindexz_20170306&uuid=a76051882a49611851049b58f3ba0c4a','accept-language': 'zh-CN,zh;q=0.9','cookie': '_m_h5_tk=dd76fc3e6c033f4a8d8021db339a6310_1586513908224; _m_h5_tk_enc=96606e0cb355b1af3effa79bcaac6ab5; cna=NBQXF/YlUBICAW8OWvCit+VK; cookie2=18c858a70d4fce1b8c89af2efdf96783; t=dc365f48c9959c4d7e3f953ee22311ba; _tb_token_=56ae8975fb5e7; thw=cn; v=0; _samesite_flag_=true; unb=1865322938; lgc=wyatt007forest; cookie17=UondEQYxBUF5vg%3D%3D; dnk=wyatt007forest; tracknick=wyatt007forest; _l_g_=Ug%3D%3D; sg=t85; _nk_=wyatt007forest; cookie1=B0T8cGrO6mvYMvFGJtImohCg6Pp0kk6SAFOFxlzrB4k%3D; enc=Y9dHDAdu3egag5jNZIsGKVclI615Dbgl%2Ff9j6QJieRxoWyGkHfMywXdwIhiMHCLE6zqpYt7GeCafncNM6NDijg%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; mt=ci=0_1; alitrackid=login.taobao.com; lastalitrackid=login.taobao.com; sgcookie=EG6Tw2r8ZuQGCzQuamtYy; uc1=cookie15=Vq8l%2BKCLz3%2F65A%3D%3D&cookie21=UIHiLt3xSifiVqTH8o%2F0Qw%3D%3D&cookie14=UoTUPOFPQuPCNw%3D%3D&existShop=false&cookie16=URm48syIJ1yk0MX2J7mAAEhTuw%3D%3D&pas=0; uc3=vt3=F8dBxdGNasGuibD9DuA%3D&id2=UondEQYxBUF5vg%3D%3D&lg2=W5iHLLyFOGW7aA%3D%3D&nk2=FOBNgykgFniOzYa4Ulc%3D; csg=e04469e6; skt=1a8a9900f7e38fca; existShop=MTU4NjUwODUxNA%3D%3D; uc4=id4=0%40UOE3H2P%2BBP8F56sMhO3oW%2B4xeCEg&nk4=0%40FmuWKo5sKfc1BRnX8Q6OBjpgOM5hr9N%2B1g%3D%3D; _cc_=V32FPkk%2Fhw%3D%3D; JSESSIONID=5D83ECCA1EAA48986DFC186A278B74FA; tfstk=cIFABADbhgjm_fNoHSBo1cFEE_bha88xjEi96NiuyXJP-eODgs4atWeIKtgwDbQR.; isg=BAwM29cXvs9QPKqzMIgB2PVs3Wo-RbDvFkwmlGbNGLda8az7jlWAfwJDlflJouhH; l=dBTowWyqQoajurF9BOCanurza77OSIRYYuPzaNbMi_5ZZ6T6_9_OotI4XF96VjWftM8B4dapP5p9-etkZQDmndK-g3fPaxDc.',} # 隐去了cookie信息和referer信息r = requests.get(url, timeout=30,headers=headers)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt,html):try:plt=re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)tlt=re.findall(r'\"raw_title\"\:\".*?\"',html)for i in range(len(plt)):price=eval(plt[i].split(':')[1])title=eval(tlt[i].split(':')[1])ilt.append([price,title])except:print("")def printfGoodsList(ilt):tplt="{:4}\t{:8}\t{:16}"print(tplt.format("序号","价格","商品名称"))count=0for g in ilt:count=count+1print(tplt.format(count,g[0],g[1]))def main():goods="华为手机"depth=3start_url="https://s.taobao.com/search?q="+goodsinforList=[]for i in range(depth):try:url=start_url+'&s='+str(44*i)print(url)html=getHTMLText(url)print(html)parsePage(inforList,html)except:continueprintfGoodsList(inforList)main()

淘宝商品信息定向爬虫相关推荐

  1. Python爬虫学习笔记(实例:淘宝商品信息定向爬虫)

    淘宝商品信息定向爬虫先贴代码,后看解析: #淘宝商品信息定向爬虫 import requests import re#获得页面 def getHTMLText(url):try:#headers = ...

  2. 中国大学MOOC“淘宝商品信息定向爬虫”实例(2022版)

    目标: 获取淘宝搜索页面的信息 提取其中的商品名称和价格 (一)程序的结构设计: 1:提交商品搜索请求,循环获取页面 2:对于每个页面,提取商品名称和价格信息 3:将信息输出到屏幕上 (二)代码实现: ...

  3. 淘宝商品信息定向爬虫实例

    1.说明 获得淘宝的搜索接口 淘宝搜索页面不允许爬虫爬取 不要不加限制的爬取次网站 2.代码 import re import requestsdef getHTMLText(url):try:hea ...

  4. python爬淘宝的退货信息_Python——淘宝商品信息定向爬虫(requests+re)

    有点崩,现在好像爬取不到任何东西了 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 理解: 1.怎样去通过程序向淘宝提交请求,并获得提取的结果 2.怎样展示翻页的处理 首先我们要查看淘宝网的r ...

  5. Python爬虫 淘宝商品信息定向爬虫

    代码: import requests import redef getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_s ...

  6. Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

    文章目录 写在前面 一.爬取原页面 二.编程思路 1.功能描述 2.程序的结构设计 三.编程过程 1.解决翻页问题 2.编写getHTMLText()函数 3.编写parsePage()函数 (1). ...

  7. 爬虫9-淘宝商品信息定向爬虫

    功能描述: 目标 获取淘宝搜索页面的信息,提取其中的商品信息名称和价格 理解 淘宝的搜索接口 翻页的处理 技术路线 requests re 当我们在淘宝上搜索书包时: 观察淘宝页面可知每一页共44个商 ...

  8. 爬虫学习笔记——Selenium爬取淘宝商品信息并保存

    在使用selenium来模拟浏览器操作,抓取淘宝商品信息前,先完成一些准备工作. 准备工作:需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver. 安装sel ...

  9. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

最新文章

  1. Windows核心编程 第十五章 在应用程序中使用虚拟内存
  2. GraphPad Prism 9.3 更新内容,支持Monterey和Win11
  3. 【STM32】RTC相关函数和类型
  4. 嵌套 思维导图_Python 这方面,8张思维导图助你转身变大牛!
  5. linux下安装 配置 redis数据库
  6. JAVA反射修改常量,以及其局限
  7. 贪心之安排活动会场问题
  8. docker跑codalab_Codalab使用与采坑
  9. 存储函数与存储过程的区别
  10. 爬虫~爬爬爬~task1
  11. H5app 调用手机摄像头拍照、录制视频并上传demo
  12. 什么是分布式负载均衡 ?
  13. 几张趣图助你理解HTTP状态码
  14. java 日期 英文月份_java日期月份转英文格式
  15. 善于学习——总结经验
  16. 计算机音乐谱毛不易,中国内地流行男歌手毛不易歌曲简谱精选
  17. Git | 登录验证失效问题
  18. Python 简单元组入门之“简易中文数字对照表”
  19. 自我管理五维度,遇见更好的自己
  20. 南京大学本科、斯坦福博士、化学奥赛金牌得主 王庆根 人生反思

热门文章

  1. 我的新工作感悟(一)
  2. 香港韩国日本美国站群服务器如果选择
  3. SSH整合方式1——无障碍整合
  4. 机器学习:指数函数和对数函数简单区别
  5. excel表格不够怎么添加_Excel表格技巧—表格不够怎么添加
  6. 关于焦耳小偷电路分析
  7. 笔记:关于QMap使用时候的一点技巧
  8. 宝来悬浮车顶图片_关于目前最流行的设计—悬浮式车顶,你必须要了解的知识...
  9. 泰山OFFICE技术讲座:页面空白(页边距)是怎么算的
  10. 信息与通信的数学基础——第一章 复数与复变函数