一、项目介绍

获取TB网页的一些信息(仅进行教育目的)
比如我们要通过关键字获取TB界面上的一些信息。
通过确认可以发现请求为:

https://s.taobao.com/search?q=书包&s=0    #q代表关键字,显示第一页
https://s.taobao.com/search?q=书包&s=44   #显示第二页,每一个44个

结构设计:

  • 提交商品请求,循环获取页面。
  • 对于每个页面,提取商品名称和价格信息。
  • 将信息输出到屏幕上。

二、获取解析

使用的解析方法有多种,一种使用BeatifulSoup库,一种使用正则表达式直接匹配出来。我们这里使用正则表达式。
通过查看源码可以看到,view_price和raw_title标签是我们需要的内容。

三、源码

# 已失效,需要登录
import requests
import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status()r.encoding = r.apparent_encoding  #防止中文乱码print(r.text)return r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except:print("")  def printGoodsList(ilt):print(ilt)tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = coount +1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 1 #搜索两页,每页44个商品start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44*i)print(url)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()

Python-实现根据关键词获取网页内容相关推荐

  1. python打开网页获取网页内容方法总结

    在学习python爬虫的过程中,总会遇到要获取网页内容的时候,下面就对如何获取网页内容进行总结. 方法一: >import urllib >url="http://www.bai ...

  2. python如何读取中文文件-如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...

  3. python输入三行数据_3行Python代码就能获取海量数据?

    原标题:3行Python代码就能获取海量数据? 一谈起数据分析,首先想到的就是数据,没有数据,谈何分析. 毕竟好的菜肴,没有好的原材料,是很难做的- 所以本期小F就给大家分享一个获取数据的方法,只需三 ...

  4. 如何使用python-如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...

  5. 通过Python爬虫按关键词抓取相关的新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途 如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加密.微博的登录验证等.相比较而言,新闻网站的反爬机制 ...

  6. Python 使用 twitter API 获取twitter用户信息

    Python 使用 twitter API 获取twitter用户信息 1. 概述 twitter作为国外极其大众化的社交平台,具有大量的海外用户,平台流动数据量极大,是国外人群生活数据的重要来源之一 ...

  7. python中文模糊关键词提取_如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提 ...

  8. python爬虫关键词抓手机号_通过Python爬虫按关键词抓取相关的新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加 ...

  9. python网页爬虫循环获取_手把手教你用 Python 搞定网页爬虫

    原标题:手把手教你用 Python 搞定网页爬虫 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑性并且最容易获得的 ...

  10. Python Socket请求网站获取数据

     Python Socket请求网站获取数据 ---阻塞 I/O     ->收快递,快递如果不到,就干不了其他的活 ---非阻塞I/0 ->收快递,不断的去问,有没有送到,有没有送到,. ...

最新文章

  1. 由粗到精学习LVI-SAM:论文原文解析
  2. C++基本序列式容器 vector (一)
  3. 给Source Insight做个外挂系列之六--“TabSiPlus”的其它问题
  4. Mac OS 怎么设置host
  5. [BOOST] BOOST::Format
  6. java 获取周日期_java 获得本周一到周五的日期
  7. python编程语言-为什么我不建议你将python作为入门编程语言
  8. 正则表达式和通配符的异同
  9. 无源晶振有方向吗?无源贴片晶振贴反会怎样?
  10. 案例分析十大管理领域理论背诵要点
  11. 处nm是什么意思_“nm”是什么意思啊?
  12. 校园采花经历(超级爆笑)
  13. 开源技术分享:SDN网络浅析与选型
  14. 云创办公智慧企业丨企业的下一个前沿阵地
  15. 字符编码 - GB2312简体中文编码表
  16. oracle 11g 新特性
  17. 魔兽世界怀旧服服务器显示离线上不去,魔兽世界怀旧服服务器断开连接怎么办-魔兽世界怀旧服怎么进不去_6137游戏网...
  18. 如何在3dmax里查看有几套UV集(UV通道)以及如何在max里删除多余的UV集
  19. 区块链内容平台陀螺财经完成700W天使轮融资
  20. 数据结构——线性表知识思维导图

热门文章

  1. python把正整数翻译成英文_python实现在线翻译
  2. 概率论在实际生活的例子_生活中有趣的概率论例子
  3. Bootstrap之折叠(Collapse)
  4. oracle重启rac2监听,RAC监听服务
  5. Android游戏开发之小球重力感应实现
  6. HTML5期末大作业:红酒销售网页网站设计——品牌红酒销售网页模板(4页) html网页设计期末大作业_网页设计平时作业
  7. 【开源访谈】ECharts 作者 林峰 访谈实录
  8. 期货的结算价和收盘价(期货的结算价和收盘价一样吗)
  9. 前端失业 3个月,尝试接私单的感触
  10. FTP客户端(利用sun.net.ftp.FtpClient实现)