Python-实现根据关键词获取网页内容
一、项目介绍
获取TB网页的一些信息(仅进行教育目的)
比如我们要通过关键字获取TB界面上的一些信息。
通过确认可以发现请求为:
https://s.taobao.com/search?q=书包&s=0 #q代表关键字,显示第一页
https://s.taobao.com/search?q=书包&s=44 #显示第二页,每一个44个
结构设计:
- 提交商品请求,循环获取页面。
- 对于每个页面,提取商品名称和价格信息。
- 将信息输出到屏幕上。
二、获取解析
使用的解析方法有多种,一种使用BeatifulSoup库,一种使用正则表达式直接匹配出来。我们这里使用正则表达式。
通过查看源码可以看到,view_price和raw_title标签是我们需要的内容。
三、源码
# 已失效,需要登录
import requests
import redef getHTMLText(url):try:r = requests.get(url, timeout = 30)r.raise_for_status()r.encoding = r.apparent_encoding #防止中文乱码print(r.text)return r.textexcept:return ""def parsePage(ilt, html):try:plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price, title])except:print("") def printGoodsList(ilt):print(ilt)tplt = "{:4}\t{:8}\t{:16}"print(tplt.format("序号", "价格", "商品名称"))count = 0for g in ilt:count = coount +1print(tplt.format(count, g[0], g[1]))def main():goods = '书包'depth = 1 #搜索两页,每页44个商品start_url = 'https://s.taobao.com/search?q=' + goodsinfoList = []for i in range(depth):try:url = start_url + '&s=' + str(44*i)print(url)html = getHTMLText(url)parsePage(infoList, html)except:continueprintGoodsList(infoList)main()
Python-实现根据关键词获取网页内容相关推荐
- python打开网页获取网页内容方法总结
在学习python爬虫的过程中,总会遇到要获取网页内容的时候,下面就对如何获取网页内容进行总结. 方法一: >import urllib >url="http://www.bai ...
- python如何读取中文文件-如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...
- python输入三行数据_3行Python代码就能获取海量数据?
原标题:3行Python代码就能获取海量数据? 一谈起数据分析,首先想到的就是数据,没有数据,谈何分析. 毕竟好的菜肴,没有好的原材料,是很难做的- 所以本期小F就给大家分享一个获取数据的方法,只需三 ...
- 如何使用python-如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...
- 通过Python爬虫按关键词抓取相关的新闻
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途 如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加密.微博的登录验证等.相比较而言,新闻网站的反爬机制 ...
- Python 使用 twitter API 获取twitter用户信息
Python 使用 twitter API 获取twitter用户信息 1. 概述 twitter作为国外极其大众化的社交平台,具有大量的海外用户,平台流动数据量极大,是国外人群生活数据的重要来源之一 ...
- python中文模糊关键词提取_如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提 ...
- python爬虫关键词抓手机号_通过Python爬虫按关键词抓取相关的新闻
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加 ...
- python网页爬虫循环获取_手把手教你用 Python 搞定网页爬虫
原标题:手把手教你用 Python 搞定网页爬虫 编译:欧剃 作为数据科学家的第一个任务,就是做网页爬取.那时候,我对使用代码从网站上获取数据这项技术完全一无所知,它偏偏又是最有逻辑性并且最容易获得的 ...
- Python Socket请求网站获取数据
Python Socket请求网站获取数据 ---阻塞 I/O ->收快递,快递如果不到,就干不了其他的活 ---非阻塞I/0 ->收快递,不断的去问,有没有送到,有没有送到,. ...
最新文章
- 由粗到精学习LVI-SAM:论文原文解析
- C++基本序列式容器 vector (一)
- 给Source Insight做个外挂系列之六--“TabSiPlus”的其它问题
- Mac OS 怎么设置host
- [BOOST] BOOST::Format
- java 获取周日期_java 获得本周一到周五的日期
- python编程语言-为什么我不建议你将python作为入门编程语言
- 正则表达式和通配符的异同
- 无源晶振有方向吗?无源贴片晶振贴反会怎样?
- 案例分析十大管理领域理论背诵要点
- 处nm是什么意思_“nm”是什么意思啊?
- 校园采花经历(超级爆笑)
- 开源技术分享:SDN网络浅析与选型
- 云创办公智慧企业丨企业的下一个前沿阵地
- 字符编码 - GB2312简体中文编码表
- oracle 11g 新特性
- 魔兽世界怀旧服服务器显示离线上不去,魔兽世界怀旧服服务器断开连接怎么办-魔兽世界怀旧服怎么进不去_6137游戏网...
- 如何在3dmax里查看有几套UV集(UV通道)以及如何在max里删除多余的UV集
- 区块链内容平台陀螺财经完成700W天使轮融资
- 数据结构——线性表知识思维导图
热门文章
- python把正整数翻译成英文_python实现在线翻译
- 概率论在实际生活的例子_生活中有趣的概率论例子
- Bootstrap之折叠(Collapse)
- oracle重启rac2监听,RAC监听服务
- Android游戏开发之小球重力感应实现
- HTML5期末大作业:红酒销售网页网站设计——品牌红酒销售网页模板(4页) html网页设计期末大作业_网页设计平时作业
- 【开源访谈】ECharts 作者 林峰 访谈实录
- 期货的结算价和收盘价(期货的结算价和收盘价一样吗)
- 前端失业 3个月,尝试接私单的感触
- FTP客户端(利用sun.net.ftp.FtpClient实现)