Python 爬虫学习笔记三：多页内容爬取内容分析及格式化

Python 爬虫学习笔记三：多页内容爬取&内容分析及格式化

python int 与 string 之间的转换：

Python int与string之间的转化
string–>int

1、10进制string转化为int

　int(‘12’)

2、16进制string转化为int

　　int(‘12’, 16)

int–>string

1、int转化为10进制string

　　str(18)

2、int转化为16进制string

　　hex(18)

2 . 由于链家网上面选中第二页的时候，只是在页面后面多了一个“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后，可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return
for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)

4 . 爬取了20页的内容，可是内容的结果输出的形式并没有改变

【注】看到的比较好的文章

[1] 利用Python爬取朋友圈数据，爬到你开始怀疑人生
[2] 请问爬虫如何爬取动态页面的内容？
[3] 如何用爬取的数据赚钱
[4] 钱塘数据大数据交易中心
[5] 利用爬虫技术能做到哪些很酷很有趣很有用的事情？

Python 爬虫学习笔记三：多页内容爬取内容分析及格式化相关推荐

【Python爬虫学习笔记12】Ajax数据爬取简介
有时候在我们设计利用requests抓取网页数据的时候,会发现所获得的结果可能与浏览器显示给我们的不一样:比如说有的信息我们通过浏览器可以显示,但一旦用requests却得不到想要的结果.这种现象是因 ...
Python爬虫学习笔记 (9) [初级] 小练习爬取慕课网课程清单
更新日期: 2021.03.28 本节学习内容 : 练习使用 bs4 和 xlwings - 爬取慕课网免费课程清单并存为 Excel 文件. 目录 1. 目标信息 2. 爬取步骤 3. 代码 5. ...
Python3 爬虫学习笔记 C03 【Ajax 数据爬取】
Python3 爬虫学习笔记第三章 -- [Ajax 数据爬取] 文章目录 [3.1]Ajax 简介 [3.2]解析真实地址提取 [3.1]Ajax 简介 Ajax - Asynchronous Ja ...
从入门到入土：Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)
2020年最新淘宝商品比价定向爬取功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口翻页的处理技术路线:requests re 程序的结 ...
Python数据爬虫学习笔记（21）Scrapy爬取当当图书数据并存储至SQLite数据库
一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...
爬虫学习笔记（一）：爬取书籍信息
爬取爬虫练习网站的书籍信息专门供爬虫初学者训练爬虫技术的网站(http://books.toscrape.com) 我使用的浏览器是Google Chrome浏览器 1. 创建项目首先,我们要创建 ...
【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100
目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...
Python爬虫学习（七）执行定时任务爬取12306余票信息发送邮件通知
分析我们输入的上海,北京都变成了对应的编号,比如,上海(SHH).北京(BJP),所以当我们程序进行输入的时候要进行一下处理,12306的一个地方存储着这些城市名与编码对应的文档: GET请求: h ...
Python爬虫实战（三）：定时爬取数据存入SqlServer
目录

Python 爬虫学习笔记三：多页内容爬取内容分析及格式化

Python 爬虫学习笔记三：多页内容爬取&内容分析及格式化

Python 爬虫学习笔记三：多页内容爬取内容分析及格式化相关推荐

最新文章

热门文章