Python 爬虫学习笔记三:多页内容爬取&内容分析及格式化

  1. python int 与 string 之间的转换:

Python int与string之间的转化
string–>int

1、10进制string转化为int

 int(‘12’)

2、16进制string转化为int

  int(‘12’, 16)

int–>string

1、int转化为10进制string

  str(18)

2、int转化为16进制string

  hex(18)


2 . 由于链家网上面选中第二页的时候,只是在页面后面多了一个“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后,可以打印所有的爬取结果

from lxml import etree
import requests
import string
url = 'http://sh.lianjia.com/ershoufang/'
region = 'pudong'
price = 'p23'
finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return
for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)

4 . 爬取了20页的内容,可是内容的结果输出的形式并没有改变


【注】 看到的比较好的文章

[1] 利用Python爬取朋友圈数据,爬到你开始怀疑人生
[2] 请问爬虫如何爬取动态页面的内容?
[3] 如何用爬取的数据赚钱
[4] 钱塘数据大数据交易中心
[5] 利用爬虫技术能做到哪些很酷很有趣很有用的事情?

Python 爬虫学习笔记三:多页内容爬取内容分析及格式化相关推荐

  1. 【Python爬虫学习笔记12】Ajax数据爬取简介

    有时候在我们设计利用requests抓取网页数据的时候,会发现所获得的结果可能与浏览器显示给我们的不一样:比如说有的信息我们通过浏览器可以显示,但一旦用requests却得不到想要的结果.这种现象是因 ...

  2. Python爬虫学习笔记 (9) [初级] 小练习 爬取慕课网课程清单

    更新日期: 2021.03.28 本节学习内容 : 练习使用 bs4 和 xlwings - 爬取慕课网免费课程清单并存为 Excel 文件. 目录 1. 目标信息 2. 爬取步骤 3. 代码 5. ...

  3. Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

    Python3 爬虫学习笔记第三章 -- [Ajax 数据爬取] 文章目录 [3.1]Ajax 简介 [3.2]解析真实地址提取 [3.1]Ajax 简介 Ajax - Asynchronous Ja ...

  4. 从入门到入土:Python爬虫学习|实例练手|详细讲解|爬取腾讯招聘网|一步一步分析|异步加载|初级难度反扒处理|寻找消失的API来找工作吧

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

    2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests­          re 程序的结 ...

  6. Python数据爬虫学习笔记(21)Scrapy爬取当当图书数据并存储至SQLite数据库

    一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...

  7. 爬虫学习笔记(一):爬取书籍信息

    爬取爬虫练习网站的书籍信息 专门供爬虫初学者训练爬虫技术的网站(http://books.toscrape.com) 我使用的浏览器是Google Chrome浏览器 1. 创建项目 首先,我们要创建 ...

  8. 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100

    目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...

  9. Python爬虫学习(七)执行定时任务爬取12306余票信息发送邮件通知

    分析 我们输入的上海,北京都变成了对应的编号,比如,上海(SHH).北京(BJP),所以当我们程序进行输入的时候要进行一下处理,12306的一个地方存储着这些城市名与编码对应的文档: GET请求: h ...

  10. Python爬虫实战(三):定时爬取数据存入SqlServer

    目录

最新文章

  1. UDP和TCP中的伪首部
  2. Spark _29_SparkStreaming初始
  3. 人们常说的微型计算机简称为 机,(精华版)国家开放大学电大专科《计算机文化基础》网络课单项选择题题库及答案...
  4. java递归栈_java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5},1在栈顶。颠倒之后的栈为{5,4,3,2,1},5处在栈顶...
  5. 【转】c#处理3种json数据的实例
  6. C++自学-默认参数的函数
  7. Otsu算法原理及实现
  8. 慕课PDF下载扩展--再也不用担心慕课不给PDF了
  9. 抢红包算法 c++_【优化求解】基于粒子群算法的光伏电池MPPT控制策略
  10. python 序列去重并保持原始顺序
  11. 南京大学计算机系住宿环境,请问有没有人知道南京大学计算机系大四学生在哪个校区?...
  12. javascript大全
  13. 坑!U+03bf和U+006f
  14. python调用系统本地程序
  15. C/C++的左值和右值
  16. 清华2020计算机系张晨,本科三篇顶会一作、超算竞赛冠军,2020清华本科特奖结果出炉...
  17. PHPnow, 省去我无尽烦恼
  18. 以太网交换芯片行业研究及十四五规划分析报告
  19. 企业为什么要申报高新技术企业
  20. log4net 配置文件相对路径配置

热门文章

  1. 颁奖 | 阿D给你发年终奖啦~
  2. 2022年中国中小学教育信息化行业研究报告
  3. 极速office(Word)怎么删除背景颜色
  4. Trunk详解(笔记)
  5. abyy a+poj1062
  6. 微信公众号授权登录,微信sdk的使用,及ios配置微信sdk失败
  7. 二维码的原理竟如此简单,第一次有人说的这么明白
  8. 黑群晖Apache Http Server 启动失败错误
  9. NVIDIA GeForce Experience 无法登录解决办法
  10. 移植Python3到TQ2440(二)