第一次在知乎写东西有点紧张,事先在ppt中做了相关记录,

接下来我就直接上ppt的截图啦

主要是考虑到近两年可能会买房,所以就对当地二手房市场做了下简单的调研,所以接下来的数据都是基于二手房信息的

第一步:选取数据源

采集规则:链家二手房_松江_50平以下

采集内容:基本信息、房型、单价、总价、周边交通等

第二步:定位标志(定义规则)

1、点击标题进行定位,做定位标志映射的节点它必须要有属性值(id或class值),如果定位到的节点没有属性值就往上层找。在本例中,找到的div节点有属性值@class=title,可以作为定位标志值。

2、右击DIV节点,选择“定位标志映射”->“基本信息”,映射后,在整理箱的定位标志和类型这两列,可以看到title和+class,表示把@class=title的节点映射给了标题,这时,标题既有内容映射又有定位标志映射。

3、接下去就以此类推去定义自己需要的规则

第三步:设置翻页

包括两个步骤:1.设置翻页区 2. 设置翻页记号

1、设置翻页区

在当前页面,点击翻页区,发现整个翻页区变黄了,而且,在下面的DOM窗口,光标自动定位到了DIV节点,右击这个节点,选中翻页映射→作为翻页区→新建线索。

2、设置翻页记号

此时,工作台自动切换到了爬虫路线。不用理会。继续在当前网页,点击翻页按钮“下一页”。在下面的DOM区,光标自动定位到了A节点,点开A节点,寻找text节点,找到后,右击这个text节点,选中翻页映射→作为翻页记号。

第四步:存规则,抓数据

1、点击GS浏览器上的“存规则“按钮,保存规则。点击浏览器上的“爬数据“按钮,或者到打数机,启动采集,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件。

第五步:查看数据结果

1、打数机采集下来的数据保存在哪里?在DS打数机的文件菜单->存储路径中可以找到文件路径。采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中。

2、在对应主题名的文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的,一页会生成一个xml文件。

3、xml文件可以用浏览器、记事本、excel打开,通过一些工具可以转为其他文件格式。例如:用集搜客会员中心的数据管理功能可以转换为excel格式

这五个步骤就简单的完成了相关的数据采集,让各位看官见笑了。总体来说还是相对比较简单的。

这只是第一步,数据采集,那么接下去就是如何对已经采集到的数据进行简单的分析处理了。

这是我接下去要做的事情,希望能通过一段时间的学习之后(争取一周到两周的时间),再上知乎做一个小总结吧

链家网页爬虫_爬虫小技巧——以最简单的方式爬取链家房源信息相关推荐

  1. python爬虫爬取安居客房源信息

    爬取安居客房源信息 Xpath插件的安装 爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑 爬取数据的通用流程 代码 代码的问题 & 运行时可能出现的问题 结果 数据处理部分(写给我自己 ...

  2. python爬虫爬取房源_Python爬虫项目--爬取自如网房源信息

    本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http:/ ...

  3. python3 爬虫第二步Selenium 使用简单的方式抓取复杂的页面信息

    Selenium 简介 该系列专栏上一篇爬虫文章点击这里. 网站复杂度增加,爬虫编写的方式也会随着增加.使用Selenium 可以通过简单的方式抓取复杂的网站页面,得到想要的信息. Selenium ...

  4. python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...

    爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...

  5. python爬虫爬取房源_python爬虫爬取安居客房源信息

    Xpath插件的安装 链接:https://pan.baidu.com/s/1T3V11Ev8dPODa2fCRbeuCg 提取码:qvzf 将这个安装包解压缩 打开谷歌浏览器的扩展程序 ----&g ...

  6. ubuntu 分区_系统小技巧:迁移通过Wubi方式安装的Ubuntu系统

    当通过Wubi安装了Ubuntu系统的电脑需要升级更换硬盘,或者同一台Windows电脑希望同时安装32位和64位的Ubuntu时,直接迁移Ubuntu无疑是比较好的方法,它既不用重装系统也不用一个个 ...

  7. 如何高效地爬取链家的房源信息(三)

    "Python实现的链家网站的爬虫第三部分." 本系列文将以链家南京站为例,使用Python实现链家二手房源信息的爬虫,将数据爬取,并存入数据库中,以便使用. 本系列第一部分为基础 ...

  8. Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息

    SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...

  9. Python爬虫爬取链家网上的房源信息练习

    一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/  ...

  10. Python爬取链家成都二手房源信息,异步爬虫实战项目!

    本文先熟悉并发与并行.阻塞与非阻塞.同步与异步.多线程.多线程.协程的基本概念.再实现asyncio + aiohttp爬取链家成都二手房源信息的异步爬虫,爬取效率与多线程版进行简单测试和比较. 1. ...

最新文章

  1. C:模块化程序设计 以及数组
  2. java多线程编程_Java多线程编程实战指南+设计模式篇.pdf
  3. 网络安全系列之三十五 缓冲区溢出
  4. 用java实现验证码(CAPTCHA)
  5. 计算机图形学-MFC界面分屏操作
  6. poj3311 经典tsp问题
  7. Drools 6.4.0.Final提供
  8. scheme http https 区别 tls_HTTPS、HTTP、TLS/SSL工作及握手原理、PKI/CA密钥体系
  9. Facebook 重金悬赏 Hermes 和 Spark AR 漏洞
  10. python scrapy框架爬虫当当图书网
  11. SaltStact自动化运维工具03
  12. java利用Google Zxing实现 二维码生成与解析
  13. H.264 NAL层解析
  14. 共享打印机服务器脱机状态,共享打印机脱机无法打印
  15. word中常用技巧,快速删除word中光标前或后的内容
  16. php生成分子式,php 转化smiles为分子式
  17. ⑲云上场景:超级减肥王,基于OSS的高效存储实践
  18. 需求分析——系统需求和软件需求
  19. Linux下dmi信息分析工具dmidecode原理
  20. 读懂消费金融之主流风控方法

热门文章

  1. 从全球制造业的迁移史,看中国制造业未来会怎么走?
  2. uni-app小程序生成海报,支持各种机型
  3. RFT学习--环境配置
  4. 微信小程序电子签名及图片生成
  5. B样条曲线与曲面相关知识点汇总
  6. 51单片机-TLC5615代码
  7. beautify配置
  8. 将实时频谱分析仪与HIF输出配合使用
  9. php 瀑布流布局,瀑布流布局与无限加载图片相册效果
  10. python+websocket匿名聊天室实现