租房助手

发现官网的筛选方式不能满足自己的需求,所以爬取相关网站制作出现在的东西来

效果预览-> 在线预览

下面进行详细分析

一.首先爬取起始地和终点地的路线及沿途地铁站名称

1.爬取8684.cn的地铁查询:

pattern = 'http://bjdt.8684.cn/so.php?k=p2p&q={}&q1={}'

  • q->起始位置,q1为目标位置。返回的是html页面。

    2.采用scrapy进行xpath解析,提取相关的html标签和值

  • 如提取线路方案列表的xpath表达式
            Selector(text=body).xpath("//div[@class='iContainer clear']/div[@class='iMain']/div[@class='transferMainShowWrap']/ul[@class='tms-mn tms-project']/li").extract()

3.提取出线路方案列表后,针对列表中的每个元素进行提取站点的操作,可参考提取a标签,但剔除带有class属性的html值。

4.将所有的站点放到一个列表中,同时针对列表元素进行去重操作,记得记录路线描述和距离,可定义相关对象来维护。

二.通过站点查询租房信息

1.主要对自如官网进行爬取。

pattern=http://www.ziroom.com/z/nl/z2.html?qwd={}
  • qwd可能需要进行urlencode
  • 返回的是html页面,需要对页面进行分析,首先提取出总页数,然后根据总页数去请求其余页面。上面的url附加q参数,q参数为页面索引,即是单独页面链接

    2.针对单个页面提取各个单条项目的信息。
    如提取单个页面的信息列表

     ls = Selector(text=body).xpath("//ul[@id='houseList']/li").extract();
  • 针对列表进行单个处理,提取感兴趣的信息。

    3.处理封装返回。
    针对提取的信息,进行筛选,例如对价格进行筛选,对大小进行筛选,不用做排序。采用前端框架来进行排序。后台做的处理已经够多了。

三.接入到公众号中

可以接入到公众号中,提高公众号的影响力,具体的公众平台对接请参考访问github开源项目

python爬取北京租房信息相关推荐

  1. Python爬取自如租房信息(价格)笔记——笨办法

    爬取自如租房信息 最近正在学习python爬虫,顺便又要租房子,于是就想爬去自如上的租房信息顺便来联系一下. ·掉进价格的大坑里 在爬取过程中一切都听顺利的,可是到了最关键的房租部分就遇到了问题.居然 ...

  2. python爬取豆瓣租房信息

    文章目录 任务描述 完整代码 运行结果 任务描述 使用python爬虫,实现获取豆瓣"北京租房"的租房信息,并筛选适合个人的房源存入Excel.使用方法都写在注释里了,请认真阅读哦 ...

  3. python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息

    小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...

  4. python爬取网上租房信息_用python爬取租房网站信息的代码

    自己在刚学习python时写的,中途遇到很多问题,查了很多资料,下面就是我爬取租房信息的代码: 链家的房租网站 两个导入的包 1.requests 用来过去网页内容 2.BeautifulSoup i ...

  5. 使用python爬取蛋壳租房信息

    蛋壳页面上的租房信息不直观,举个例子,如果我是一个程序员,在望京上班的话,附近的地铁线路有13,14,15号线,如果我要尽可能的减少通勤时间,希望能够找到一个价格便宜距离地铁站又比较近的居所,在蛋壳的 ...

  6. 九十二、Python爬取深圳租房信息小案例

    @Author:Runsen @Date:2020/6/19 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...

  7. 利用Python爬取杭州租房信息,发现月薪没有8K还是不要租房了吧

    前言 小编的一个好朋友跑去杭州工作了,跟我吐槽杭州的租房太贵了,房租正在成为摧垮年轻人的"第一根稻草",在杭州打拼的你,所在的城区房租涨了吗?你是否还能潇洒地说出 "买不 ...

  8. 深圳python爬虫培训南山科技园钽电容回收_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题...

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

  9. python解决租房问题_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

最新文章

  1. NIO 拷贝文件真的比 IO 效率高 ?
  2. Bitmap 索引 vs. B-tree 索引:如何选择以及何时使用?——2-5
  3. python re模块 字符串匹配_re模块实现正则表达式之match()方法
  4. 解析并符号 读取dll_风电场用风功率采集测风塔数据报文格式解析浅谈
  5. 算法-排序-插入排序
  6. 开发者工具保留调用连接_如何整理您的开发者资料并保留旧的简历
  7. 计算机系统的组成doc,简述计算机系统的组成.doc
  8. 图像色彩空间之RGB与HSI
  9. 【字符串】面试题之奇偶字符串分离
  10. 利用shell脚本远程磁盘分区
  11. Java学习笔记之---集合
  12. myisam 与 innodb的区别,在什么情况下用什么ENGINE
  13. 计算机学会a类论文是sci吗,sci分区和ccf分区的区别
  14. iRedMail退信问题的解决
  15. Gifxing在线图片无损压缩,gif压缩
  16. 3.3Packet Tracer - 实施基本连接
  17. XML外部实体(XXE)注入详解
  18. 阅读笔记:利用Python进行数据分析第2版——第10章 数据聚合与分组运算
  19. click option/argument参数详解(click.option()和click.argument())
  20. lucas–kanade_异常检测常用光流法量化对比:Farneback/Horn-Schunck / Lucas–Kanade

热门文章

  1. 聚苯乙烯核-聚(丙烯酰胺-丙烯酸)壳荧光素微球/磺酸官能化聚苯乙烯高荧光微球的制备
  2. IIS——服务器上部署网站及遇到的问题图解(二)
  3. MA、WMA、EMA、EXPMA区别及公式详述
  4. 已知三点求圆心和半径
  5. 关于Bonobo Git Server的安装
  6. linux系统下创建anaconda新环境及问题解决
  7. html怎么加深字体颜色,我打印网页的字的颜色非常浅,怎样才能加深? – 手机爱问...
  8. ckplayer支持html5播放吗,移动端(H5)环境中播放视频需要了解的内容-ckplayer使用方法...
  9. 用python 画太阳_Python PIL画一个太阳神的圆圈
  10. ABAP动态模式(Dynamic Pattern)