本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。

我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司,发布的房地产租房信息还是不叫权威的。

我们需要做的分为两步:找到各个租房页面的链接,爬取每个租房页面的数据。

第一步找到每个租房页面的链接,北京地区的租房页面的初始链接为https://bj.lianjia.com/zufang/pg1/,下一页的地址就是把后面的pg1改成pg2,以此后推,一共有100个页面。

具体实现代码如下:

    for i in range(1,101):firsturl=r"https://bj.lianjia.com/zufang/pg%d/"%i
#        list.append(firsturl)title,l=frist(firsturl)

我们需要在这个页面上爬取每个具体房屋页面的URL地址。

具体实现代码如下:

def frist(firsturl):time.sleep(3)title=[]l=[]html=requests.get(firsturl)#html可能乱码,soup会转码soup = BeautifulSoup(html.content)for link in soup.find_all('h2'):if len(str(link))>84:#        href=link.get('href')li=link.a['href']t= link.a["title"]title.append(t)l.append(li)return title,l

第二步在每个租房页面上提取自己想要的信息,我们已知每个租房页面上的URL,所以我们设计一个函数可以根据一个URL可以提取我们想要的数据。具体代码实现如下:

def single(url):#    send_headers={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
#                  "Accept-Language":"zh-CN,zh;q=0.9,en;q=0.8",
#                  "Connection":"keep-alive",
#                  "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"}
#    html=requests.get(url)soup=BeautifulSoup(html.content)soup1=soup.find(class_='zf-room')#tag类型price=soup.find_all(class_='total')[0].stringarea=soup.find_all(class_='lf')[0].get_text()[3:8:]housetype=soup.find_all(class_='lf')[1].get_text()floor=soup.find_all(class_='lf')[2].get_text()toward=soup.find_all(class_='lf')[3].get_text()subline=soup1.find_all("p")[4].get_text()local=soup1.find_all("p")[6].get_text()print(price,area,housetype,floor,toward,subline,local)
#    for i in soup.find_all("span"):
#        print (i)
#        price.append(i)return price,area,housetype,floor,toward,subline,local

我们现在已经可以将这两部分合并在一起就好啦。

注:一、因为我们如果很高频率的登录网站,网站会把我们给断开,所以我们选择time.sleep()来减轻访问时间

二、我们第一步得到的网址我们可以先保存在本地,然后我们可以读取文件,这样可以避免多次访问。

三、当我们爬取一半时忽然无法执行,可以将已经执行好的数据下来,再将代码从断开的地方重新执行,这样可以节省很多时间。

代码传送门

爬取链家网站的北京租房信息相关推荐

  1. 爬取链家网站中的租房信息

    爬取链家网站中的租房信息 信息爬取代码 信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...

  2. 简单爬取链家上广州的租房信息

    #导入 requests 和 BeautifulSoup模块 import requests from bs4 import BeautifulSoup #链家的网站 url = 'https://g ...

  3. Python爬取链家网24685个租房信息并进行数据分析

    2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...

  4. Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息

    SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...

  5. 【爬虫】爬取链家网青城山二手房源信息

    一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...

  6. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

  7. 爬取链家北京租房数据并做简单分析

    在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...

  8. 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中

    我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...

  9. 租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息

    目录 前言 一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言 贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...

最新文章

  1. 跨链(8)Cosmos之“跨链交互协议IBC”
  2. 5.4 self-attention以及mask操作的实现
  3. 为什么在微信的阴影下QQ依然是中国第二大App?
  4. ubuntu16.04下微信和TIM的安装
  5. 项目流程(从立项到结项)
  6. PAL与NTSC制式的详解
  7. DT|一文看完企业绩效管理系统产品(EPM)的前世今生
  8. IDEA菜单栏不见了怎么办
  9. zoj 2839 Find the Sequences(数学题)
  10. css中div的意思是什么
  11. 新手使用PS心得-技巧
  12. 警惕新骗术:虚假二维码生成器盗取 4.6 万美元!
  13. David Silver强化学习公开课自学笔记——Lec2马尔科夫决策过程
  14. 概率论-一维随机变量及其分布思维导图
  15. 如何通过URL打开图片(Python)
  16. Linux之父-林纳斯 配置命令基操
  17. O-RAN notes(12)---Bronze E2 setup and O1-alarm example(1)
  18. 中瀛手机销售软件 绘图软件
  19. ThinkPad 64位操作系统使用VMware时遇到Vt未打开的错误报警
  20. 人工智能论文术语集27

热门文章

  1. 软件智能的大致呈现---aaas系统预期
  2. 考研英语 - word-list-3
  3. odoo15全面解决财务应收应付全面管理方案(含银企直联)(1)
  4. 【C语言】指针基础知识点汇总
  5. C语言关于指针知识点总结【2】
  6. 机器学习 | R语言中的方差分析汇总
  7. Android TV APPs 的介绍与创建
  8. 2021第十二届蓝桥杯省赛一等奖Java B组总结
  9. 糊滤镜给人物脸部磨皮教程
  10. 客制供应商申请审批单和供应商导入api