掌财社:python怎么爬取链家二手房的数据?爬虫实战!
我们知道爬虫的比较常见的应用都是应用在数据分析上,爬虫作为数据分析的前驱,它负责数据的收集。今天我们以python爬取链家二手房数据为例来进行一个python爬虫实战。(内附python爬虫源代码)
一、查找数据所在位置:
打开链家官网,进入二手房页面,选取某个城市,可以看到该城市房源总数以及房源列表数据。
二、确定数据存放位置:
某些网站的数据是存放在html中,而有些却api接口,甚至有些加密在js中,还好链家的房源数据是存放到html中:
三、获取html数据:
通过requests请求页面,获取每页的html数据
# 爬取的url,默认爬取的南京的链家房产信息
url = 'https://nj.lianjia.com/ershoufang/pg{}/'.format(page)
# 请求url
resp = requests.get(url, headers=headers, timeout=10)
四、解析html,提取有用数据:
通过BeautifulSoup解析html,并提取相应有用的数据
soup = BeautifulSoup(resp.content, 'lxml')
# 筛选全部的li标签
sellListContent = soup.select('.sellListContent li.LOGCLICKDATA')
# 循环遍历
for sell in sellListContent:# 标题title = sell.select('div.title a')[0].string# 先抓取全部的div信息,再针对每一条进行提取houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings)# 楼盘名字loupan = houseInfo[0]# 对楼盘的信息进行分割info = houseInfo[0].split('|')# 房子类型house_type = info[1].strip()# 面积大小area = info[2].strip()# 房间朝向toward = info[3].strip()# 装修类型renovation = info[4].strip()# 房屋地址positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings))# 房屋总价totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings))# 房屋单价unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]
掌财社:python怎么爬取链家二手房的数据?爬虫实战!相关推荐
- 租房不入坑不进坑,Python爬取链家二手房的数据,提前了解租房信息
目录 前言 一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言 贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...
- 爬取链家二手房交易数据
请求:浏览器的地址栏的url向服务器发送请求 关注的内容:请求的url 请求的方式method get/post 请求参数 响应: 作出响应 响应状态码:200 418 404 500 浏览器的工作原 ...
- python关于二手房的课程论文_基于python爬取链家二手房信息代码示例
基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...
- python+selenium爬取链家网房源信息并保存至csv
python+selenium爬取链家网房源信息并保存至csv 抓取的信息有:房源', '详细信息', '价格','楼层', '有无电梯 import csv from selenium import ...
- 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...
- python-scrapy-MongoDB 爬取链家二手房
python-scrapy-MongoDB 爬取链家二手房 链家二手房房源数据抓取 目标网址为http://bj.lianjia.com/ershoufang/ 分析网址 创建项目 scrapy st ...
- python 爬取链家成交房数据案例
爬取链家网流程为request.get得到网页信息,将得到的信息放入BeautifulSoup,再调用select爬取所需信息,用re正则表达式进行更细的筛选,用strip过滤无用字符串.具体代码如下 ...
- 爬取链家北京租房数据并做简单分析
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...
- Python 爬取链家二手房,我在北京买房的经历
本节所讲内容: 链家网站前期分析 利用requests爬取数据 爬取数据存储MongoDB(代码请看最后) 链家网站前期分析 今天我们主要对链家二手房数据爬取,看下我们目前的资金能买那一套.链家二手房 ...
最新文章
- android开机自动运行程序
- 无线信标功能调试-2021-3-9-输出功率恒定限制
- [20170606]11G _optimizer_null_aware_antijoin.txt
- oracle11g dataguard完全手册3-failover active dataguard(完)
- Hadoop hdfs 使用流来下载文件数据代码示例
- PowerDesigner 逆工程生成物理模型图解
- qpython3编辑器怎么用_Python快速入门系列:Pyqt5界面开发好帮手-Qss样式编辑器介绍...
- 修复bug的12个关键步骤
- 广州新一代域名注册量动态:11月下旬净增3425个
- java计算器模拟程序_模拟计算器java程序
- 电脑控制android手机神器,scrcpy
- 跨域组播--MBGP+MSDP+Anycast RP
- Docker镜像创建的三种方式详解——dockerfile制作apache镜像
- 全景视频拍摄怎么拍摄?全景视频用什么软件制作?
- 泰勒展开:一阶,二阶
- SAP MASS批量更新(Mass Maintenance)工具对象类型介绍
- 电脑没有声音了怎么办?如何恢复?(电脑没声音的3个解决方法)
- 来自京东、宅急送对微服务编排、API网关、持续集成的实践分享(下)
- boost::sml 状态机
- Selenium安装与360浏览器使用