爬取链家任意城市租房数据(北京朝阳)
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Time : 2019-08-16 15:56 4 # @Author : Anthony 5 # @Email : ianghont7@163.com 6 # @File : 爬取链家任意城市租房数据.py 7 8 9 import requests 10 from lxml import etree 11 import time 12 import xlrd 13 import os 14 import xlwt 15 from xlutils.copy import copy 16 17 # 伪装请求 18 headers = { 19 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 BIDUBrowser/8.7 Safari/537.36' 20 } 21 22 xlsInfo = {} 23 24 def catchHouseDetail(url): 25 # 通过requests模块模拟get请求 26 page_text = requests.get(url, headers=headers, stream=True) 27 28 # 将互联网上获取的页面数据加载到etree对象中 29 tree = etree.HTML(page_text.text) 30 31 # 定位页面标签位置装入一个list中 32 li_list = tree.xpath('//div[@class="content w1150"]/div[@class="content__article"]/div[@class="content__list"]/div') 33 all_house_list = [] 34 # 遍历列表中每一个字段 35 for li in li_list: 36 info = [] 37 # 房屋标题 38 # houseTitles = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--bottom oneline"]/i/text()') 39 # print(*houseTitles) 40 # 租房方式 41 houseWay = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[0].split('·')[0] 42 # 月租金额 43 houseMoney = li.xpath('.//div[@class="content__list--item--main"]/span[@class="content__list--item-price"]/em/text()')[0]+'元/月' 44 # 小区名称 45 plotName = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[0].split('·')[1] 46 # 房屋大小 47 houseSize = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/text()')[4].strip() 48 # 房屋户型 49 houseType = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[1] 50 # 房屋朝向 51 houseOrientation = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--title twoline"]/a/text()')[0].strip().split(' ')[2] 52 # 区域位置 53 communityArea = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[0] 54 # 地铁站名称 55 subwayArea = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[1] 56 # 小区名称 57 # plotName = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--des"]/a/text()')[2] 58 # 发布时间 59 releaseTime = li.xpath('.//div[@class="content__list--item--main"]/p[@class="content__list--item--time oneline"]/text()')[0] 60 61 info.append(houseWay) 62 info.append(houseMoney) 63 info.append(plotName) 64 info.append(houseSize) 65 info.append(houseType) 66 info.append(houseOrientation) 67 info.append(communityArea) 68 info.append(subwayArea) 69 info.append(releaseTime) 70 71 all_house_list.append(info) 72 if if_xls_exits() == True: 73 write_excel_xls_append(xlsInfo["xlsName"],all_house_list) 74 75 # print(catchHouseDetail('https://bj.lianjia.com/zufang/chaoyang/pg1')) 76 77 78 #获取数据写入xls表格中 79 def write_excel_xls(path, sheet_name, value): 80 index = len(value) # 获取需要写入数据的行数 81 workbook = xlwt.Workbook() # 新建一个工作簿 82 sheet = workbook.add_sheet(sheet_name) # 在工作簿中新建一个表格 83 for i in range(0, index): 84 for j in range(0, len(value[i])): 85 sheet.write(i, j, value[i][j]) # 像表格中写入数据(对应的行和列) 86 workbook.save(path) # 保存工作簿 87 print("xls格式表格写入数据成功!") 88 89 90 91 def write_excel_xls_append(path, value): 92 index = len(value) # 获取需要写入数据的行数 93 workbook = xlrd.open_workbook(path) # 打开工作簿 94 sheets = workbook.sheet_names() # 获取工作簿中的所有表格 95 worksheet = workbook.sheet_by_name(sheets[0]) # 获取工作簿中所有表格中的的第一个表格 96 rows_old = worksheet.nrows # 获取表格中已存在的数据的行数 97 new_workbook = copy(workbook) # 将xlrd对象拷贝转化为xlwt对象 98 new_worksheet = new_workbook.get_sheet(0) # 获取转化后工作簿中的第一个表格 99 for i in range(0, index): 100 for j in range(0, len(value[i])): 101 new_worksheet.write(i + rows_old, j, value[i][j]) # 追加写入数据,注意是从i+rows_old行开始写入 102 new_workbook.save(path) # 保存工作簿 103 print("xls格式表格【追加】写入数据成功!") 104 105 106 107 108 def if_xls_exits(): 109 while True: 110 book_name_xls = '北京链家租房信息表.xls' 111 sheet_name_xls = '房屋信息' 112 value_title = [["租房方式", "月租金额", "小区名称", "房屋大小", "房屋户型", "房屋朝向", "区域位置", "地铁站名称", "房屋发布时间"], ] 113 if os.path.exists('./%s'%book_name_xls): 114 xlsInfo["xlsName"] = book_name_xls 115 return True 116 else: 117 write_excel_xls(book_name_xls, sheet_name_xls, value_title) 118 continue 119 120 121 122 123 124 def catch(): 125 pages = ['https://bj.lianjia.com/zufang/chaoyang/pg{}/'.format(x) for x in range(1,100)] 126 for page in pages: 127 try: 128 info = catchHouseDetail(page) 129 except: 130 pass 131 time.sleep(2) 132 133 134 if __name__ == '__main__': 135 catch()
效果图:
转载于:https://www.cnblogs.com/ipyanthony/p/11365950.html
爬取链家任意城市租房数据(北京朝阳)相关推荐
- 爬取链家-滨江的租房数据
最近学以致用,使用python3的requests package 爬取 链家-滨江 在爬取过程中基本没有遇到什么坑,可能链家的反爬机制就没有吧 主要流程分成 两步: 第一步是 获取当前页面的内容 第 ...
- python爬取链家网的房屋数据
python爬取链家网的房屋数据 爬取内容 爬取源网站 爬取内容 爬取思路 爬取的数据 代码 获取房屋url 获取房屋具体信息 爬取内容 爬取源网站 北京二手房 https://bj.lianjia. ...
- python爬取链家新房_Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析 通过分析, 找出相关url, 确 ...
- Scrapy实战篇(一)之爬取链家网成交房源数据(上)
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
- Python 爬取链家二手房,我在北京买房的经历
本节所讲内容: 链家网站前期分析 利用requests爬取数据 爬取数据存储MongoDB(代码请看最后) 链家网站前期分析 今天我们主要对链家二手房数据爬取,看下我们目前的资金能买那一套.链家二手房 ...
- Python爬取链家网获取二手房数据并调用高德api获得经纬度
链家网获得数据地址,高德api获得经纬度(同理链家网也可以换成其他58同城,赶集网的数据,因为反爬虫比较厉害,没时间整,就用链家网的数据先试试水) 首先爬链家网,Info包含一条信息 import j ...
- python爬取链家租房信息_Python爬取链家网上海市租房信息
使用Python进行上海市租房信息爬取,通过requests + Beautifulsoup对网页内容进行抓取和数据提取. import requests from bs4 import Beauti ...
- python爬取链家网实例——scrapy框架爬取-链家网的租房信息
说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...
- Scrapy实战篇(二)之爬取链家网成交房源数据(下)
在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置. 数据处理 我们这里以把数据存储到mongo数据库为例. 编写pipelines.p ...
- 爬取链家北京租房数据并做简单分析
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...
最新文章
- seaborn系列 (7) | 核函数密度估计图kdeplot()
- python编程学习笔记列表_python编程:从入门到实践学习笔记-函数
- MyBatis延迟加载和缓存(4)
- linux vim 插件管理,linux: vim插件管理
- Kafka Consumer多线程消费
- php mysql 批量insert_mysql批量插入数据方法
- 论文浅尝 | 面向时序知识图谱推理的循环事件网络
- ubuntu20.10上搭建hadoop3.2.2伪分布式
- nginx升级修复(CVE-2016-4450)
- Centos7通过yum安装jdk8
- 【转】90后还过五四吗?这些“脸熟”的过来人送给青年10句忠告
- 《数字图像处理与机器视觉——Visual C++与Matlab实现》——0.1 数字图像
- 64位win7连接32位xp的共享打印机HP Laserjet P1008
- U盘文件夹乱码无法删除的原因及解决方案
- MVX-Net: Multimodal VoxelNet for 3D Object Detection
- VUE 组件手动渲染、组件延迟渲染
- 传统企业互联网转型升级新玩法:技术合伙
- (编程题)相邻数字相乘为偶数
- Cobalt Strike上线微信机器人提醒
- 关于新中新二代身份证读卡器DKQ-A16D的一些问题
热门文章
- vcf格式(vCard)转成excel的操作方法
- python12306学生票抢票脚本下载_Python 12306抢火车票脚本 Python京东抢手机脚本
- 什么是无线信号的灵敏度和保真度
- echarts饼图南丁格尔玫瑰图属性设置
- [NOIP2013 提高组] 火柴排队
- OpenCV判断图片是否是黑白图片
- 根据银行卡号获取开户行和银行LOGO
- 关于 opengl3.3 - 4.1 ABO 的感触. 传统 VBO往 ABO+VBO的 代码移植
- 什么才是真正的架构设计
- 幼儿的健脑菜谱:椰子鸡汤