python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
买房装修,是每个人都要经历的重要事情之一。相对于新房交易市场来说,如今的二手房交易市场一点也不逊色,很多二手房的信息刚刚挂出来,就被其他购房者拿下了。
项目目标
爬取链家网二手房信息
受害者地址
https://cs.lianjia.com/ershoufang/pg%7B%7D/
基本环境配置python 3.6
pycharm
代码
导入工具
import requests
import parsel
import time
请求网页,爬取数据
for page in range(1, 101):
print('===========================正在下载第{}页数据================================'.format(page))
time.sleep(1)
url = 'https://cs.lianjia.com/ershoufang/pg{}/'.format(page)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
selector = parsel.Selector(response.text)
lis = selector.css('.sellListContent li')
dit = {}
for li in lis:
title = li.css('.title a::text').get()
dit['标题'] = title
positionInfo = li.css('.positionInfo a::text').getall()
info = '-'.join(positionInfo)
dit['开发商'] = info
houseInfo = li.css('.houseInfo::text').get()
dit['房子信息'] = houseInfo
followInfo = li.css('.followInfo::text').get()
dit['发布周期'] = followInfo
Price = li.css('.totalPrice span::text').get()
dit['售价/万'] = Price
unitPrice = li.css('.unitPrice span::text').get()
dit['单价'] = unitPrice
csv_writer.writerow(dit)
print(dit)
保存数据
import csv
f = open('二手房信息.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题', '开发商', '房子信息', '发布周期', '售价/万', '单价'])
csv_writer.writeheader()
运行代码,效果如下
python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据相关推荐
- python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
- python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的 从网上获 ...
- python爬虫金融数据_python爬虫项目-爬取雪球网金融数据(关注、持续更新)
(一)python金融数据爬虫项目 爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=cn&firstname=1&secondname=1_ ...
- python爬虫爬取58网站数据_Python爬虫,爬取58租房数据 字体反爬
Python爬虫,爬取58租房数据 这俩天项目主管给了个爬虫任务,要爬取58同城上福州区域的租房房源信息.因为58的前端页面做了base64字体加密所以爬取比较费力,前前后后花了俩天才搞完. 项目演示 ...
- python爬取今日头条后台数据_Python爬虫实战入门五:获取JS动态内容—爬取今日头条...
之前我们爬取的网页,多是HTML静态生成的内容,直接从HTML源码中就能找到看到的数据和内容,然而并不是所有的网页都是这样的. 有一些网站的内容由前端的JS动态生成,由于呈现在网页上的内容是由JS生成 ...
- python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例
本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...
- python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
- python库使用方法查询 app应用_Python爬虫实战(5)获取「最美应用」推荐APP数据...
前言 蛋肥学习了Scrapy框架,打算实践一下,利用Scrapy来爬取一下最美应用推荐APP的数据,并储存到MySQL数据库中. 准备 爬取时间:2021/02/04 系统环境:Windows 10 ...
- python爬取历史天气查询_Python爬虫实战-爬取历史天气数据
最近项目需要对合肥市历史天气数据进行爬取,分析了几个天气数据网站,最终选择天气后报网站. 将实现过程遇到的问题以及下来,供以后参考. 步骤分析 这里我使用的是Python中的requests库Beau ...
最新文章
- 保证可见性_基于广告可见性的可见曝光数据建设实践
- 你还傻傻的分不清“和服和浴衣吗?
- python增量更新数据_Python标准库——加密
- 很好听,可没机会跟你分享
- Linux系统启动简单流程:
- mac下如何把本地项目上传到Github
- Tableau Desktop 2021最新安装 + 破解教程
- IMX6Q开发板使用USB直接连接HP LaserJet 1020 plus打印机打印。
- 腾讯云聚合支付平台Restful API,支付开发的又一福音,同时支持微信支付和支付宝
- 思科下一代模拟器EVE-NG做一个思科交换机用作DHCP服务器实验
- 我爱淘冲刺阶段站立会议2每天任务2
- 七大人脉宝典造亿万富翁
- 2020计算机博弈大赛幻影围棋分组第二天 围棋规则学习
- mapgis java二次开发_mapgis7.0二次开发小试牛刀
- “铁人三项”运营、技术、资本无短板,BW期货交易平台要逆天爆发?
- 程序员,5个步骤改善你的英语阅读技能
- 首席数据官 (CDO) 的十一项核心职责【最后一项很关键】
- CMOS器件与TTL器件 CMOS电平与TTL电平
- cread and close
- wince6.0操作系统的架构
热门文章
- 太空战机c语言实验报告,c语言课程设计_太空战机提高篇.doc
- Java集合接口的使用(笔记)
- 复旦MBA联手GMAC,点金“学业选择+事业规划“
- Web3Auth 筹集了 1300 万美元的 A 轮融资,通过简单的非托管身份验证基础设施推动 Web3 应用程序和钱包采用...
- android区域和gynoid区域,甲状腺功能正常的2型糖尿病患者甲状腺激素与体脂分布的相关性研究-内科学(内分泌)专业论文.docx...
- 有些人之所以不断成长,就绝对是有一种坚持下去的力量。
- C++ QT FTP基操
- 可视化大屏设计尺寸_大屏可视化设计尺寸高级指南
- linux下录音识别成文字软件下载,录音转文字用哪个手机app可以实现?
- 警惕!MySQL成数据勒索新目标