——本次的目标是爬取‘广州链家新房’前十页的信息,具体需要爬取的信息为‘楼房名字、地址、价格以及是否在售的情况’,具体的代码如下。

import requests,time
import pandas as pd
from lxml import etree
house_name = []
location_list = []
Price_list =[]
Is_it_for_sale =[]
def get_house_data():for i in range(1,74):print("正在爬取第{}页数据".format(i))url = 'http://gz.fang.lianjia.com/loupan/pg{}/'.format(i)page_taxt = requests.get(url=url).text#print(page_taxt)tree = etree.HTML(page_taxt)#进行属性定位li_list = tree.xpath('//ul[@class="resblock-list-wrapper"]/li')for li in li_list:name = li.xpath('./div/div[1]/a/text()')[0]location = li.xpath('.//div/div[2]/a/text()')[0]price = li.xpath('.//div/div[6]/div[1]/span[1]/text()')[0]on_sale = li.xpath('./div/div[1]/span[2]/text()')[0]house_name.append(name)location_list.append(location)Price_list.append(price)Is_it_for_sale.append(on_sale)time.sleep(0.1)
def save_data():print("————正在保存数据————")data = {'楼房名字':house_name,'地址':location_list,'价格':Price_list,'是否在售':Is_it_for_sale}data_all = pd.DataFrame(data)data_all.to_csv('data_all.csv',index=None,encoding='utf-8')data_all
def get_lens():try:if len(house_name) == len(location_list) == len(Price_list) == len(Is_it_for_sale):print("数据无误,保存成功。")except:print("数据有缺漏,请认真核查")
if __name__ == '__main__':get_house_data()save_data()get_lens()

爬取‘广州链家新房’数据并以csv形式保存。相关推荐

  1. 爬取北京链家二手房数据

    利用python爬取了北京链家主页的二手房数据,爬取时间为2020年1月8日.由于链家只显示了100页.每页30条,因此只能爬取3000条数据. 后续将爬取各区的小区名,对每个小区的在售二手房数据进行 ...

  2. 爬取广州链家租房信息,并用tableau进行数据分析

    在外工作,难免需要租房子,而链家是现在比较火的一个租房网站,本文章主要是爬取链家在广州的租房信息,并且进行简单的数据分析. 数据采集 如图所示,我们需要的信息主要是存放在这个标签里面,我们把信息采集下 ...

  3. 爬取广州链家二手房并写入csv

    知识点:多线程,读取csv,xpath import json import csv import requests import threading import lxml import lxml. ...

  4. 用Python爬取2020链家杭州二手房数据

    起源于数据挖掘课程设计的需求,参考着17年这位老兄写的代码:https://blog.csdn.net/sinat_36772813/article/details/73497956?utm_medi ...

  5. Python爬虫框架Scrapy入门(三)爬虫实战:爬取长沙链家二手房

    Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...

  6. 爬取南京链家租房信息

    爬取南京链家租房信息 代码如下 代码片. import requests from lxml import etree if name == "main": #设置一个通用URL模 ...

  7. python爬取链家新房数据

    没有搜索到关于python爬虫,所以自己写一个 from bs4 import BeautifulSoup import requests import time import pandas as p ...

  8. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  9. 爬虫:一种打破3000套限制爬取所有链家二手房源的方法

    本人在爬取二手房的时候,发现链家网站的每个链接(https://sz.lianjia.com/ershoufang/pg100/)最多只能有100页,每页30套房源,那么就是3000套.很多网友也遇到 ...

最新文章

  1. linux can 接收多帧_CAN编程介绍
  2. python安装后无法运行任何软件_为啥我按照python安装教程,总说无法启动此程序,因为计算机中丢失?...
  3. hadoop环境搭建遇到的问题:-bash: jps: command not found
  4. R语言观察日志(part13)--从GitHub中下载R包
  5. 2440 8字数码管 显示0到10 c语言,51单片机对8位数码管依次显示0-7的设计
  6. TreeView 小技巧
  7. 训练日志 2019.1.2
  8. AIR文件操作(三):使用FileStream对象读写文件
  9. html5基础--audio标签元素
  10. GO语言学习之路13
  11. $.ajax与$.post、$.get的区别
  12. 计算机学不学工程制图,如何学好工程制图
  13. 打印机如何取消打印任务
  14. 字符串左斜杠替换成右斜杠
  15. 核心单词Word List 6
  16. 2022-2028年全球及中国视频后期制作服务行业投资前景分析
  17. linux系统发送短信,Linux系统的短信收发怎么实现?
  18. 业界首款 ACAP 自适应计算加速平台——Xilinx Versal Premium 系列
  19. 网上订鲜花怎么配送?鲜花配送为何首选顺丰同城急送?
  20. C语言入门:计算总成绩和平均成绩

热门文章

  1. [Android Studio]SQLScout插件安装破解
  2. Y400安装windows7系统遇到的问题
  3. linux下gcc源码安装
  4. SQL Server: 数据库模式SCHEMA
  5. ChatGPT 上线 70 天,微软用它改写 Bing、Edge后,市值一夜飙涨 5450 亿元!
  6. 培养创新型思维与深度思考
  7. docker集群(1):docker swarm
  8. linux 强行删除用户,linux命令userdel删除用户详解
  9. AI绘画Stable Diffusion关键字技巧分享
  10. CSS哪些属性会被继承