爬取‘广州链家新房’数据并以csv形式保存。

——本次的目标是爬取‘广州链家新房’前十页的信息，具体需要爬取的信息为‘楼房名字、地址、价格以及是否在售的情况’，具体的代码如下。

import requests,time
import pandas as pd
from lxml import etree
house_name = []
location_list = []
Price_list =[]
Is_it_for_sale =[]
def get_house_data():for i in range(1,74):print("正在爬取第{}页数据".format(i))url = 'http://gz.fang.lianjia.com/loupan/pg{}/'.format(i)page_taxt = requests.get(url=url).text#print(page_taxt)tree = etree.HTML(page_taxt)#进行属性定位li_list = tree.xpath('//ul[@class="resblock-list-wrapper"]/li')for li in li_list:name = li.xpath('./div/div[1]/a/text()')[0]location = li.xpath('.//div/div[2]/a/text()')[0]price = li.xpath('.//div/div[6]/div[1]/span[1]/text()')[0]on_sale = li.xpath('./div/div[1]/span[2]/text()')[0]house_name.append(name)location_list.append(location)Price_list.append(price)Is_it_for_sale.append(on_sale)time.sleep(0.1)
def save_data():print("————正在保存数据————")data = {'楼房名字':house_name,'地址':location_list,'价格':Price_list,'是否在售':Is_it_for_sale}data_all = pd.DataFrame(data)data_all.to_csv('data_all.csv',index=None,encoding='utf-8')data_all
def get_lens():try:if len(house_name) == len(location_list) == len(Price_list) == len(Is_it_for_sale):print("数据无误，保存成功。")except:print("数据有缺漏，请认真核查")
if __name__ == '__main__':get_house_data()save_data()get_lens()

爬取‘广州链家新房’数据并以csv形式保存。相关推荐

爬取北京链家二手房数据
利用python爬取了北京链家主页的二手房数据,爬取时间为2020年1月8日.由于链家只显示了100页.每页30条,因此只能爬取3000条数据. 后续将爬取各区的小区名,对每个小区的在售二手房数据进行 ...
爬取广州链家租房信息，并用tableau进行数据分析
在外工作,难免需要租房子,而链家是现在比较火的一个租房网站,本文章主要是爬取链家在广州的租房信息,并且进行简单的数据分析. 数据采集如图所示,我们需要的信息主要是存放在这个标签里面,我们把信息采集下 ...
爬取广州链家二手房并写入csv
知识点:多线程,读取csv,xpath import json import csv import requests import threading import lxml import lxml. ...
用Python爬取2020链家杭州二手房数据
起源于数据挖掘课程设计的需求,参考着17年这位老兄写的代码:https://blog.csdn.net/sinat_36772813/article/details/73497956?utm_medi ...
Python爬虫框架Scrapy入门（三）爬虫实战：爬取长沙链家二手房
Item Pipeline介绍 Item对象是一个简单的容器,用于收集抓取到的数据,其提供了类似于字典(dictionary-like)的API,并具有用于声明可用字段的简单语法. Scrapy的It ...
爬取南京链家租房信息
爬取南京链家租房信息代码如下代码片. import requests from lxml import etree if name == "main": #设置一个通用URL模 ...
python爬取链家新房数据
没有搜索到关于python爬虫,所以自己写一个 from bs4 import BeautifulSoup import requests import time import pandas as p ...
python爬取链家新房数据_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
爬虫：一种打破3000套限制爬取所有链家二手房源的方法
本人在爬取二手房的时候,发现链家网站的每个链接(https://sz.lianjia.com/ershoufang/pg100/)最多只能有100页,每页30套房源,那么就是3000套.很多网友也遇到 ...

爬取‘广州链家新房’数据并以csv形式保存。

爬取‘广州链家新房’数据并以csv形式保存。相关推荐

最新文章

热门文章