使用Python爬取安居客二手房房价数据
作为一个Python新手,公司突然安排我爬取房价数据,真让人有点头大啊!幸好网上的大佬们经验丰富,给予了很多代码上的帮助。本文代码在网友pythoner111爬虫项目–爬取安居客二手房信息的基础上修改,爬取过程顺利,若有不足之处还请大家指出修改。
import requests
import bs4
import time
import random
import pandas as pd
import openpyxlhouse_info=[]for i in range(1,100):url="https://bj.anjuke.com/sale/p"+str(i)+"/#filtersort"headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"}print("开始爬取安居客平台北京二手房第%s页信息....." %(str(i)))response = requests.get(url=url, headers=headers)#生成bs4对象bsoup=bs4.BeautifulSoup(response.text,'lxml')house_list=bsoup.find_all('li', class_="list-item")for house in house_list:#bs4解析文件titile = house.find('a').text.strip()house_type = house.find('div', class_='details-item').span.textarea = house.find('div', class_='details-item').contents[3].texttry:address = house.find('span',class_='comm-address').text.strip()except AttributeError:address='error'#爬取过程中,有些房子缺少地址信息,使用try except的方法可以防止报错price = house.find('span', class_='price-det').text.strip()unit_price = house.find('span', class_='unit-price').text.strip()pd1= pd.DataFrame({'titile': titile, 'house_type': house_type,'area': area, 'address': address, 'price': price, 'unit_price': unit_price},index=[0])house_info.append(pd1)second=random.randrange(3,5)time.sleep(second)house_info2=pd.concat(house_info)
house_info2.to_excel('beijing.xlsx',index=False)
使用Python爬取安居客二手房房价数据相关推荐
- python爬取安居客二手房网站数据(转)
之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在 ...
- python爬取安居客二手房网站数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)
是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...
- 爬虫项目--爬取安居客二手房信息
爬虫实战(爬取安居客二手房信息-成都天府新区) 环境:python3.6 pycharm bs4库 解析方式:bs4 需求:爬取二手房信息字段(titile,house_type,build_time ...
- Python爬取安居客经纪人信息
Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...
- bs4+phantomjs爬取安居客二手房信息
bs4+phantomjs爬取安居客二手房信息 这是我的第一篇博客,希望通过养成写博客的习惯来督促自己学习. 开发环境以及需要安装的模块 - Python3.6 - requests pip inst ...
- python爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- 爬虫爬取安居客二手房和新房信息,你是买新房还是二手的呢?
本文主要讲解爬取安居客买房类别中的二手房和新房,将提取的信息存储在记事本中,也可以转存CSV格式或者MongoDB中. 网站HTML信息提取比较简单,没有什么特别的地方,作为爬虫入门可以让初学者快速了 ...
- Python爬取安居客新房信息
由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...
最新文章
- git在项目中的实际运用
- (自兴人工智能)python字符串
- getRemoteAddr()和getRemoteHost() 区别
- Qt Creator调试
- 普通人改变命运最关键的这几种方法
- Python识别验证码,基于Tesseract实现图片文字识别
- ios请求php接口,php – 确保http(s)请求来自我的iOS应用程序
- 记2个月来,我在Csdn 掀起的微软面试风暴
- Redis(十三)Python客户端redis-py
- 我们总结了每个技术团队都会遇到的 4 个难题 1
- QQ微信实时消息转发图片文件视频语音互联机器人自动发消息
- Java读取计算 PPT,Word,excel的页数
- 计算机学科生物知识与能力,2018下全国教资统考高中生物学科知识与能力试题(科目三)答案...
- FLAC无损音频播放
- 元宇宙火了,智能家居跟不跟?
- C语言计算BMI值,一看就会
- 如何提升客户的信任,实现与客户的连接,带动业绩的转变
- CAD制图软件中如何设置选择对象的显示效果?
- 成大事必备的九种办法与能力
- 微信公众平台测试号登录入口地址