Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。
网址为:https://beijing.anjuke.com/sale/
BeautifulSoup官网:https://www.crummy.com/software/BeautifulSoup/
直接上代码:
import requests from bs4 import BeautifulSoupheaders={'user-agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} link='https://beijing.anjuke.com/sale/' def getHouseInfo(link):r=requests.get(link,headers=headers)soup=BeautifulSoup(r.text,'lxml')house_list=soup.find_all('li',class_='list-item')for house in house_list:name=house.find('div',class_='house-title').a.text.strip()price=house.find('span',class_='price-det').text.strip()price_area=house.find('span',class_='unit-price').text.strip()#单位面积no_room=house.find('div',class_='details-item').span.text#几室几厅area=house.find('div',class_='details-item').contents[3].textfloor=house.find('div',class_='details-item').contents[5].textyear=house.find('div',class_='details-item').contents[7].textbroker=house.find('span',class_='brokername').textbroker=broker[1:]address=house.find('span',class_='comm-address').text.strip()address=address.replace('\xa0\xa0\n',' ')tag_list=house.find_all('span',class_='item-tags')tags=[i.text for i in tag_list]print(name,price,price_area,no_room,area,floor,year,broker,address,tags) for i in range(1,11):link=link+'/p'+str(i)print('page'+str(i))getHouseInfo(link)
相关代码解析请参照前几篇博客以及BeautifulSoup官网。
输出结果(由于输出内容过多,此处仅截取一部分):
page1 宏星地产租售部 新出!1700南花园, 赠500万红木家具 3800万 106442元/m² 5室2厅 357m² 共3层 2008年建造 夏秋冬 碧水庄园 昌平-沙河-定泗路 ['独栋别墅', '业主唯一住房', '业主住房'] 没有不喜欢的!《金泉全南带露台的房子?+观水系花园?》少有啊 990万 107608元/m² 2室2厅 92m² 高层(共30层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['房型正', '近地铁', '全南户型'] 满五年低首付,车位充足,双卧南,西北旺,软件园二期,采光好 875万 66287元/m² 3室2厅 132m² 低层(共9层) 2008年建造 孙国鹏 山语间(保利西山林语) 海淀-温泉镇-黑龙潭路 ['配套成熟', '品质小区 ', '客厅朝南'] 金色21 罗兰大道经典户型,每年出房量有限 勿错过 730万 61864元/m² 3室1厅 118m² 高层(共15层) 2009年建造 徐功 万象新天家园 朝阳-常营-常营北路10号 ['近地铁', '配套成熟', '景观房'] 远洋LAVIE:法式大独栋,三面临湖面,花园3500平米 15800万 92941元/m² 6室3厅 1700m² 地下(共3层) 2013年建造 张云锋 远洋LAVIE 朝阳-来广营-康营东路,近机场高速 ['配套成熟', '品质小区 ', '景观房'] 白菜价!就是为了卖房!《卧室朝南正对花园+送储藏间》太棒了! 1250万 77639元/m² 3室2厅 161m² 低层(共28层) 2009年建造 位春雷 金泉家园 朝阳-亚运村-大屯路 ['配套成熟', '景观房', '拎包入住'] 通州地铁六号线物资学院路+4.5米洋房公寓+大产权独立房本 296万 37000元/m² 2室1厅 80m² 高层(共7层) 2016年建造 孙羽 朝北8080 通州-北关-滨榆东路 ['近地铁', '配套成熟', '品质小区 '] 首 付 100万 正规一居室 出行方便 15万装修 国风美唐 260万 58956元/m² 1室1厅 44m² 低层(共6层) 2003年建造 田小强 天鑫家园 昌平-霍营-回龙观东大街 [] 京核心趋势刚需房成家立业,幸福生活开始地方,靠近地铁出行方便 535万 70973元/m² 2室1厅 75m² 共4层 2008年建造 唐天童 沿海赛洛城南区 朝阳-百子湾-广渠东路33号 ['近地铁', '房型正', '拎包入住'] 珍惜委托 清河强佑新城 新上正规一居室 满五年 周期4个月 410万 70689元/m² 1室1厅 58m² 中层(共27层) 2009年建造 白小伟 强佑清河新城 海淀-清河-京藏高速辅路,近清河中街 ['近地铁', '配套成熟', '品质小区 '] 九州好房源 满二年 育新花园南里88平通透大两居 边户 精装 210万 23863元/m² 2室2厅 88m² 低层(共9层) 2012年建造 付秋艳 育新花园南里 大兴-大兴区其他-育仁街1号 ['客厅朝南', '小户型', '一梯两户'] 主做德胜门 深度了解房源 置业店长博涛精心推介 诚信卖房 2300万 150326元/m² 4室2厅 153m² 高层(共20层) 2003年建造 刘博涛 阳光丽景 西城-德胜门-黄寺大街23号 ['近地铁', '近学校'] 绿地国际花都南区 新小区 环境好 南北通透 电梯房 240万 26086元/m² 2室2厅 92m² 低层(共15层) 2011年建造 杜守亮 绿地国际花都 密云-密云-城后街32号 ['配套成熟', '环境优美', '交通便利'] 仅5w的税+南排楼+前后左右安静不临街+南北双通透+带阳台 1100万 79994元/m² 3室2厅 137m² 低层(共24层) 2007年建造 杨韶峰 澳洲康都 朝阳-望京西-望京北路39号 ['素质住户', '环境优美', '品质小区'] 上地西二旗融泽嘉园二期,育翔小学旁明厨明卫三居室 商品房!! 560万 53333元/m² 3室1厅 105m² 中层(共34层) 2015年建造 冯宝成 融泽嘉园六号院(西区) 昌平-回龙观-龙域西二路6号 ['配套成熟', '环境优美', '次新小区'] 西五环精装新房,西山甲一号,园博园旁 五期正式入市 等您来看 800万 57142元/m² 4室2厅 140m² 中层(共16层) 2018年建造 刘珍珍 西山甲一号 丰台-卢沟桥-长顺二路 ['配套成熟', '环境优美', '交通便利'] 《专注星河皓月》双卧朝南+自住精装+全天采光+家私全送 210万 22580元/m² 2室1厅 93m² 低层(共18层) 2010年建造 罗刚 星河皓月 北京周边-燕郊-燕顺路,近燕兴街 ['配套成熟', '交通便利', '素质住户'] 盛景嘉园东西通透四居室,小板楼带电梯温泉入户,满五年明厨明卫 1550万 127049元/m² 4室2厅 122m² 中层(共7层) 2005年建造 谭海军 盛景嘉园 西城-陶然亭-福长街68号 ['近地铁', '近学校'] 特价房 特价房 天著春秋精装洋房 赠80平阁楼+20露台 1935万 120937元/m² 4室2厅 160m² 高层(共6层) 2018年建造 刘素利 远洋天著春秋 石景山-苹果园-金顶山路 ['南北通透', '交通便利', '素质住户'] 联排南端户、花园200平、已委托钥匙、看房随时 1600万 80000元/m² 5室3厅 200m² 共2层 2001年建造 刘飞剑 香江花园 朝阳-来广营-香江北路1号 ['近地铁', '独栋别墅', '带花园'] 换房就选这套!经典实用3居还能观景!有钥匙!临地铁14号线 1050万 66878元/m² 3室2厅 157m² 高层(共28层) 2000年建造 王艳鸽 丽水嘉园 朝阳-朝阳公园西-朝阳公园南路 ['近地铁', '近学校', '交通便利'] k2集团强力打造通州园林式住宅社区、南北通透格局、30万首付 205万 26623元/m² 2室2厅 77m² 高层(共20层) 2018年建造 于海瑞 K2十里春风 通州-通州区其他-漷小路 ['南北通透', '交通便利', '素质住户'] 新出可看!200平花园 2015年全新装修 大联排! 6399万 110039元/m² 6室4厅 581m² 共3层 2012年建造 吴鹏 亚运新新家园 朝阳-亚运村-辛店路1号 ['近地铁', '低总价'] 。。。。。。。。精装修 随时看房 南北通透 直接拎包入住 无税 真实照片 235万 20434元/m² 3室2厅 115m² 中层(共6层) 2000年建造 杨兴 明珠花园(东区) 密云-密云-西大桥路 ['品质小区 ', '一梯两户', '远离马路'] page10 安华里一区新上两居室,出行方便,临近公园,带自建 480万 96000元/m² 2室1厅 50m² 低层(共6层) 1989年建造 李朋 安华里一区 朝阳-安贞-安定门外大街 ['近地铁', '配套成熟', '素质住户'] 朝阳5层别墅,婚房标准,全新未住,同看双珑原著、中粮瑞府 3000万 94637元/m² 4室3厅 317m² 共3层 2016年建造 董伟婧 泰禾北京院子 朝阳-来广营-顺黄路 [] 大厂潮白河孔雀城伯顿庄园双庭堡别墅业主着急出售有钥匙随时看房 756万 24000元/m² 5室2厅 315m² 共3层 2014年建造 田伟民 潮白河孔雀城伯顿庄园(别墅) 北京周边-廊坊-侯谭线 ['配套成熟', '素质住户', '安全性高'] 优山美地 精装双拼 花园200平 临近顺义英国* 随时看 2680万 63058元/m² 4室2厅 425m² 共4层 2008年建造 李豆豆 优山美地C区 顺义-中央别墅区-裕园路 ['配套成熟', '采光好', '环境优美']。。。。。。
参考书目:唐松,来自《Python 网络爬虫:从入门到实践》
转载于:https://www.cnblogs.com/dudududu/p/8853913.html
Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据相关推荐
- python爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
- python 安居客 爬虫_Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据...
page1 宏星地产租售部 新出!1700南花园, 赠500万红木家具 3800万 106442元/m2 5室2厅 357m2 共3层 2008年建造 夏秋冬 碧水庄园 昌平-沙河-定泗路 ['独栋别 ...
- python简单爬取安居客的新房和二手房信息
最近同学的论文需要对合肥的房价进行分析,所以博主帮他爬取了合肥的新房以及二手房信息.直接写的脚本进行爬取,没用到框架了,偷懒了,任务量也不大,代码不知道什么时候可能在网上复制的了,自己根据网页改了点. ...
- Python网络爬虫实战:世纪佳缘爬取近6万条小姐姐数据后发现惊天秘密
翻着安静到死寂的聊天列表,我忽然惊醒,不行,我们不能这样下去,光羡慕别人有什么用,我们要行动起来,去找自己的幸福!!! 我也想"谈不分手的恋爱" !!!内牛满面!!! 注册登陆一气 ...
- Python开发爬虫完整代码解析
Python开发爬虫完整代码解析 移除python 三天时间,总算开发完了.说道爬虫,我觉得有几个东西需要特别注意,一个是队列,告诉程序,有哪些url要爬,第二个就是爬页面,肯定有元素缺失的,这个究 ...
- Python网络爬虫数据采集实战:Scrapy框架爬取QQ音乐存入MongoDB
通过前七章的学习,相信大家对整个爬虫有了一个比较全貌的了解 ,其中分别涉及四个案例:静态网页爬取.动态Ajax网页爬取.Selenium浏览器模拟爬取和Fillder今日头条app爬取,基本 ...
- [Python爬虫实战2]爬取济南安居客网站上所需街区的二手房平均房价数据
文章目录 一.项目简介 二.安居客网页分析 1.整体分析 2.细节分析 2.1提取一个页面所有的房源信息 2.2提取每个房源信息中的信息 2.3如何爬取下一页的房源信息 三.程序编写 1.数据去重 2 ...
- python 安居客 爬虫_爬虫学习6:爬取安居客的VR房源信息
公司的VR产品在推广前夕,需要做一个较详细的市场分析报告,我们可以从下面几个步骤来深入探讨: 1.需要展望整个VR的市场规模有多大,从而论证我们需要面对的市场分量, 2.在这个大市场下面,我们面对的细 ...
- python爬虫爬取安居客并进行简单数据分析
此篇博客为普通方式爬取安居客租房数据一共提取出1200条,但是在进行大规模的数据爬取时,不建议使用这种方式,速度太慢是最大的诟病,在进行大规模爬取时,使用分布式爬虫是第一选择 爬取过程 一.指定爬取数 ...
最新文章
- 绩效真的重要吗?绩效管理系统有哪些?
- 应用更新iOS 开发:应用内实现 更新提醒
- from表单中 action的后面 内如果是 servlet的虚拟路径的话
- MyBatis(1):MyBatis入门
- Java IO: 字符流的Piped和CharArray
- python3 readexcel pandas问题,使用python中的pandas中的read_excel函数将日期保留为字符串...
- mysql+after+commit_P8级面试难题,after_sync vs after_commit,哪个性能更好?
- 可以在一个函数中定义另一个函数_第5周 定义一个函数
- 利用DataSnap的回调功能在客户端显示服务器方法的执行进度
- OpenShift Security (4) - 管理集群中的安全漏洞
- 电气工程cad实用教程电子版_电气工程CAD教程-PDF
- JavaScript JSON的key 下划线格式与驼峰格式互相转换
- NTFS Change Journal(USN Journal)详解
- 家用路由器常见之基本概念
- 彻底关闭windows defender,Antimalware Service Executable
- 算法竞赛入门经典 习题6-12
- TD-SCDMA介绍
- 苹果使用过程中的小技巧(合集)
- linux ubuntu安装教程6,1.1.6 安装 Linux(Ubuntu)下的 Mixly
- 妻子决定你未来事业的高度