最近想熟悉一下爬虫,所以记录实战爬虫,首先以此为开篇。

本示例主要用到requests库和bs4库,requests库用来获取网页内容,bs4库则是解析网页内容,获取有用数据。

代码中url可切换当地房天下网址。

# -*- coding:utf-8 -*-
# author:zhoulong
'''
房天下天水新房信息
'''
import requests
from bs4 import BeautifulSoup
import numpy as np
import re
URL = 'http://newhouse.tianshui.fang.com/house/s/b91/'
HTML = requests.get(URL)
SOUP = BeautifulSoup(HTML.content, 'html.parser', from_encoding='gb18030')
last_page = SOUP.select('.last')
page_number = int(last_page[0]['href'].split('/')[3].split('9')[1])#根据尾页划分页码
url_demo = 'http://newhouse.tianshui.fang.com/house/s/b9{}/'#i+1,name.text.strip(),
#房价价格
house_price_list=[]
for i in range(1,(page_number+1)):url = url_demo.format(i)html = requests.get(url)soup = BeautifulSoup(html.content,'html.parser',from_encoding='gb18030')names = soup.select('.nlcd_name a')#class定位组合查找adresses = soup.select('.address a')#查找地址all_type = soup.findAll(name="span", attrs={"class": re.compile(r"forSale|inSale|outSale|zusale|zushou")})#出售all_money = soup.findAll(name="div", attrs={"class": re.compile(r"nhouse_price|kanesf")})#价格for i,name in enumerate(names):print(i+1,' name:'+name.text.strip(),'  address:'+''.join(re.split(r'\s+', adresses[i].text.replace('\n','').replace('',''))),all_type[i].text,' house_price: '+all_money[i].text.replace('\n',''))house_price_list.append(re.findall('\d+',all_money[i].text.replace('\n','')))
house_price_list=[int(i[0]) for i in house_price_list if i]
print('*'*80)
print('* '+' 房价均价:'+str(np.mean(house_price_list))+' '*60+'*')
print('* '+' 房价最高价:'+str(np.max(house_price_list))+' '*60+'*')
print('* '+' 房价最低价:'+str(np.min(house_price_list))+' '*61+'*')
print('*'*80)

爬虫实战(一)之爬取房天下新房数据相关推荐

  1. Python爬虫案例3:爬取房天下房价等各种信息

    爬取房天下网站,爬取的内容: 区域.小区名.总价.房型.面积.单价.朝向.楼层位置.装修情况.建筑时间.是否有电梯.产权类型.住宅类型.发布日期 信息保存:保存在csv中 数据结果: 1.先建立爬虫项 ...

  2. 爬取房天下新房、二手房房源数据(scrapy-redis分布式爬虫)

    前言 该项目基于Scrapy-Redis框架实现分布式爬虫.其中,我使用了自身电脑(win10)作为redis服务器, WSL虚拟机和一台mac作为爬虫服务器,从而实现分布式爬虫. 环境搭建 开发环境 ...

  3. 爬虫实战之分布式爬取知乎问答数据

    分布式爬取知乎 一.环境 window7 scrapy pycharm redis other PC MySQL 二.简介 之所以选择爬取知乎,一是很多人都在爬,那么一定有它爬取价值的地方:二呢分析后 ...

  4. 爬虫实战-爬取房天下网站全国所有城市的新房和二手房信息(最新)

    看到https://www.cnblogs.com/derek1184405959/p/9446544.html项目:爬取房天下网站全国所有城市的新房和二手房信息和其他博客的代码,因为网站的更新或者其 ...

  5. python爬虫——爬取房天下

    python爬虫--爬取房天下 话不多说,直接上代码! import requests as req import time import pandas as pd from bs4 import B ...

  6. 详解Python爬取房天下的推荐新楼盘

    点击上方"程序员大咖",选择"置顶公众号" 关键时刻,第一时间送达! 最近一直在关注Python写爬虫相关的知识,尝试了采用requests + Beautif ...

  7. 详解Python 采用 requests + Beautiful Soup 爬取房天下新楼盘推荐

    最近一直在关注Python写爬虫相关的知识,尝试了采用requests + Beautiful Soup来爬取房天下(原搜房网)的推荐新楼盘. 不用不知道,一用发现有惊喜也有惊吓,本文就一同记录下惊喜 ...

  8. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  9. 《python爬虫实战》:爬取贴吧上的帖子

    <python爬虫实战>:爬取贴吧上的帖子 经过前面两篇例子的练习,自己也对爬虫有了一定的经验. 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写. ...

  10. python爬虫实战之多线程爬取前程无忧简历

    python爬虫实战之多线程爬取前程无忧简历 import requests import re import threading import time from queue import Queu ...

最新文章

  1. python终止线程报错_退出整个程序时出现python线程异常错误
  2. (Interrupt Latency) 中断延迟
  3. OGG logdump跳过某事物操作方法
  4. sqlserver中创建包含事务的存储过程
  5. css html5简介,HTML5 简介......
  6. SQL语句实现行转列
  7. iPhone13 系列售价曝光:没有涨价;曝华为P50系列7月29日发布;丁磊称专业比学校更重要:你同意吗?|极客头条...
  8. 关于Fedora8中DNS配置问题解决
  9. Unbuntu 出现无法解析或打开软件包的列表或是状态文件的解决办法
  10. 军用装备产品GJB150A淋雨试验检测机构
  11. 2022高教社杯数学建模思路 - 案例:Apriori-关联规则挖掘算法
  12. 热传导方程以及Matlab求解
  13. Magisk如何针对性隐藏Root避免被检测
  14. IntelliJ IDEA 2017 提示“Unmapped Spring configuration files found.Please configure Spring facet.”
  15. js,vue 上传图片前压缩图片(无损压缩,保持在2M以内)
  16. 愚人节恶搞html,愚人节来玩变装!爆笑在线恶搞照片网站
  17. 【已解决】iOS程序出现警告:ARC Semantic Issue,Assigning retained object to unsafe property;object will be releas
  18. 为什么计算机打不开优盘,U盘打不开,且8G的U盘只报64M,为什么?
  19. Java软件工程师面试常见问题集锦之一
  20. amd625和mx250比较_笔记本电脑中的1050ti与mx250哪个显卡的性能比较好一些?

热门文章

  1. java两个数最大公约数和最小公倍数_java中请给出例子程序:找出两个数的最大公约数和最小公倍数...
  2. 19. Django进阶:分页
  3. Go基础:不同数据类型作为函数参数传递值传递/地址(引用)传递判断
  4. html怎样在雪景里插入文字,下雪朋友圈怎么配文字 雪景发朋友圈配一句话
  5. Java中实时监控目录下文件变化的两种实现方法介绍
  6. LMM(LightMoonMovie)亮月湾电影分享管理系统;
  7. ORB_SLAM3_一张图说明ORB-SLAM中的ORB特征提取和图像匹配算法流程
  8. 论文笔记_S2D.61_2019-CVPR-DeepLiDAR:基于稀疏激光雷达数据和单张彩色图像的户外场景的表面法线引导的深度预测
  9. 论文笔记_S2D.41_2017-ICCV-使用深度估计与深度卷积神经场,进行单目视觉里程计的尺度恢复
  10. 线性表_使用栈实现二进制转换到八进制/十进制/十六进制