最近应一个老铁的要求,人家是搞房产的,所以就写了这个二手房的爬虫,因为初版,所以比较简单,有能力的老铁可用进行扩展。

import requests
import osfrom bs4 import BeautifulSoupclass GanJi():"""docstring for GanJi"""def __init__(self):super(GanJi, self).__init__()def get(self,url):user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'headers    = {'User-Agent':user_agent}webData    = requests.get(url + 'o1',headers=headers).textsoup       = BeautifulSoup(webData,'lxml')sum        = soup.find('span',class_="num").text.replace("套","")ave        = int(sum) / 32forNum     = int(ave)if forNum < ave:forNum = forNum + 1for x in range(forNum):webData    = requests.get(url + 'o' + str(x + 1),headers=headers).textsoup       = BeautifulSoup(webData,'lxml')find_list  = soup.find('div',class_="f-main-list").find_all('div',class_="f-list-item ershoufang-list")for dl in find_list:print(dl.find('a',class_="js-title value title-font").text,end='|') # 名称# 中间 5 个信息tempDD = dl.find('dd',class_="dd-item size").find_all('span')for tempSpan in tempDD:if not tempSpan.text == '' : print(tempSpan.text.replace("\n", ""),end='|')print(dl.find('span',class_="area").text.replace(" ","").replace("\n",""),end='|') # 地址print(dl.find('div',class_="price").text.replace(" ","").replace("\n",""),end='|') # 价钱print(dl.find('div',class_="time").text.replace(" ","").replace("\n",""),end="|") # 平均print("http://chaozhou.ganji.com" + dl['href'],end="|") # 地址print(str(x + 1))if __name__ == '__main__':temp = GanJi()temp.get("http://chaozhou.ganji.com/fang5/xiangqiao/")

  

转载于:https://www.cnblogs.com/68xi/p/9486957.html

[python]赶集网二手房爬虫插件【可用任意扩展】相关推荐

  1. python二手房课程设计_【Python】赶集网二手房爬虫 (可扩展)

    [Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup class GanJi(): "&quo ...

  2. python官网学习爬虫资料_Python爬虫学习?

    1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...

  3. Python 花瓣网动态爬虫

    好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网. 首先在爬取图片之前肯定要对网页源码进行分析 这里可以使用chrome的F12开发人员工具 ...

  4. 爬取赶集网二手房信息(详细代码)

    基本没有反爬,直接上代码 import requests from lxml import etree import re import xlwt import timeheaders = {'Use ...

  5. python爬取二手房信息_刚刚接触PythonR?教你爬取分析赶集网北京二手房数据(附详细代码)...

    原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛 前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...

  6. python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...

    前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...

  7. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  8. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  9. PythonR爬取分析赶集网北京二手房数据(附详细代码)

    本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

最新文章

  1. 期望最大化(EM)算法
  2. poj 3920(简单dp)
  3. Android中SQLlite数据库的增删改查
  4. Prometheus学系列(十九)之PromQL基础
  5. flutter ios打包_关于Flutter iOS打包报错的问题
  6. 6本Android开发必备图书
  7. 【Python】勒索病毒模拟
  8. 让你的网页更精彩 - Javascript 调用MSAgent
  9. C语言学习-翁凯(第二章笔记)
  10. 方正飞鸿智能信息平台产品白皮书(一)
  11. 目前UI设计和前端哪个行业更好,女生应该怎么抉择?
  12. jzoj5236. 【NOIP2017模拟8.7A组】利普希茨
  13. LabVIEW控制Arduino采集DHT11温湿度数值(进阶篇—4)
  14. Apache Kylin 之 初介绍
  15. PBOC/EMV之持卡人验证
  16. eBPF 如何简化服务网格
  17. Java超市管理系统项目
  18. 新道格生日会 共悦生辰 美好同行
  19. 【周志华机器学习】九、聚类
  20. 论文阅读:Entangled Watermarks as a Defense against Model Extraction

热门文章

  1. C#保留一位小数并四舍五入
  2. YOLOv4团队打造YOLOv7!最先进的实时目标检测网络来了!
  3. 计算机组装实验感受,计算机组装与维修实验
  4. 工控CTF之协议分析6——s7comm
  5. 渗透测试之Google搜索语法
  6. GTHE3开发记录1
  7. VisualSVN Server安装过程中出现Service“Visual Server” failed to start.“ 问题解决方案
  8. SuperMap iDesktop常见问题解答集锦(十)
  9. 腾讯 android安全,腾讯安全玄武实验室:市面主流安卓应用存在用户数据“被克隆”风险...
  10. Java全国计算机等级考试二级笔记---java部分