[python]赶集网二手房爬虫插件【可用任意扩展】

最近应一个老铁的要求，人家是搞房产的，所以就写了这个二手房的爬虫，因为初版，所以比较简单，有能力的老铁可用进行扩展。

import requests
import osfrom bs4 import BeautifulSoupclass GanJi():"""docstring for GanJi"""def __init__(self):super(GanJi, self).__init__()def get(self,url):user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'headers    = {'User-Agent':user_agent}webData    = requests.get(url + 'o1',headers=headers).textsoup       = BeautifulSoup(webData,'lxml')sum        = soup.find('span',class_="num").text.replace("套","")ave        = int(sum) / 32forNum     = int(ave)if forNum < ave:forNum = forNum + 1for x in range(forNum):webData    = requests.get(url + 'o' + str(x + 1),headers=headers).textsoup       = BeautifulSoup(webData,'lxml')find_list  = soup.find('div',class_="f-main-list").find_all('div',class_="f-list-item ershoufang-list")for dl in find_list:print(dl.find('a',class_="js-title value title-font").text,end='|') # 名称# 中间 5 个信息tempDD = dl.find('dd',class_="dd-item size").find_all('span')for tempSpan in tempDD:if not tempSpan.text == '' : print(tempSpan.text.replace("\n", ""),end='|')print(dl.find('span',class_="area").text.replace(" ","").replace("\n",""),end='|') # 地址print(dl.find('div',class_="price").text.replace(" ","").replace("\n",""),end='|') # 价钱print(dl.find('div',class_="time").text.replace(" ","").replace("\n",""),end="|") # 平均print("http://chaozhou.ganji.com" + dl['href'],end="|") # 地址print(str(x + 1))if __name__ == '__main__':temp = GanJi()temp.get("http://chaozhou.ganji.com/fang5/xiangqiao/")

转载于:https://www.cnblogs.com/68xi/p/9486957.html

[python]赶集网二手房爬虫插件【可用任意扩展】相关推荐

python二手房课程设计_【Python】赶集网二手房爬虫 (可扩展)
[Python] 纯文本查看复制代码import requests import os from bs4 import BeautifulSoup class GanJi(): "&quo ...
python官网学习爬虫资料_Python爬虫学习？
1 爬虫是互联网上最常见的一种东西了吧. 爬虫这东西每天都在网上爬大量的信息,各大搜索引擎厂商每天都有上百万的爬虫在网络上活动,这些爬虫的作用就是给搜索引擎采集互联网上最新的内容,采集来的内容经过分类 ...
Python 花瓣网动态爬虫
好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网. 首先在爬取图片之前肯定要对网页源码进行分析这里可以使用chrome的F12开发人员工具 ...
爬取赶集网二手房信息（详细代码）
基本没有反爬,直接上代码 import requests from lxml import etree import re import xlwt import timeheaders = {'Use ...
python爬取二手房信息_刚刚接触PythonR？教你爬取分析赶集网北京二手房数据（附详细代码）...
原标题:刚刚接触Python&R?教你爬取分析赶集网北京二手房数据(附详细代码) 源 /数据森麟文 /徐涛前言: 本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的 ...
python二手房价格预测_Python爬取赶集网北京二手房数据R对爬取的二手房房价做线性回归分析...
前言:本文主要分为两部分:Python爬取赶集网北京二手房数据&R对爬取的二手房房价做线性回归分析.文章思路清晰,代码详细,特别适合刚刚接触Python&R的同学学习参考. Part1 ...
python爬取链家新房_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
python爬取链家新房数据_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
PythonR爬取分析赶集网北京二手房数据（附详细代码）
本文转载自数据森麟(ID:shujusenlin) 作者介绍:徐涛,19年应届毕业生,专注于珊瑚礁研究,喜欢用R各种清洗数据. 知乎:parkson 如何挑战百万年薪的人工智能! https://ed ...

[python]赶集网二手房爬虫插件【可用任意扩展】

[python]赶集网二手房爬虫插件【可用任意扩展】相关推荐

最新文章

热门文章