python找房源_python抓取贝壳房源信息

分析了贝壳的房源信息数据，发现地址链接的参数传递是有规律的

a3 实际表示的

l4 表示的是

然后将复合条件拼成一个字符串，带过去。看着真的很像加密过的。赞

import os, re

import requests

import random

import time

from bs4 import BeautifulSoup

user_agent_list = [

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

UA = random.choice(user_agent_list) ##从self.user_agent_list中随机取出一个字符串

headers = {'User-Agent': UA} ##构造成一个完整的User-Agent (UA代表的是上面随机取出来的字符串哦)

url = 'https://tj.ke.com/chengjiao/pg'

for x in range(2,41):

time.sleep(random.randint(2,5))

with requests.get(url+str(x)+'ddo22p7', headers=headers, timeout=5) as response:

soup = BeautifulSoup(response.text, 'lxml')

# print(soup.title.text) # 打印title

li_list = soup.find('ul', class_='listContent').find_all('li')

# print(li_list)

for li_quick in li_list:

try:

#取成交日期

dealDate=li_quick.find('div',class_='dealDate').get_text().strip()

#取名称

title=li_quick.find('div',class_='title').a.get_text().strip()

#取总价

totalPrice=li_quick.find('div',class_='totalPrice').find('span',class_='number').get_text().strip()

#取单价

unitPrice=li_quick.find('div',class_='unitPrice').find('span',class_='number').get_text().strip()

#取位置信息

positionInfo=li_quick.find('div',class_='positionInfo').get_text().strip()

#取成交周期

dealCycleTxt0=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[0].get_text().strip()

#取挂牌价格

dealCycleTxt1=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[1].get_text().strip()

except:

continue

finally:

print(title,',',dealDate,',',totalPrice,',',unitPrice,',',dealCycleTxt0,',',dealCycleTxt1,',',positionInfo)

python找房源_python抓取贝壳房源信息相关推荐

python找思路_python 爬取贝壳的一些思路和方法设计(用地址找到小区名字)
1.查mysql 获取 title 或者 address 2.用title或者address参数,request.get方法查百度地图的地址api: http://api.map.baidu.com ...
python找房源_python抓取链家房源信息(二)
试着用scrapy将之前写的抓取链家网信息的重新写了写然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...
python喜马拉雅收费_python抓取喜马拉雅免费专辑
老规矩,先上代码 import requests import os import urllib # json文件地址 json_url = "https://www.ximalaya.co ...
python内容目标_python抓取一个页面的目标网址，然后抓取目标网址里的内容
这次测试的是招聘页面 https://www.liepin.com/zhaopin/?key=python 目标是先抓取到里面各个公司职位介绍的链接,然后在根据链接抓取到里面根据职位的介绍. 代码如下 ...
python成都_Python抓取成都房价信息
Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...
python行业中性_Python抓取分析淘宝连衣裙数据，128元真的是低价人群分界线吗？...
1.我是一个低价人群用户上周发表文章<一个匿名用户的淘宝"连衣裙"大观>后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出 ...
python下载电影_Python抓取电影天堂电影信息的代码
Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面.链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 ...
python 京东价格_python抓取京东商品价格
本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单京东商品价格目前是基于api接口获取然后通过js进行数值初始化一.基 ...
基于python的scrapy爬虫抓取京东商品信息
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...

python找房源_python抓取贝壳房源信息

python找房源_python抓取贝壳房源信息相关推荐

最新文章

热门文章