分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的

a3 实际表示的

l4 表示的是

然后 将复合条件拼成一个字符串,带过去。看着真的很像加密过的。赞

import os, re

import requests

import random

import time

from bs4 import BeautifulSoup

user_agent_list = [

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

UA = random.choice(user_agent_list) ##从self.user_agent_list中随机取出一个字符串

headers = {'User-Agent': UA} ##构造成一个完整的User-Agent (UA代表的是上面随机取出来的字符串哦)

url = 'https://tj.ke.com/chengjiao/pg'

for x in range(2,41):

time.sleep(random.randint(2,5))

with requests.get(url+str(x)+'ddo22p7', headers=headers, timeout=5) as response:

soup = BeautifulSoup(response.text, 'lxml')

# print(soup.title.text) # 打印title

li_list = soup.find('ul', class_='listContent').find_all('li')

# print(li_list)

for li_quick in li_list:

try:

#取成交日期

dealDate=li_quick.find('div',class_='dealDate').get_text().strip()

#取名称

title=li_quick.find('div',class_='title').a.get_text().strip()

#取总价

totalPrice=li_quick.find('div',class_='totalPrice').find('span',class_='number').get_text().strip()

#取单价

unitPrice=li_quick.find('div',class_='unitPrice').find('span',class_='number').get_text().strip()

#取位置信息

positionInfo=li_quick.find('div',class_='positionInfo').get_text().strip()

#取成交周期

dealCycleTxt0=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[0].get_text().strip()

#取挂牌价格

dealCycleTxt1=li_quick.find('div',class_='dealCycleeInfo').find('span',class_='dealCycleTxt').find_all('span')[1].get_text().strip()

except:

continue

finally:

print(title,',',dealDate,',',totalPrice,',',unitPrice,',',dealCycleTxt0,',',dealCycleTxt1,',',positionInfo)

python找房源_python抓取贝壳房源信息相关推荐

  1. python找思路_python 爬取贝壳的一些思路和方法设计(用地址找到小区名字)

    1.查mysql 获取 title 或者 address 2.用title或者address参数,request.get方法 查百度地图的地址api: http://api.map.baidu.com ...

  2. python找房源_python抓取链家房源信息(二)

    试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52: ...

  3. python喜马拉雅收费_python抓取喜马拉雅免费专辑

    老规矩,先上代码 import requests import os import urllib # json文件地址 json_url = "https://www.ximalaya.co ...

  4. python内容目标_python抓取一个页面的目标网址,然后抓取目标网址里的内容

    这次测试的是招聘页面 https://www.liepin.com/zhaopin/?key=python 目标是先抓取到里面各个公司职位介绍的链接,然后在根据链接抓取到里面根据职位的介绍. 代码如下 ...

  5. python成都_Python抓取成都房价信息

    Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...

  6. python行业中性_Python抓取分析淘宝连衣裙数据,128元真的是低价人群分界线吗?...

    1.我是一个低价人群用户 上周发表文章<一个匿名用户的淘宝"连衣裙"大观>后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出 ...

  7. python下载电影_Python抓取电影天堂电影信息的代码

    Python2.7Mac OS 抓取的是电影天堂里面最新电影的页面.链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接 ...

  8. python 京东 价格_python抓取京东商品价格

    本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单 京东商品价格目前是基于api接口获取然后通过js进行数值初始化 一.基 ...

  9. 基于python的scrapy爬虫抓取京东商品信息

    这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...

最新文章

  1. [置顶] mmog游戏开发之业务篇
  2. python 调用c++ ffmpeg接收yuv
  3. sql floor 取整函数
  4. 使用maven整合SSH框架详细步骤
  5. 共济失调对我们的危害你知道吗
  6. 底层框架_你有必要了解一下Flink底层RPC使用的框架和原理
  7. HTML5 之 简单汇总
  8. new函数的使用方法
  9. java全栈开发工程师面试题总结
  10. Oracle between and
  11. Android 9 (P)在user模式下无法使用fastboot烧录怎么破
  12. centos静态ip天坑
  13. 如何将iPad用作Mac的第二屏幕
  14. PC端微信扫码支付二维码生成接口的调整
  15. Linux怎么彻底删除用户
  16. MySQL中创建jxgl数据库_《MySQL数据技术与实验指导》jxgl数据库的创建和插入
  17. ipad好用的思维导图软件有哪些
  18. 【计算机毕业设计】二手车交易网站
  19. 核电站仪控系统智能测试平台设计
  20. 基于最小系统的电路原理图绘制PCB图

热门文章

  1. python 柱状图 居中_python matplotlib模块: bar(柱状图)
  2. 如何将瀑布流里的图片加链接_只需5步!魔幻丛林瀑布后期揭秘
  3. 鼠标右键转圈圈_鼠标右键文件夹出现转圈圈假死机情况
  4. 密码学 / 什么是数字签名
  5. C/Cpp / 设计模式 / 模板模式
  6. 关于 STM32G0/G4/L4 HAL_IIC HAL_I2C_Mem_Read 函数读取M24C64存储芯片遇到的问题
  7. mysql 6.2使用_2. MYSQL基本使用(2)
  8. php获取curl头_php中CURL请求头和响应头获取方法
  9. flask jinja2 mysql_flask/jinja2 SSTI注入学习
  10. web页面--前端明水印