import requests
from lxml import html
import random
import xlwt
import time
import hashlib
from datetime import datetimeugList = []orderno = "DT20210228205219E8iMOzLE"
secret = "XXXXXXXXXXX"
ip = "dynamic.xiongmaodaili.cn"
# 按量订单端口
port = "8088"
ip_port = ip + ":" + port
timestamp = str(int(time.time()))
#第二种写法:timestamp = str(int(datetime.timestamp(datetime.now())))txt = "orderno=" + orderno + "," + "secret=" + secret + "," + "timestamp=" + timestamp
txt = txt.encode()
md5_string = hashlib.md5(txt).hexdigest()
sign = md5_string.upper()
#print(sign)
auth = "sign=" + sign + "&" + "orderno=" + orderno + "&" + "timestamp=" + timestamp + "&change=true"
proxy = {"https": "https://" + ip_port}
#print(proxy)
headers = {"User-Agent": random.choice(ugList),"Proxy-Authorization": "sign=BDB087FE4EZXXXXXXB814EACD4CB80&orderno=DT20210228205219E8iMOzLE&timestamp=1615711733&change=true"}i = 0
work_book = xlwt.Workbook(encoding="utf-8")
sheet = work_book.add_sheet("巴州二手房信息")
sheet.write(0, 3, "小区名称")
sheet.write(0, 4, "区域1")
sheet.write(0, 5, "区域2")
sheet.write(0, 6, "地址")sheet.write(0, 7, "总价(万元)")
sheet.write(0, 8, "单价(元/㎡)")
sheet.write(0, 2, "房子大小(㎡)")
sheet.write(0, 1, "房型")
sheet.write(0, 0, "标题")
row_num = 1
for i in range(0,50):url = "https://bygl.58.com/ershoufang/p" + str(i + 1) + "/"requests.DEFAULT_RETRIES = 5s = requests.session()s.keep_alive = Falsei += 1r = s.get(url, headers=headers, proxies=proxy, verify=False, timeout=20)r.encoding = 'utf-8'preview_html = html.fromstring(r.text)list_title = preview_html.xpath("//div[@class='property-content-title']/h3/text()|//p[""@class='property-content-info-comm-name']/text()|//p[ ""@class='property-content-info-comm-address']//span/text()|//span[ ""@class='property-price-total-num']/text()|//p[""@class='property-price-average']/text()|//p[""@class='property-content-info-text'][1]/text()|//p[""@class='property-content-info-text property-content-info-attribute']//span//text()")list_title = [str(x) for x in list_title]#time.sleep(random.random() * 2)print("-------------------------第" + str(i) + "页-------------------------------")print(list_title)for j in range(len(list_title)):if j % 14 == 0:title = list_title[j + 8]area1 = list_title[j + 9]biaoti = list_title[j]area2 = list_title[j + 10]area3 = list_title[j + 11]totalnum = list_title[j + 12]avg = list_title[j + 13]size = list_title[j + 7].strip().strip('\n')house_type = list_title[j + 1] + list_title[j + 2] + list_title[j + 3] + list_title[j + 4] + list_title[j + 5] + list_title[j + 6]# print(type(list_title[j + 6]))sheet.write(row_num, 3, title)sheet.write(row_num, 4, area1)sheet.write(row_num, 5, area2)sheet.write(row_num, 6, area3)sheet.write(row_num, 7, totalnum)sheet.write(row_num, 8, avg)sheet.write(row_num, 2, size)sheet.write(row_num, 1, house_type)sheet.write(row_num, 0, biaoti)row_num += 1time.sleep(1)
file_name = r"F:\巴州二手房爬取.xls"
work_book.save(file_name)

使用动态代理爬取某房产平台信息并写入Excel(python)相关推荐

  1. python基金筛选_Python爬取基金的排名信息,写入excel中方便挑选基金

    原标题:Python爬取基金的排名信息,写入excel中方便挑选基金 基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低) ...

  2. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  3. 2020-09-22Python爬取基金的排名信息,写入excel中方便挑选基金

    基金是一种很好的理财方式,利用pyhton根据以往的跌幅情况进行基金选择,是一种很可靠的选择方式.本文以债券基金(稳定且风险较低)的爬虫和策略选择为例子,实现基金的选择. 1.数据库准备 1.1.ub ...

  4. selenium框架爬取p2p问题平台信息,需加载点击页面的。

    @TOC selenium框架爬取p2p问题平台信息 # -*- coding: utf-8 -*- """ Created on Tue Dec 10 07:03:57 ...

  5. Python爬取淘宝商品信息保存到Excel

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  6. python 爬虫抓取网页数据导出excel_Python爬虫|爬取起点中文网小说信息保存到Excel...

    前言: 爬取起点中文网全部小说基本信息,小说名.作者.类别.连载\完结情况.简介,并将爬取的数据存储与EXCEL表中 环境:Python3.7 PyCharm Chrome浏览器 主要模块:xlwt ...

  7. python贴吧回帖-python控制浏览器爬取百度贴吧回复并写入Excel

    [Python] 纯文本查看 复制代码# http://tieba.baidu.com/i/i/my_reply from selenium import webdriver import time ...

  8. Python3网络爬虫开发实战,使用IP代理爬取微信公众号文章

    前面讲解了代理池的维护和付费代理的相关使用方法,接下来我们进行一下实战演练,利用代理来爬取微信公众号的文章. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知 ...

  9. 使用代理爬去微信公众号_Python3网络爬虫开发实战之使用代理爬取微信公众号文章...

    本节目标 我们的主要目标是利用代理爬取微信公众号的文章,提取正文.发表日期.公众号等内容,爬取来源是搜狗微信,其链接为 http://weixin.sogou.com/,然后把爬取结果保存到 MySQ ...

  10. 使用代理爬去微信公众号_Python3WebSpider/9.5-使用代理爬取微信公众号文章.md at master · Lainton/Python3WebSpider · GitHub...

    9.5 使用代理爬取微信公众号文章 前面讲解了代理池的维护和付费代理的相关使用方法,接下来我们进行一下实战演练,利用代理来爬取微信公众号的文章. 1. 本节目标 我们的主要目标是利用代理爬取微信公众号 ...

最新文章

  1. C语言的变量的内存分配
  2. 科学家从脑电图中解读大脑的运动意图
  3. 开发日记-20190619 关键词 读书笔记《鸟哥的Linux私房菜-基础学习篇》
  4. Web2.0时代,你得到什么?
  5. iOS设备控制打印机输出文本
  6. Flink x Zeppelin ,Hive Streaming 实战解析
  7. git clone 分支_Git 小团队的协作 (二)
  8. 佳能102种相片风格_一位妈妈用蔬菜水果等,为女儿拍了一组相片,没想到在INS火了...
  9. 【C++ 与 STL】映射:map
  10. radio select的 option使用
  11. mvc core2.1 Identity.EntityFramework Core 导航状态栏(六)
  12. 小型功率放大器的设计与制作——功率放大器的设计方法
  13. LINUX下运行.sh文件出现Syntax error: end of file unexpected (expecting “then”)最方便解决方法
  14. ANSYS公开课圆满落幕
  15. 第108章 属性关键字 - Required
  16. 密码学,有限域GF(2^8)乘法计算,不可约多项式为P(x)=x^8+x^4+x^3+x+1
  17. 【Python之numpy库】15.np.set_printoptions(suppress=True) 将数组科学计数法转化为浮点数
  18. 【里程碑】牛X的一塌糊涂,不需要目标板额外做任何代码,实时检测RTOS的任务执行情况,支持在线和脱机玩法
  19. 畜牧养殖物联网的应用功能
  20. Origin中输入希腊字母

热门文章

  1. 三本学计算机没用吗,腾讯员工:我211学计算机都觉得写代码难,三本的人能写代码为啥考不上211...
  2. centos7升级内核
  3. vp230引脚功能_SN65HVD230:具有待机模式的 3.3V CAN 收发器
  4. 计算机等级考试网络数据,全国计算机等级考试三级信息、网络、数据库上机编程题15道...
  5. python中options类_python命令行参数解析OptionParser类用法实例
  6. 服务器硬盘和台式机有什么区别,服务器和电脑主机有什么区别?
  7. java 设置启动参数设置_1.java程序启动参数配置
  8. 洪雅中学成绩2021高考查询,洪雅中学2021年排名
  9. Substrings (C++ find函数应用)
  10. Elastic ik插件配置热更新功能