# -*- coding: utf-8 -*-
import bs4
import requests
import time#引入time,计算下载时间def open_url(url):
#    url = 'https://su.lianjia.com/chengjiao/gongyeyuan/pg1/'hd = {}hd['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'r = requests.get(url,headers=hd,timeout=10)return rhost = 'https://su.lianjia.com/chengjiao/pg'whvj = []
aa = []
bb = []
cc = []
dd = []
count = 1start = time.time()
size = 0
q = 2  #for i in range(98,99):
while count < q:
#    count = 1aaurl = host + str(count)r = open_url(url)soup = bs4.BeautifulSoup(r.text,'html.parser')count = count + 1targets = soup.find_all('a',class_="img")for each in targets:whvj.append(each['href'])print('\r'+"已经下载:"+int(count/q*100)*"█"+"【"+str(round(float(count/q)*100,2))+"%"+"】",end="")
#    print(url)
#    print(whvj)
count1 = 0
response = requests.get(url,stream = True)#stream参数设置成True时,它不会立即开始下载,当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载
chunk_size = 1024#每次块大小为1024
content_size = int(len(whvj))
for i in whvj:soup1 = bs4.BeautifulSoup(open_url(i).text,'html.parser')djjx = soup1.find_all("span",class_="record_price")aa.append(djjx[0].text)xbxi = soup1.find_all("div",class_="content")for each in xbxi[0]:bb.append(each.text.split())uijm = soup1.find_all("div",class_="name")
#        for each in uijm[len(uijm)-1]:cc.append(uijm[len(uijm)-1].text)title = soup1.find_all("title")for each in title:dd.append(each.text)size = size +1 print('\r'+"已经下载:"+int(size/content_size*100)*"█"+" 【"+str(round(size/chunk_size/1024,2))+"MB】"+"【"+str(round(float(size/content_size)*100,2))+"%"+"】",end="")##
result = []
length =len(bb)
for i in range(length):result.append(str(dd[i])+'  '  +str(aa[i])+'  '+str(whvj[i])+ '  ' + str(bb[i]) + '^' + str(cc[i]) + '\n')end = time.time()
print("总耗时:"+str(end-start)+"秒")#data_count = 0with open('ty.txt','w',encoding='utf-8') as f:for each in result:f.write(each)

python爬虫——链家苏州成交房价2相关推荐

  1. php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)

    因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西. 一.爬虫需要会什么? 学习东西 首先你要知道它是干嘛的.爬虫 ...

  2. python 爬虫 链家网二手房信息采集代码

    直接上代码吧,应该很好理解 import requests import lxml.html import time from fake_useragent import UserAgent impo ...

  3. 【Python】基于Python获取链家小区房价信息及其POI数据

    文章目录 1 简介 2 效果展示 3 分析网页 4 代码思路 5 完整代码 6 相关文章 1 简介 本来要先发在csdn上的,但是之前学弟催我给他公众号写点东西,我就把这篇博客首发在他的公众号上,现在 ...

  4. 26-爬取链家二手房成交的房产信息【简单】

    目的:爬取链家二手房成交的信息,包括:['cjxiaoqu','cjdanjia','cjhuxing','cjmianji','cjshijian','cjlouceng','cjchaoxiang ...

  5. python适应的领域_“Andrew说Python爬虫”百家号娱乐领域排行-哪个领域更适合新手作者?...

    Andrew说Python爬虫是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列690769名,娱乐分类排名位列181017名,领先了37.8%的百家号. Andrew说Python爬虫的简 ...

  6. python哪个领域厉害_“Andrew说Python爬虫”百家号娱乐领域排行-哪个领域更适合新手作者?...

    Andrew说Python爬虫是当前百家号中的普通号,目前账号百家号权重为2,综合排名位列690769名,娱乐分类排名位列181017名,领先了37.8%的百家号. Andrew说Python爬虫的简 ...

  7. Python爬虫三:抓取链家已成交二手房信息(58W数据)

    环境:Windows7+python3.6+Pycharm2017 目标:抓取链家北京地区已成交二手房信息(无需登录),如下图,户型.朝向.成交时间价格等,保存到csv.最后一共抓取约58W数据,程序 ...

  8. python建筑案例_Python数据分析实战-链家北京二手房价分析

    前言 最近在自学Python,通过学习大家的分享案例,看到使用Python进行较多的主要4个方面:爬虫,数据处理,数据可视化以及机器学习建模.对我来说目标就是: 熟练使用numpy pandas 进行 ...

  9. python爬虫requests源码链家_Python 爬虫 链家二手房(自行输入城市爬取)

    因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西. 一.爬虫需要会什么? 学习东西 首先你要知道它是干嘛的.爬虫 ...

最新文章

  1. 验证(verification)和确认(validation)
  2. Elasticsearch之深入了解Doc Values 和 Fielddata
  3. fiddler展示serverIP方法
  4. 决战 平安京服务器维护,《决战!平安京》2018年9月7日维护公告
  5. [转]php初级教程(七)一个新闻管理系统(准备工作)
  6. react(83)--filter
  7. LeetCode 2201. 统计可以提取的工件(哈希)
  8. java兵乓球队问题_Java两个乒乓球队比赛名单问题(判断素数)
  9. EOS技术研究:合约与数据库交互
  10. 玩转 Python 3.5 的 await/async
  11. WordPress小程序搭建之免费开源小程序
  12. LABjs(类似于LazyLoad,但它更加方便管理依赖关系)
  13. python 断言详细讲解用法及其案例_python断言_python 断言_python断言案例 - 云+社区 - 腾讯云...
  14. 计算机辅助翻译实践总结,trados计算机辅助翻译实践报告材料
  15. 蜡笔小新 (python)
  16. windy定义了一种windy数,不含前导零且前两个数字只差至少为2的正整数被称为windy数,求A和B之间windy数的个数
  17. python怎么弄成白色背景_python – 在matplotlib中为colorbar添加白色背景
  18. Linux-进程调度(CFS)
  19. 怎么从服务器上文件拷贝下来
  20. 解决:getReader() has already been called for this request

热门文章

  1. 如何在以太坊上发行自己的代币
  2. 安装torchvision-0.12.0+cu113版本
  3. 图解:网络硬件的发展史
  4. VS2019 MFC模式下如何调用控制台并用cprintf在控制台打印
  5. html网页制作看板娘原理,给网站添加 网页看板娘 效果 给网页添加一个可爱的小萝莉...
  6. vue生命周期updated
  7. 叶酸修饰的羧化石墨烯氧化物,Folic acid-graphene(COOH)
  8. matlab用()括住字符串,在matlab中( )用于括住字符串.
  9. 我的世界服务器配置文件
  10. 开源自助建站系统源码完整源码+搭建教程 傻瓜式一键建站系统源码