day22-作业贝壳租房100页数据

import requests
from bs4 import BeautifulSoup
import csv, redef get_one_page(page):"""获取贝壳租房一页数据:param page: 页数(从1开始):return: 网页源代码"""url = f'https://cd.zu.ke.com/zufang/pg{page}/#contentList'response = requests.get(url)if response.status_code == 200:return response.textelse:print(response)return Nonedef analysis_data(html):"""解析网页数据:param html: 网页源代码:return: 一页数据对应的列表"""soup = BeautifulSoup(html, 'lxml')houses_div = soup.select('.content__list>div')all_data = []for div in houses_div:info = div.select_one('.content__list--item--des').textinfo = re.sub(r'\s+', '', info).split('/')address = info[-5]area = float(info[-4][:-1])house_type = info[-2]region = address.split('-')[0]price = div.select_one('.content__list--item-price').textprice = int(re.match(r'\d+', price).group())all_data.append([region, address, area, house_type, price])with open('files/贝壳租房信息.csv', 'a', encoding='utf-8', newline='') as f:#新建文件夹fileswriter = csv.writer(f)if page == 1:writer.writerow(['地区', '地址', '面积(㎡)', '户型', '价格(元/月)'])writer.writerows(all_data)print(f'第{page}页数据写成功!')if __name__ == '__main__':# result = get_one_page(1)# analysis_data(result)for page in range(1, 11):result = get_one_page(page)analysis_data(result)

day22-作业贝壳租房100页数据相关推荐

  1. python:爬取租房100页数据

    python:爬取贝壳租房100页数据 import requests from bs4 import BeautifulSoup import csv,redef get_one_page(page ...

  2. 京东搜索产品时,pc端列表页只展示100页的数据

    问题描述:当你在电脑上浏览京东网站时,官网只给你返回100页数据,每页60个,总共只显示6000个商品,但实际有几十万的相关产品没有展示出来. 这算是京东的一种反扒机制,美团的电脑端也是这样,只给你返 ...

  3. 练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中

    练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...

  4. 【数据分析】直男带你看京东100页口红数据

    本篇文章本直男就带大家来看看上次我用python爬取的京东100页,共6400+条的系列口红数据(数量存在误差,请以实际情况为准)并且说明一下,京东的数据统计都是以一个系列统计的(卖家会以几个商品组成 ...

  5. 20221119day12作业:顶点小说全栈抓取、京东3页数据抓取、震坤行3页数据抓取

    文章目录 一.顶点小说全站抓取(代码运行下去理论上能抓就行) 二.京东商城三页数据抓取 三.震坤行三页数据抓取 一.顶点小说全站抓取(代码运行下去理论上能抓就行) 先获取所有分类链接import re ...

  6. 100亿数据1万属性数据架构设计

    一分钟系列之<啥,又要为表增加一列属性?>分享了两种数据库属性扩展思路,被喷得厉害.第二天补充了一篇<这才是真正的表扩展方案>,分享了互联网大数据高并发情况下,数据库属性扩容的 ...

  7. 1万属性,100亿数据,每秒10万吞吐,架构如何设计?

    有一类业务场景,没有固定的schema存储,却有着海量的数据行数,架构上如何来实现这类业务的存储与检索呢?58最核心的数据"帖子"的架构实现技术细节,今天和大家聊一聊. 一.背景描 ...

  8. python从txt拿取数据_python requests + xpath 获取分页详情页数据存入到txt文件中

    直接代码,如有不懂请加群讨论 # *-* coding:utf-8 *-* # import json import requests import pytesseract import time i ...

  9. MySQL 亿级数据需求的优化思路(二),100亿数据,1万字段属性的秒级检索

    最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?from=timeli ...

最新文章

  1. 【搜】mysql压缩包减肥
  2. ev3编码软件linux,利用官方固件搭建EV3自制系统
  3. 在职人员计算机网络管理总结,关于学校网络管理员个人工作总结
  4. 查看Linux磁盘文件占用大小
  5. Bugku 杂项刷题日常1--21:
  6. 微博中微服务缓存_微服务实践分享(5)缓存中心
  7. html+css美化后台登录界面
  8. 机器学习周志华第三章笔记
  9. 5568 -- 【BJOI2018】治疗之雨
  10. 2013-2014 ACM-ICPC, NEERC, Southern Subregional Contest Problem F. Judging Time Prediction 优先队列...
  11. 移动端 H5 概念术语(一)
  12. Unity-黑暗之魂复刻-翻滚、后跳功能
  13. linux报错Loaded plugins: fastestmirror, langpacks Loading mirror speeds from cached hostfile解决方法
  14. js获取 url 参数值的方法总结
  15. Windows 10系统下查看硬盘类型的方法
  16. Android重定向,还原短链接为长链接
  17. 揭秘英雄联盟的数据服务器
  18. window 2003安装完系统之后网卡驱动处理办法
  19. 来自远方的“僵尸之手”
  20. VMware12+Ubuntu16.04 安装 以及全屏的实现

热门文章

  1. 项目视频讲解_马震宇-博客
  2. append,extend和insert的区别
  3. 收藏的技术资料下载网址
  4. 网站改版会影响网站流量吗
  5. 以太坊POA共识机制Clique源码分析 1
  6. NVIDIA显卡及架构介绍
  7. MOOG穆格伺服阀D661-4444C G60JOAA6VSX2HA
  8. 检测到可疑访问 php,php.net被Chrome/Firefox浏览器标注为可疑站点
  9. 【训练题22:线性求逆元】【模板】乘法逆元 | 洛谷 P3811
  10. 最全面的Android工程师知识图谱推荐