day22-作业贝壳租房100页数据

import requests
from bs4 import BeautifulSoup
import csv, redef get_one_page(page):"""获取贝壳租房一页数据:param page: 页数(从1开始):return: 网页源代码"""url = f'https://cd.zu.ke.com/zufang/pg{page}/#contentList'response = requests.get(url)if response.status_code == 200:return response.textelse:print(response)return Nonedef analysis_data(html):"""解析网页数据:param html: 网页源代码:return: 一页数据对应的列表"""soup = BeautifulSoup(html, 'lxml')houses_div = soup.select('.content__list>div')all_data = []for div in houses_div:info = div.select_one('.content__list--item--des').textinfo = re.sub(r'\s+', '', info).split('/')address = info[-5]area = float(info[-4][:-1])house_type = info[-2]region = address.split('-')[0]price = div.select_one('.content__list--item-price').textprice = int(re.match(r'\d+', price).group())all_data.append([region, address, area, house_type, price])with open('files/贝壳租房信息.csv', 'a', encoding='utf-8', newline='') as f:#新建文件夹fileswriter = csv.writer(f)if page == 1:writer.writerow(['地区', '地址', '面积(㎡)', '户型', '价格(元/月)'])writer.writerows(all_data)print(f'第{page}页数据写成功!')if __name__ == '__main__':# result = get_one_page(1)# analysis_data(result)for page in range(1, 11):result = get_one_page(page)analysis_data(result)

day22-作业贝壳租房100页数据相关推荐

python：爬取租房100页数据
python:爬取贝壳租房100页数据 import requests from bs4 import BeautifulSoup import csv,redef get_one_page(page ...
京东搜索产品时，pc端列表页只展示100页的数据
问题描述:当你在电脑上浏览京东网站时,官网只给你返回100页数据,每页60个,总共只显示6000个商品,但实际有几十万的相关产品没有展示出来. 这算是京东的一种反扒机制,美团的电脑端也是这样,只给你返 ...
练习：selenium 爬取京东的电脑商品100页的数据并保存到csv文件中
练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...
【数据分析】直男带你看京东100页口红数据
本篇文章本直男就带大家来看看上次我用python爬取的京东100页,共6400+条的系列口红数据(数量存在误差,请以实际情况为准)并且说明一下,京东的数据统计都是以一个系列统计的(卖家会以几个商品组成 ...
20221119day12作业：顶点小说全栈抓取、京东3页数据抓取、震坤行3页数据抓取
文章目录一.顶点小说全站抓取(代码运行下去理论上能抓就行) 二.京东商城三页数据抓取三.震坤行三页数据抓取一.顶点小说全站抓取(代码运行下去理论上能抓就行) 先获取所有分类链接import re ...
100亿数据1万属性数据架构设计
一分钟系列之<啥,又要为表增加一列属性?>分享了两种数据库属性扩展思路,被喷得厉害.第二天补充了一篇<这才是真正的表扩展方案>,分享了互联网大数据高并发情况下,数据库属性扩容的 ...
1万属性，100亿数据，每秒10万吞吐，架构如何设计？
有一类业务场景,没有固定的schema存储,却有着海量的数据行数,架构上如何来实现这类业务的存储与检索呢?58最核心的数据"帖子"的架构实现技术细节,今天和大家聊一聊. 一.背景描 ...
python从txt拿取数据_python requests + xpath 获取分页详情页数据存入到txt文件中
直接代码,如有不懂请加群讨论 # *-* coding:utf-8 *-* # import json import requests import pytesseract import time i ...
MySQL 亿级数据需求的优化思路(二)，100亿数据，1万字段属性的秒级检索
最近在研究亿级数据的时候,无意中看到了一个关于写58同城的文章 https://blog.csdn.net/admin1973/article/details/55251499?from=timeli ...

day22-作业贝壳租房100页数据

day22-作业贝壳租房100页数据相关推荐

最新文章

热门文章