pyhton爬取武汉地铁信息
pyhton爬取武汉地铁信息
话不多说,直接上代码
from lxml import etree
import urllib3.request
import pandas as pd
urllib3.disable_warnings()# 生成待解析的对象
def getTree(url):pool_manager = urllib3.PoolManager()response = pool_manager.request('GET', url)r = response.data.decode()return etree.HTML(r)def page(url):try:tree = getTree(url)metro_name = tree.xpath('//div[@class="ib-hd lm-hd"]/*/text()')metro_stations = tree.xpath('//ul[@class="clear"]/li/a[@class="cl-station"]/text()')# print(metro_name,metro_stations, sep='\n')return metro_name, metro_stationsexcept Exception:passdef getEntrance(homeUrl):tree = getTree(homeUrl)div = tree.xpath('//div[@class="ib-box"]')[0]title = div.xpath('//div[@class="ib-hd"]/text()')[0]line_name = div.xpath('//ul/li/a/text()')page_links = div.xpath('//ul/li/a/@href')line_info = div.xpath('//ul/li/div//text()')# print(line_info)run_time = line_info[1::4]update_time = line_info[3::4]# print(title, line_name, page_links, run_time,update_time, sep='\n')metro_counts = []metro_stations = []for page_link in page_links:metro_count, metro_station = page("https://dt.8684.cn/" + page_link)metro_counts.append(metro_count[1])metro_stations.append(metro_station)# 之后运用pandas的数据框进行处理data = {'line_name': line_name, 'run_time': run_time, 'update_time': update_time, 'metro_count':metro_counts, 'metro_stations': metro_stations}# 每一项数据的合并df = pd.DataFrame(data)# print(df)df.to_excel('data.xls')print('finished!')homeUrl = 'https://dt.8684.cn/wh_list_time'if __name__ == '__main__':getEntrance(homeUrl)
效果
pyhton爬取武汉地铁信息相关推荐
- python爬虫爬取武汉房价信息
Python有一个大作业,老师说想不到的可以试试爬武汉房价,反正想不到,那就爬一下喽. 我爬了网上武汉的房价信息,有帮助的可以看看下. 有一些小Bug,但是大体还是不打紧的,可以用. #Time : ...
- Python爬取武汉店铺出租转让信息
Python爬取武汉店铺出租转让信息 摘要:由于有亲戚想到武汉发展,开个店面做点小生意,实地考察的效率不算太高,于是乎就在网上收集相关的转让信息,做第一步筛选,希望能够起到一些作用~ 技术组合:req ...
- python爬取自如房间信息(一)
使用python和selenium+Chrome Headless爬取自如房间信息,并将结果存储在MongoDB中.其中最麻烦的应该是每间房的价格,因为自如是用一张图片和offset来显示价格,所以不 ...
- 对虎牙直播进行爬取,并对信息进行处理分析
对虎牙直播进行爬取,并对信息进行处理分析 08.16爬虫练手 一.代码 import requests from lxml.html import etree#我们先选个lol专区 response ...
- Python爬取12306车票信息
Python3爬取12306车票信息 第一次写爬虫,咱从入门级--12306车票爬取 开始 我们要爬取的信息是https://www.12306.cn/index/上的车票信息 当我们选择出发地和目的 ...
- Python搭建代理池爬取拉勾网招聘信息
先来看一张图了解下爬虫 实现功能 多线程爬取拉勾网招聘信息 维护代理 ip 池 搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...
- python爬取武汉二手房房价
第一次的爬取老师说可能不够好,这的那的,那就再来一次呗. 她推荐我们爬取武汉二手房的房价,因为里面的信息比较全. 红色圈出来的都需要爬,这老师,有点坑. 局限比较大,只能存放一页的数据,因为这个网站反 ...
- 爬取武汉所有的公交站名
爬取武汉所有的公交站名 BY: ceyewan 国庆深度游武汉的时候,我发现,"晴川大道晴川阁"和"江堤中路江堤乡"这两个公交站名有点意思啊,很骚啊.于是我就想 ...
- SeleniumChrome实战:动态爬取51job招聘信息
一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息 输入会 ...
最新文章
- 矩阵对抗与系统补丁200911(第2期)下载
- 【深度学习】深入浅出 CRF-RNN Layer(The End-to-end)
- Linux系统环境查看已经登录用户信息及管理
- 用Android Studio调试Framework层代码
- linux 端口打不开,在线等!!为什么telnet的23端口就是打不开啊
- PHP PDO 简单登陆操作
- 理论 | 分库分表需要考虑的问题及方案
- matlab roc曲线,MATLAB画ROC曲线,及计算AUC值
- 批量文件中加前缀、word删除空白行、删除含有某一个首字母的行
- php和python-浅析PHP与Python进行数据交互
- IT技术支持必备知识
- 冒险岛单机服务器修改,关于一树冒险岛单机技能 转数最新修改
- windows10 中微信(UWP)版本不显示通知消息
- 新浪微博开放平台使用
- mysql 查询所有表结构_mysql数据库查看表结构
- Webstorm 2019激活码(有效期至2020年6月)
- SQL UCASE() 函数、 LCASE() 函数
- NBA勇士败给残阵湖人后....
- 噪声特性及matlab函数
- 图文结合带你搞懂MySQL日志之Error Log(错误日志)
热门文章
- t460 拆解_ThinkPad T460s开箱及更换内存和硬盘
- 原收件服务器地址 端口 协议,常用的收件、发件服裳组词务器的地址和端口是什么...
- pytorch版本RetinaFace人脸检测模型推理加速
- 如何搭建实验室智能化管理,易云维有整体解决方案
- 10-SpringBoot启动图标修改
- BT、VeryCD倒下了,但是后继有种
- 7-3 水仙花数(20 分) (20 分)(PTA Python版本)
- 进程间的7种通信方式(含例程代码)
- css盒模型——标准盒子、怪异盒子
- 用友优普孙永军:制造业的三座“大山”