pyhton爬取武汉地铁信息

话不多说,直接上代码

from lxml import etree
import urllib3.request
import pandas as pd
urllib3.disable_warnings()# 生成待解析的对象
def getTree(url):pool_manager = urllib3.PoolManager()response = pool_manager.request('GET', url)r = response.data.decode()return etree.HTML(r)def page(url):try:tree = getTree(url)metro_name = tree.xpath('//div[@class="ib-hd lm-hd"]/*/text()')metro_stations = tree.xpath('//ul[@class="clear"]/li/a[@class="cl-station"]/text()')# print(metro_name,metro_stations, sep='\n')return metro_name, metro_stationsexcept Exception:passdef getEntrance(homeUrl):tree = getTree(homeUrl)div = tree.xpath('//div[@class="ib-box"]')[0]title = div.xpath('//div[@class="ib-hd"]/text()')[0]line_name = div.xpath('//ul/li/a/text()')page_links = div.xpath('//ul/li/a/@href')line_info = div.xpath('//ul/li/div//text()')# print(line_info)run_time = line_info[1::4]update_time = line_info[3::4]# print(title, line_name, page_links, run_time,update_time, sep='\n')metro_counts = []metro_stations = []for page_link in page_links:metro_count, metro_station = page("https://dt.8684.cn/" + page_link)metro_counts.append(metro_count[1])metro_stations.append(metro_station)# 之后运用pandas的数据框进行处理data = {'line_name': line_name, 'run_time': run_time, 'update_time': update_time, 'metro_count':metro_counts, 'metro_stations': metro_stations}# 每一项数据的合并df = pd.DataFrame(data)# print(df)df.to_excel('data.xls')print('finished!')homeUrl = 'https://dt.8684.cn/wh_list_time'if __name__ == '__main__':getEntrance(homeUrl)

效果

pyhton爬取武汉地铁信息相关推荐

  1. python爬虫爬取武汉房价信息

    Python有一个大作业,老师说想不到的可以试试爬武汉房价,反正想不到,那就爬一下喽. 我爬了网上武汉的房价信息,有帮助的可以看看下. 有一些小Bug,但是大体还是不打紧的,可以用. #Time : ...

  2. Python爬取武汉店铺出租转让信息

    Python爬取武汉店铺出租转让信息 摘要:由于有亲戚想到武汉发展,开个店面做点小生意,实地考察的效率不算太高,于是乎就在网上收集相关的转让信息,做第一步筛选,希望能够起到一些作用~ 技术组合:req ...

  3. python爬取自如房间信息(一)

    使用python和selenium+Chrome Headless爬取自如房间信息,并将结果存储在MongoDB中.其中最麻烦的应该是每间房的价格,因为自如是用一张图片和offset来显示价格,所以不 ...

  4. 对虎牙直播进行爬取,并对信息进行处理分析

    对虎牙直播进行爬取,并对信息进行处理分析 08.16爬虫练手 一.代码 import requests from lxml.html import etree#我们先选个lol专区 response ...

  5. Python爬取12306车票信息

    Python3爬取12306车票信息 第一次写爬虫,咱从入门级--12306车票爬取 开始 我们要爬取的信息是https://www.12306.cn/index/上的车票信息 当我们选择出发地和目的 ...

  6. Python搭建代理池爬取拉勾网招聘信息

    先来看一张图了解下爬虫 实现功能 多线程爬取拉勾网招聘信息 维护代理 ip 池 搭建 node 服务器 Taro 使用 echarts 做数据分析 1.多线程爬取拉勾网招聘信息 Tip:涉及知识 1. ...

  7. python爬取武汉二手房房价

    第一次的爬取老师说可能不够好,这的那的,那就再来一次呗. 她推荐我们爬取武汉二手房的房价,因为里面的信息比较全. 红色圈出来的都需要爬,这老师,有点坑. 局限比较大,只能存放一页的数据,因为这个网站反 ...

  8. 爬取武汉所有的公交站名

    爬取武汉所有的公交站名 BY: ceyewan 国庆深度游武汉的时候,我发现,"晴川大道晴川阁"和"江堤中路江堤乡"这两个公交站名有点意思啊,很骚啊.于是我就想 ...

  9. SeleniumChrome实战:动态爬取51job招聘信息

    一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息 输入会 ...

最新文章

  1. 矩阵对抗与系统补丁200911(第2期)下载
  2. 【深度学习】深入浅出 CRF-RNN Layer(The End-to-end)
  3. Linux系统环境查看已经登录用户信息及管理
  4. 用Android Studio调试Framework层代码
  5. linux 端口打不开,在线等!!为什么telnet的23端口就是打不开啊
  6. PHP PDO 简单登陆操作
  7. 理论 | 分库分表需要考虑的问题及方案
  8. matlab roc曲线,MATLAB画ROC曲线,及计算AUC值
  9. 批量文件中加前缀、word删除空白行、删除含有某一个首字母的行
  10. php和python-浅析PHP与Python进行数据交互
  11. IT技术支持必备知识
  12. 冒险岛单机服务器修改,关于一树冒险岛单机技能 转数最新修改
  13. windows10 中微信(UWP)版本不显示通知消息
  14. 新浪微博开放平台使用
  15. mysql 查询所有表结构_mysql数据库查看表结构
  16. Webstorm 2019激活码(有效期至2020年6月)
  17. SQL UCASE() 函数、 LCASE() 函数
  18. NBA勇士败给残阵湖人后....
  19. 噪声特性及matlab函数
  20. 图文结合带你搞懂MySQL日志之Error Log(错误日志)

热门文章

  1. t460 拆解_ThinkPad T460s开箱及更换内存和硬盘
  2. 原收件服务器地址 端口 协议,常用的收件、发件服裳组词务器的地址和端口是什么...
  3. pytorch版本RetinaFace人脸检测模型推理加速
  4. 如何搭建实验室智能化管理,易云维有整体解决方案
  5. 10-SpringBoot启动图标修改
  6. BT、VeryCD倒下了,但是后继有种
  7. 7-3 水仙花数(20 分) (20 分)(PTA Python版本)
  8. 进程间的7种通信方式(含例程代码)
  9. css盒模型——标准盒子、怪异盒子
  10. 用友优普孙永军:制造业的三座“大山”