python实现爬取12306所有站点及其编码信息(附源代码)!
一、思路
1、打开12306.cn
2、ctrl + shift + i(开发者人员工具)
得到站点信息链接:https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9028或者https://www.12306.cn/index/script/core/common/station_name_v10037.js;
3、看一下这个链接里面有什么?
虽然乱码?但不必担心,我们得到了我们需要的东西,python会解决这些问题!!!
接下来,需要爬取这个页面所有的站点名称(station_name)和站点编码(station_code),很明显,这只需要用到requests库和re库即可完成。
二、代码(复制运行即可)
import re
import json
import requests
import pandas as pd
from pprint import pprint
#JS,这个用浏览器打开会呈现一堆看不懂的文字,需要用正则表达式对其解析
url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9028'
#对网页发送get请求
response = requests.get(url,verify=False)
#编写正则表达式
station = re.findall(r'([\u4e00-\u9fa5]+)\|([A-Z]+)',response.text)
#字典转化,并打印,(需pip install pprint),输出的字典没有名称,需加上名称“station = ”,再使用
pprint(dict(station),indent=4)
#将字典赋给station
station = dict(station)
#以.csv形式输出
pd.DataFrame(station,index=[0]).to_csv('站点信息.csv',encoding='GB18030')
三、结果
字典形式:
四、总结
通常爬取站点信息是为了爬取12306车次信息,做余票查询或抢票程序。如果为了研究用途,12306的全部车次信息是非常值得关注的,下一篇将提供这方面的源代码!
python实现爬取12306所有站点及其编码信息(附源代码)!相关推荐
- Python爬虫爬取链家网上的房源信息练习
一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/ ...
- Python笔记-爬取Boss直聘的招聘信息
Python笔记-爬取Boss直聘的招聘信息 最近迷上了爬虫,爬取招聘信息,存在MongoDB上 代码思路和上一篇爬取酷狗TOP500差不多,但是在使用CSS选择器的时候,有两组信息是连在一起,所以使 ...
- python爬虫爬取微信公众号小程序信息
python爬虫爬取微信公众号小程序信息 爬取内容 某汽车维修信息提供的维修店名称,地点以及电话(手机)号码 爬取步骤 啥也别管,先抓包看看,在这里,博主使用的抓包软件是charles 抓包:将网络传 ...
- python 3爬取 12306余票
马上暑假集训结束,又要开学了,暑假集训老师让我们交暑假的学习成果~~虽然制作了几个小的网络爬虫的东西软件,什么淘宝,京东,天气,图片爬取的....但还是想要交个更好的,毕竟还是有成绩的...爬取123 ...
- 用python爬小说_今天分享一个用Python来爬取小说的小脚本!(附源码)
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
- python selenium爬取去哪儿网的酒店信息——详细步骤及代码实现
目录 准备工作 一.webdriver部分 二.定位到新页面 三.提取酒店信息 ??这里要注意?? 四.输出结果 五.全部代码 准备工作 1.pip install selenium 2.配置浏览器驱 ...
- python 实现爬取指定小说(两种实现方案 .附源码)
python 实现爬取指定小说实时下载(附源码) import requests import re import time import randomdef download(book_name): ...
- python爬虫-爬取微博转评赞data信息
利用python简单爬取新浪微博(转发/评论/点赞/blog文本)信息 import requests import json from jsonpath import jsonpath import ...
- python爬取天气预报数据并保存为txt格式_今天分享一个用Python来爬取小说的小脚本!(附源码)...
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章天气预报数据分析与统计之美 ,作者:❦大头雪糕❦ Python GUI制作小说下载器教学讲 ...
- python爬虫——爬取拉勾上的职位信息
爬取拉勾网站岗位数据 1.调用网页 查找网页链接规律 写一个for循环,爬取每一个网页的职位信息 def down():for i in range(1,4):if i == 1:strUrl = & ...
最新文章
- 汇编语言学习-寄存器(内存访问)
- Win32_16来看看标准菜单和右键菜单的玩法
- python 散点图_Python绘制散点图
- 清空Form表单所有内容
- access vba表字段_vba中如何在access的一张表中得到所有的列名?
- java list遍历添加元素_java遍历List过程中添加和删除元素的问题
- net应用程序中发生了未经处理的异常怎么办_介绍一些在.NET Core 3.0中引入的诊断改进工具...
- 判断点是否在多边形内部
- php数组如何插入,PHP如何在数组指定位置插入单元
- php与mysql事物处理
- ASP.NET MVC 重点教程一周年版 第三回 Controller与View
- PHP集成环境 Xampp,PHPwamp等等国内外著名的集成环境
- 雅马哈机器人左手右手系统_YAMAHA机械手操作手册.PDF
- Ubuntu如何简单粗暴的恢复被删除的文件
- Google Play 开发者账号注册 上架应用
- TAS5754应用笔记
- QQ空间说说自动删除代码-真的自动
- 虚拟服务器+ftp上传错误,虚拟主机FTP无法上传文件解决办法
- postgreSql版的occurs函数
- 树莓派Raspberry Pico RP2040 开发环境配置完全缝合终极版C-SDK
热门文章
- 08CMS之标识还原
- http://www.cnblogs.com/zxp_9527/archive/2009/05/07/1452253.html
- Scrapy框架以及scrapy-redis实现分布式爬虫
- 推荐:dhtmlx系列js工具包
- Python实现电子词典
- python做生词本_Kindle 阅读器“生词本”功能详细使用说明
- dB dBm dBW 的关系与换算
- 编译jemalloc以及报错解决
- t-SNE算法解析与简单代码实现
- 文字排版中的字号尺寸对照表(清晰、准确(含两个版本对比)、可复制)