12306车站信息爬取（1）——输入条件的判断，包括出发站，到达站，和出发时间，并获取车次信息的链接

12306车站信息的爬取是一个比较复杂的系统，爬取需要的信息不是很难，但是要将最终的结果做的完善和美观却不是那么容易。作为一个学习Python的新手，我想把练习和整理结合起来，希望大家可以相互交流和探讨。

这个项目准备花如下几个部分完成：

输入条件的判断，包括出发站，到达站，和出发的时间，获取车次信息的链接；
在上一步的基础上，获取输入出发站，到达站，和出发时间的车次信息；
将输出的结果美化，使用prettytable模块和colorama模块完成美化；
添加车票的票价信息；
在进行学习；

12306车站信息爬取（2）——输入出发站，到达站和出发时间，获取车次信息的列表

12306车站信息爬取（3）——使用prettytable模块和colorama模块使输出结果美化

12306车站信息爬取（4）——添加车票的票价的信息

在这篇文章中，我要实现的就是第一步的功能，输入条件的判断，包括出发站，到达站，和出发的时间，获取车次信息的链接；

1. 出发站，到达站的判断：

在判断之前，我们需要对我们最终要获取的链接进行分析：我们最终要获取的这个链接也就是直接可以爬取车次的信息的链接。我们可以看出链接中有出发时间，出发站的代码，和到达站的代码，所以，我们就需要获取这几个信息。

首先，我们进入12306的官网，点击右键——>查看网页源代码——>按Ctrl+F进行搜索——>搜索version——>找到station version的那个信息，打开。

进入那个页面后，我们可以看到许多的车站信息，其中就包括全拼，简拼，代码等信息。找到这个页面后，我们就是要获取这个页面的信息，然后将我们需要的部分信息获取出来。如下如所示。

将获取的数据进行分析可以发现，以@进行分析之后，第一项不是我们需要的信息，还有最后一项的两个字符，我们应该对字符串进行整齐化的处理，将我们需要的信息筛选出来。

如下代码为获取车站信息的全拼，简拼，汉字和代码信息：

import requests
url='https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9090'
html_text=requests.get(url).text
#去掉文本总最后多余的两个符号，并以@符号进行分割，第一项不是有用的信息
infos=html_text[:-2].split("@")[1:]
stations={}
for info in infos:station_list=info.split("|")#将车站的代码作为键,汉字，全拼，简拼作为值stations[station_list[2]]={'cn':station_list[1],'qp':station_list[3],'jp':station_list[4]}
for k,v in stations.items():print(k,v)

结果如下：

VAP {'cn': '北京北', 'qp': 'beijingbei', 'jp': 'bjb'}
BOP {'cn': '北京东', 'qp': 'beijingdong', 'jp': 'bjd'}
BJP {'cn': '北京', 'qp': 'beijing', 'jp': 'bj'}
VNP {'cn': '北京南', 'qp': 'beijingnan', 'jp': 'bjn'}
BXP {'cn': '北京西', 'qp': 'beijingxi', 'jp': 'bjx'}
IZQ {'cn': '广州南', 'qp': 'guangzhounan', 'jp': 'gzn'}
CUW {'cn': '重庆北', 'qp': 'chongqingbei', 'jp': 'cqb'}
CQW {'cn': '重庆', 'qp': 'chongqing', 'jp': 'cq'}
CRW {'cn': '重庆南', 'qp': 'chongqingnan', 'jp': 'cqn'}
CXW {'cn': '重庆西', 'qp': 'chongqingxi', 'jp': 'cqx'}
GGQ {'cn': '广州东', 'qp': 'guangzhoudong', 'jp': 'gzd'}
......

接下来，我们就需要输入出发站和到达站，可以以全拼，简拼，和汉字进行输入，最后返回车站的代码，为车次信息的链接做好铺垫。

import requests
url='https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9090'
html_text=requests.get(url).text
#去掉文本总最后多余的两个符号，并以@符号进行分割，第一项不是有用的信息
infos=html_text[:-2].split("@")[1:]
stations={}
for info in infos:station_list=info.split("|")#将车站的代码作为键,汉字，全拼，简拼作为值stations[station_list[2]]={'cn':station_list[1],'qp':station_list[3],'jp':station_list[4]}def station_info(input_station):while 1:index = 0results = []station_results = []for k,v in stations.items():if input_station in v.values():index += 1station_results.append([k,v])results.append([index, k, v['cn']])if index == 0:input_station = input("您输入的车站不存在,请重新输入站点：").strip()#输入的信息唯一elif index == 1:print(station_results[0])station_code = station_results[0][0]return station_codebreak#输入的信息模糊，不能直接判断出你想输入的站点，需要作出一个选择else:for result in results:print(result[0], result[1], result[2])select = int(input("请输入你的选择（序号）："))for i in range(1, len(results)):if select == i:print(results[i-1])station_code = station_results[i - 1][0]return station_codebreak#strip（）用于去除前后的空格，害怕输入多写空格
chufa_station=input("请输入出发站：").strip()
from_code=station_info(chufa_station)
daoda_station=input("请输入到达站：").strip()
daoda_code=station_info(daoda_station)fin_url='https://kyfw.12306.cn/otn/leftTicket/queryZ?leftTicketDTO.train_date=2019-01-14&leftTicketDTO.from_station={}&leftTicketDTO.to_station={}&purpose_codes=ADULT'.format(from_code,daoda_code)
print("获取的链接为：",fin_url)

结果如下：将链接中的出发站，到达站的代码信息添加到了链接中；

请输入出发站：jingzhou
1 JEQ 靖州
2 JBN 荆州
3 JEP 景州
请输入你的选择（序号）：2
[2, 'JBN', '荆州']
请输入到达站：西安
['XAY', {'cn': '西安', 'qp': 'xian', 'jp': 'xa'}]
获取的链接为： https://kyfw.12306.cn/otn/leftTicket/queryZ?leftTicketDTO.train_date=2019-01-14&leftTicketDTO.from_station=JBN&leftTicketDTO.to_station=XAY&purpose_codes=ADULT

2. 出发时间（输入日期正确性）的判断：

对于出发日期，一般火车站可以查询15天的车票，所以，我们需要做出一个简单的判断，让用户输入日期的合理范围。

代码如下所示，我将合理的日期范围放在了一个列表里，然后判断输入的日期是否在列表内，如果在，则输入的日期合理，否则重新输入。

import datetimetoday_riqi=datetime.date.today()
print(today_riqi)#用一个列表去存放可以查出车票的日期
riqi_list=[]
for i in range(15):tianshu=datetime.timedelta(days=i)riqi_list.append(str(today_riqi+tianshu))
print(riqi_list)while 1:chufa_riqi = input("请输入出发的日期（2019-01-01）：")if chufa_riqi in riqi_list:breakelse:print("您输入的日期有误，请输入未来十五天内的日期进行查询！")

结果如下：

2019-01-15
['2019-01-15', '2019-01-16', '2019-01-17', '2019-01-18', '2019-01-19', '2019-01-20', '2019-01-21', '2019-01-22', '2019-01-23', '2019-01-24', '2019-01-25', '2019-01-26', '2019-01-27', '2019-01-28', '2019-01-29']
请输入出发的日期（2019-01-01）：2019-01-08
您输入的日期有误，请输入未来十五天内的日期进行查询！
请输入出发的日期（2019-01-01）：2019-01-30
您输入的日期有误，请输入未来十五天内的日期进行查询！
请输入出发的日期（2019-01-01）：2019-01-16

3. 获取车次信息的链接：

将如上两个代码结合起来，去掉一些提示的信息。

import requests
import datetime
url='https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9090'
html_text=requests.get(url).text
#去掉文本总最后多余的两个符号，并以@符号进行分割，第一项不是有用的信息
infos=html_text[:-2].split("@")[1:]
stations={}
for info in infos:station_list=info.split("|")#将车站的代码作为键,汉字，全拼，简拼作为值stations[station_list[2]]={'cn':station_list[1],'qp':station_list[3],'jp':station_list[4]}#出发站，到达站的判断
def station_info(input_station):while 1:index = 0results = []station_results = []for k,v in stations.items():if input_station in v.values():index += 1station_results.append([k,v])results.append([index, k, v['cn']])if index == 0:input_station = input("您输入的车站不存在,请重新输入站点：").strip()#输入的信息唯一elif index == 1:#print(station_results[0])station_code = station_results[0][0]return station_codebreak#输入的信息模糊，不能直接判断出你想输入的站点，需要作出一个选择else:for result in results:print(result[0], result[1], result[2])select = int(input("请输入你的选择（序号）："))for i in range(1, len(results)):if select == i:print(results[i-1])station_code = station_results[i - 1][0]return station_codebreak
#出发日期的判断
def riqi_info(input_riqi):# 用一个列表去存放可以查出车票的日期riqi_list = []today_riqi = datetime.date.today()for i in range(15):tianshu = datetime.timedelta(days=i)riqi_list.append(str(today_riqi + tianshu))#输入合理的日期则跳出，否则一直输入while 1:if input_riqi in riqi_list:return input_riqibreakelse:print("您输入的日期有误，请输入未来十五天内的日期进行查询！")input_riqi = input("请输入出发的日期（2019-01-01）：").strip()chufa_station=input("请输入出发站：").strip()
from_code=station_info(chufa_station)
daoda_station=input("请输入到达站：").strip()
daoda_code=station_info(daoda_station)
input_riqi=input("请输入出发的日期（2019-01-01）：").strip()
chufa_riqi=riqi_info(input_riqi)fin_url='https://kyfw.12306.cn/otn/leftTicket/queryZ?leftTicketDTO.train_date={}&leftTicketDTO.from_station={}&leftTicketDTO.to_station={}&purpose_codes=ADULT'.format(chufa_riqi,from_code,daoda_code)
print("获取的链接为：",fin_url)

结果如下：

请输入出发站：jingzhou
1 JEQ 靖州
2 JBN 荆州
3 JEP 景州
请输入你的选择（序号）：2
[2, 'JBN', '荆州']
请输入到达站：西安
请输入出发的日期（2019-01-01）：2019-01-16
获取的链接为： https://kyfw.12306.cn/otn/leftTicket/queryZ?leftTicketDTO.train_date=2019-01-16&leftTicketDTO.from_station=JBN&leftTicketDTO.to_station=XAY&purpose_codes=ADULT

获取了链接之后，我们就需要爬取链接中的车次信息。

下一篇：12306车站信息爬取（2）——输入出发站，到达站和出发时间，获取车次信息的列表