一段有意思的代码,有兴趣的可以研究研究。

需求

用户收到短信如:购买了电影票或者火车票机票之类的事件。然后app读取短信,解析短信,获取时间地点,然后后台自动建立一个备忘录,在事件开始前1小时提醒用户。

设计

开始我们将解析的功能放在了服务端,但是后来考虑到用户隐私问题。后来将解析功能放到了app端,服务端只负责收集数据,然后将新数据发送给app端。

关于服务端主要是分离出两个功能,一、响应app端请求返回数据。二、爬取数据,存入数据库。

响应请求返回数据使用java来做,而爬取数据存入数据库使用python来做,这样分别使用不同语言来做是因为这两种语言各有优势,java效率比python高些,适合做web端,而爬取数据并不是太追求性能且python语言和大量的库适合做爬虫。

代码

本项目使用python3的版本

了解这个项目你只需要有简单的python基础,能了解python语法就可以。其实我自己也是python没学完,然后就开始写,遇到问题就百度,边做边学这样才不至于很枯燥,因为python可以做一些很有意思的事情,比如模拟连续登录挣积分,比如我最近在写一个预定模范出行车子的python脚本。推荐看廖雪峰的python入门教程

首先带大家看看我的目录结构,开始我打算是定义一个非常好非常全的规范,后来才发现由于自己不熟悉框架,而是刚入门级别,所以就放弃了。从简而入:

小编建了一个学习Python的QQ群,欢迎━(`∀´)ノ亻!小伙伴的加入哦!

下面咱们按照上图中的顺序,从上往下一个一个文件的讲解init.py包的标识文件,python包就是文件夹,当改文件夹下有一个init.py文件后它就成为一个package,我在这个包中引入一些py供其他py调用。

init.py

下面两个是配置文件,第一个是开发环境的(windows),第二个是测试环境的(linux),然后再根据不同系统启用不同的配置文件

conf_dev.py

conf_test.py

下面文件是一个util文件,主要是读取原文件的内容,还有将新内容写入原文件。

FileUtil.py

下面这个main方法控制着执行流程,其他的执行方法调用这个main方法

MainUtil.py

将更新的内容插入mongodb中

MongoUtil.py

下面真正的执行方法来了,这五个py分别表示爬取五种信息:机场名、航班号、电影名、列车号、列车站。他们的结构都差不多,如下:

scratch_airport_name.py:爬取全国机场

scratch_flight_number.py:爬取全国航班号

!/usr/bin/python

scratch_movie_name.py:爬取最近上映的电影

!/usr/bin/python

scratch_train_number.py:爬取全国列车号

scratch_train_station.py:爬取全国列车站

将项目放到测试服务器(centos7系统)中运行起来,我写了一个crontab,定时调用他们,下面贴出crontab。

文章来自网络,如有侵权联系小编删除!

python小代码_Python爬虫入门有意思的小长代码相关推荐

  1. python在线翻译小程序_Python爬虫学习之翻译小程序

    本次博客分享的内容为基于有道在线翻译实现一个实时翻译小程序,本次任务是参考小甲鱼的书<零基础入门学习Python>完成的,书中代码对于当前的有道词典并不适用,使用后无法实现翻译功能,在网上 ...

  2. 用python画写轮眼_Python爬虫入门-图片下载(写轮眼--Lyon)

    Python小白最近入了爬虫的坑,但是一直到前天为止我会的只会简单的爬取网页上的文本信息,比如什么 豆瓣上的书评 ,知乎上红人的关注者 --一些很简单的爬虫.就在昨天我无聊闲暇在逛知乎偶然发现Lyon ...

  3. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  4. python简单的爬虫教程中召唤小海龟_Python爬虫入门小练习之简单的50行(一)

    HI 最近得空,小看了一下python爬虫方面的资料,于是就打算把笔记和代码练习整理成文章分享给大家. 一.先来认识一下啥玩意叫爬虫吧 爬虫的目的:数据 1.企业内部数据 由企业内部服务器产生的数据 ...

  5. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  6. python源码_Python爬虫入门之获取网页源码

    爬虫,就是用程序代替人去访问网站,然后把网站上需要的东西拿下来:类似人输入网址,看到页面,然后复制粘贴,只是把这个过程自动化. 那么第一步就是去访问网站,要看到网站的页面,对程序来说也就是源码.笔者在 ...

  7. PYTHON系列-从零开始的爬虫入门指南

    入门 0.准备工作 需要准备的东西: Python.scrapy.一个IDE或者随便什么文本编辑工具. 1.技术部已经研究决定了,你来写爬虫. 随便建一个工作目录,然后用命令行建立一个工程,工程名为m ...

  8. python很全的爬虫入门教程

    python很全的爬虫入门教程 一.爬虫前的准备工作 首先,我们要知道什么是爬虫 1.什么是网络爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁 ...

  9. python谷歌网页爬虫_python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...

最新文章

  1. logisitic和softmax函数
  2. 海量数据拆分到nosql系统的一种方案
  3. 气流与路易吉,阿戈,MLFlow,KubeFlow
  4. MongoDB 日志文件过大的解决方法
  5. java中实现线程的方法_Java中实现线程的方法
  6. java contains 通配符_java 泛型通配符 extends, super
  7. 数值分析之奇异值分解(SVD)篇
  8. 回发或回调参数无效。
  9. ruby分割字符串_Ruby中常用的字符串处理函数使用实例
  10. DSP28335定时器简易秒表设计
  11. C#利用word2007插件实现word转pdf
  12. 方舟单机/管理员生物指令代码大全
  13. 发动机关键零部件3D视觉引导自动上料和装配系统
  14. word2vec模型保存为npy文件 clh
  15. 一般来说仿制一个网站大概需要多少钱呢
  16. SpringBoot替换jar包中引用的jar包(Unable to open nested entry ‘BOOT-INF/lib/**.jar‘. It has been compressed)
  17. 注册微信小程序的操作步骤
  18. 华为Ascend:进一步做好产品差异化是后续重点
  19. Java开发中常见的危险信号(下)
  20. 11.3 树的遍历:LDR,LRD,VLR 相关代码

热门文章

  1. 2015暑假训练(UVALive 5983 - 5992)线段树离线处理+dp
  2. poj 1015(dp)
  3. mysql 模糊查询用法_mysql进阶(六)模糊查询的四种用法介绍
  4. mysql error1045 yes,MySQLERROR1045(28000)错误的解决办法
  5. 损失函数_SRGAN损失函数(目标函数)详解
  6. 如何看创建媒体日期_汽车各零部件也有身份证,教你们如何看这些部件的出生日期...
  7. matplotlib画图设置线条透明度
  8. HTTP状态码表格汇总
  9. Effective Java~58. for-each 循环优先于传统的for 循环
  10. Java并发编程实战~Thread-Per-Message模式