python小代码_Python爬虫入门有意思的小长代码
一段有意思的代码,有兴趣的可以研究研究。
需求
用户收到短信如:购买了电影票或者火车票机票之类的事件。然后app读取短信,解析短信,获取时间地点,然后后台自动建立一个备忘录,在事件开始前1小时提醒用户。
设计
开始我们将解析的功能放在了服务端,但是后来考虑到用户隐私问题。后来将解析功能放到了app端,服务端只负责收集数据,然后将新数据发送给app端。
关于服务端主要是分离出两个功能,一、响应app端请求返回数据。二、爬取数据,存入数据库。
响应请求返回数据使用java来做,而爬取数据存入数据库使用python来做,这样分别使用不同语言来做是因为这两种语言各有优势,java效率比python高些,适合做web端,而爬取数据并不是太追求性能且python语言和大量的库适合做爬虫。
代码
本项目使用python3的版本
了解这个项目你只需要有简单的python基础,能了解python语法就可以。其实我自己也是python没学完,然后就开始写,遇到问题就百度,边做边学这样才不至于很枯燥,因为python可以做一些很有意思的事情,比如模拟连续登录挣积分,比如我最近在写一个预定模范出行车子的python脚本。推荐看廖雪峰的python入门教程
首先带大家看看我的目录结构,开始我打算是定义一个非常好非常全的规范,后来才发现由于自己不熟悉框架,而是刚入门级别,所以就放弃了。从简而入:
小编建了一个学习Python的QQ群,欢迎━(`∀´)ノ亻!小伙伴的加入哦!
下面咱们按照上图中的顺序,从上往下一个一个文件的讲解init.py包的标识文件,python包就是文件夹,当改文件夹下有一个init.py文件后它就成为一个package,我在这个包中引入一些py供其他py调用。
init.py
下面两个是配置文件,第一个是开发环境的(windows),第二个是测试环境的(linux),然后再根据不同系统启用不同的配置文件
conf_dev.py
conf_test.py
下面文件是一个util文件,主要是读取原文件的内容,还有将新内容写入原文件。
FileUtil.py
下面这个main方法控制着执行流程,其他的执行方法调用这个main方法
MainUtil.py
将更新的内容插入mongodb中
MongoUtil.py
下面真正的执行方法来了,这五个py分别表示爬取五种信息:机场名、航班号、电影名、列车号、列车站。他们的结构都差不多,如下:
scratch_airport_name.py:爬取全国机场
scratch_flight_number.py:爬取全国航班号
!/usr/bin/python
scratch_movie_name.py:爬取最近上映的电影
!/usr/bin/python
scratch_train_number.py:爬取全国列车号
scratch_train_station.py:爬取全国列车站
将项目放到测试服务器(centos7系统)中运行起来,我写了一个crontab,定时调用他们,下面贴出crontab。
文章来自网络,如有侵权联系小编删除!
python小代码_Python爬虫入门有意思的小长代码相关推荐
- python在线翻译小程序_Python爬虫学习之翻译小程序
本次博客分享的内容为基于有道在线翻译实现一个实时翻译小程序,本次任务是参考小甲鱼的书<零基础入门学习Python>完成的,书中代码对于当前的有道词典并不适用,使用后无法实现翻译功能,在网上 ...
- 用python画写轮眼_Python爬虫入门-图片下载(写轮眼--Lyon)
Python小白最近入了爬虫的坑,但是一直到前天为止我会的只会简单的爬取网页上的文本信息,比如什么 豆瓣上的书评 ,知乎上红人的关注者 --一些很简单的爬虫.就在昨天我无聊闲暇在逛知乎偶然发现Lyon ...
- python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
- python简单的爬虫教程中召唤小海龟_Python爬虫入门小练习之简单的50行(一)
HI 最近得空,小看了一下python爬虫方面的资料,于是就打算把笔记和代码练习整理成文章分享给大家. 一.先来认识一下啥玩意叫爬虫吧 爬虫的目的:数据 1.企业内部数据 由企业内部服务器产生的数据 ...
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python源码_Python爬虫入门之获取网页源码
爬虫,就是用程序代替人去访问网站,然后把网站上需要的东西拿下来:类似人输入网址,看到页面,然后复制粘贴,只是把这个过程自动化. 那么第一步就是去访问网站,要看到网站的页面,对程序来说也就是源码.笔者在 ...
- PYTHON系列-从零开始的爬虫入门指南
入门 0.准备工作 需要准备的东西: Python.scrapy.一个IDE或者随便什么文本编辑工具. 1.技术部已经研究决定了,你来写爬虫. 随便建一个工作目录,然后用命令行建立一个工程,工程名为m ...
- python很全的爬虫入门教程
python很全的爬虫入门教程 一.爬虫前的准备工作 首先,我们要知道什么是爬虫 1.什么是网络爬虫? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁 ...
- python谷歌网页爬虫_python爬虫入门01:教你在 Chrome 浏览器轻松抓包
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...
最新文章
- logisitic和softmax函数
- 海量数据拆分到nosql系统的一种方案
- 气流与路易吉,阿戈,MLFlow,KubeFlow
- MongoDB 日志文件过大的解决方法
- java中实现线程的方法_Java中实现线程的方法
- java contains 通配符_java 泛型通配符 extends, super
- 数值分析之奇异值分解(SVD)篇
- 回发或回调参数无效。
- ruby分割字符串_Ruby中常用的字符串处理函数使用实例
- DSP28335定时器简易秒表设计
- C#利用word2007插件实现word转pdf
- 方舟单机/管理员生物指令代码大全
- 发动机关键零部件3D视觉引导自动上料和装配系统
- word2vec模型保存为npy文件 clh
- 一般来说仿制一个网站大概需要多少钱呢
- SpringBoot替换jar包中引用的jar包(Unable to open nested entry ‘BOOT-INF/lib/**.jar‘. It has been compressed)
- 注册微信小程序的操作步骤
- 华为Ascend:进一步做好产品差异化是后续重点
- Java开发中常见的危险信号(下)
- 11.3 树的遍历:LDR,LRD,VLR 相关代码
热门文章
- 2015暑假训练(UVALive 5983 - 5992)线段树离线处理+dp
- poj 1015(dp)
- mysql 模糊查询用法_mysql进阶(六)模糊查询的四种用法介绍
- mysql error1045 yes,MySQLERROR1045(28000)错误的解决办法
- 损失函数_SRGAN损失函数(目标函数)详解
- 如何看创建媒体日期_汽车各零部件也有身份证,教你们如何看这些部件的出生日期...
- matplotlib画图设置线条透明度
- HTTP状态码表格汇总
- Effective Java~58. for-each 循环优先于传统的for 循环
- Java并发编程实战~Thread-Per-Message模式