要达到的目的:
从特定网页中抓取信息,排版后发送到邮箱中

关键点:
下载网页,从网页里抓取出需要的信息
HTML排版
发送到指定邮箱

实现:
1.python下载网页
直接用库函数就可以实现
from urllib import urlretrieve
from urllib import urlopen
doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()
以获取新浪网5.1电信滚动新闻为例
doc就是整个网页的内容

2.用正则表达式提取新闻标题和url

def extract_url(info):    #reg get url&titlerege = "<li><a href=\"(.*)\" target=_blank>"url = re.findall(rege,info)return urldef extract_title(info):    pat = "\" target=_blank>(.*)</a><span class="title = re.findall(pat,info)return title

就可以得到新闻的URL和标题,以列表形式返回

3.排版
整理获得的信息,把信息排版成适合网页浏览的形式
我是把这些信息放到一个表格里

mail_context = ""
mail_context += "<table width=\"700\" border=\"1\" align=\"left\" face=\"宋体\">"
for i in range(0,n):mail_context += "<tr><td><font size=\"2\">"mail_context += "<span class="line1"><a href=\""mail_context += url[i]mail_context += "\" target=_blank>"mail_context += title[i]mail_context += "</a></span>"mail_context += "</font></td>"
mail_context += "</table>"

4.获取excel中的邮件列表

def get_email_list():path = os.getcwd()wb = open_workbook(path+"\\email_list.xls")sheet=wb.sheet_by_name("email")first_column = sheet.col_values(0) return first_column

5.发送邮件
用自带的模块来发送,先登录到一个邮箱的服务器上,然后通过该邮箱向目的邮箱发送邮件

import smtplib
from email.mime.text import MIMEText
from email.MIMEMultipart import MIMEMultipart
from email.Header import Headerdef sendsimplemail (text,dest):msg = MIMEText(text,'html','gb2312')#html formatmsg['Subject'] = Header('title', 'gb2312')msg['From'] = 'sourcedest'msg['To'] = str(dest)try:#login mail serversmtp = smtplib.SMTP()smtp.connect(r'smtp.*******')#mail serversmtp.login('username', 'password')#send mailsmtp.sendmail('sender', dest, msg.as_string())smtp.close()except Exception, e:print e

6.设置为开机自启动
以下是转的http://apps.hi.baidu.com/share/detail/22013974
下载python的win32支持。我使用的是:pywin32-202.win32-py2.3.exe安装好后就可以来写我们的服务了。
我们先来建立一个空的服务,建立test1.py这个文件,并写入如下代码:

# -*- coding: cp936 -*-
import win32serviceutil
import win32service
import win32event class test1(win32serviceutil.ServiceFramework): _svc_name_ = "test_python" _svc_display_name_ = "test_python" def __init__(self, args): win32serviceutil.ServiceFramework.__init__(self, args) #把需要的操作都放在这里
self.hWaitStop = win32event.CreateEvent(None, 0, 0, None) def SvcStop(self): # 先告诉SCM停止这个过程
         self.ReportServiceStatus(win32service.SERVICE_STOP_PENDING) # 设置事件
         win32event.SetEvent(self.hWaitStop) def SvcDoRun(self): # 等待服务被停止
         win32event.WaitForSingleObject(self.hWaitStop, win32event.INFINITE) if __name__=='__main__': win32serviceutil.HandleCommandLine(test1)

这里注意,如果你需要更改文件名,比如将win32serviceutil.HandleCommandLine(test1)中的test1更改为你的文件名,同时class也需要和你的文件名一致,否则会出现服务不能启动的问题。
在命令窗口执行,test1.py可以看到帮助提示

C:\>test1.py
Usage: 'test1.py [options] install|update|remove|start [...]|stop|restart [...]|
debug [...]'
Options for 'install' and 'update' commands only:
--username domain\username : The Username the service is to run under
--password password : The password for the username
--startup [manual|auto|disabled] : How the service starts, default = manual
--interactive : Allow the service to interact with the desktop. (for my auto_desktop.py, this option is needed)

C:\>

安装我们的服务

[code:1:05b7353f1c]C:\>test1.py install
Installing service test_python to Python class C:\test1.test1
Service installed

C:\>

我们就可以用命令或者在控制面板-》管理工具-》服务中管理我们的服务了。在服务里面可以看到test_python这个服务。

这样每次开机之后都可以收到一封邮件了

转载于:https://www.cnblogs.com/w0w0/archive/2012/05/02/2478639.html

python实现抓取网页上的内容并发送到邮箱相关推荐

  1. 【python】python每天抓取一篇英语美文,发送到邮箱

    import requests,os,time from bs4 import BeautifulSoup import smtplib from email.mime.text import MIM ...

  2. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  3. Python 多线程抓取网页 牛人 use raw socket implement http request great

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

  4. Python 多线程抓取网页

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

  5. php抓取标签内的内容,php抓取网页中的内容

    以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_contents PHP代码 代码如下:>>>>>>>>>>> ...

  6. python 实时抓取网页数据并进行 筛查

    python 实时抓取网页数据并进行 筛查 爬取数据的两种方法 : 方法 1 : 使用 requests.get() 方法,然后再解码,接着 调用 BeautifulSoup API 首先看 head ...

  7. 用curl+PHP抓取网页上所需要的数据

    最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录 <? ...

  8. 抓取网页上的图片(一)

    抓取网页上的图片 思路:网页(HTML)中的图片通常在img标签中,图片的链接通常在标签的src属性中,通过BeautifulSoup解析HTML,找到所有的img标签,获取每一个标签中的src的属性 ...

  9. 用python画爱心动图_编写Python爬虫抓取暴走漫画上gif图片的实例分享

    本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看.爬虫用的是python3.3开发的,主要用到了urllib.request和BeautifulSoup模块. urllib模块提供了从万维网 ...

最新文章

  1. 毕业,新的开始,撸起袖子加油干!
  2. Android5.1修改以太网MAC地址(SElinux)【转】
  3. html怎么去掉背景颜色,word背景颜色怎么去掉
  4. 【体验】感谢热心网友送的3D打印结构外壳,nodemcu外壳,3D打印wifi外壳
  5. lisp 焊接符号标注_焊接符号标注大全
  6. 正则 禁止连续逗号_正则
  7. 用CSV文件读写数据的两种方式(转)
  8. mysql开通访问权限_mysql 用户远程访问权限开通
  9. ABAP 出库单打印 产品 A搭A A搭B显示方式
  10. 市场分析-全球与中国OLED用氧化氘市场现状及未来发展趋势
  11. 排序算法伪代码以及python实现——插入,归并,快速,堆,计数
  12. QQ.COM二级域名大全 腾讯旗下产品大全
  13. 五岁的瑞幸:如何越坎重生?
  14. 为MacTex配置Ctex环境
  15. 揭秘Microsoft Windows LDM
  16. 电子版微积分,知识共享,数学真知传四方
  17. su oracle是什么意思,su 命令 以及 su oracle 与su - oracle 命令区别
  18. SCANV团队预警libsys图书馆系统注入漏洞
  19. 语音的扩张——共鸣器官
  20. Gearman vs Beanstalkd

热门文章

  1. 【Top1】Tudou.com首页网页设计的制作方法
  2. ROS(Robot Operating System)笔记 : 1.使用launch file在gazebo中生成urdf机器人
  3. JVM基础系列第10讲:垃圾回收的几种类型
  4. Mysql-my-innodb-heavy-4G.cnf配置文件注解
  5. JAVA中线程同步的方法
  6. Bloomfilter 的应用场景
  7. lhgdialogV2.37 使用
  8. 百度之后,电子银行还安全么?
  9. 直方图绘制与直方图均衡化实现
  10. 598. 范围求和 II