windows下如何用python抓取邮件内容和附件_用python下载邮件内容
使用了pop3服务。
POP3(Post Office Protocol 3)即邮局协议的第3个版本,它是规定个人计算机如何连接到互联网上的邮件服务器进行收发邮件的协议。
如果是163邮箱, pop3地址及端口等信息如下图。其他邮箱可以搜索查询其的pop3使用方式。
比较重要的一些操作!!
# 连接到POP3服务器
server = poplib.POP3(pop3_server)
# 身份认证
server.user(email)
server.pass_(password)
# 返回邮件数量和每个邮件的大小
server.list()
# pop3.retr 返回由参数标识的邮件的全部文本(具体的含义,动手尝试一下就清楚了)
server.retr(index)
"""
POP3命令码如下:
命令 参数 状态 描述
----------------------------------------------------------------------------
USER username AUTHORIZATION 此命令与下面的pass命令若成功,将导致状态转换
PASS password AUTHORIZATION
APOP Name Digest AUTHORIZATION Digest是MD5消息摘要
----------------------------------------------------------------------------
STAT None TRANSACTION 请求服务器发回关于邮箱的统计资料,如邮件总数和总字节数
UIDL [Msg#] TRANSACTION 返回邮件的唯一标识符,POP3会话的每个标识符都将是唯一的
LIST [Msg#] TRANSACTION 返回邮件数量和每个邮件的大小
RETR [Msg#] TRANSACTION 返回由参数标识的邮件的全部文本
DELE [Msg#] TRANSACTION 服务器将由参数标识的邮件标记为删除,由quit命令执行
RSET None TRANSACTION 服务器将重置所有标记为删除的邮件,用于撤消DELE命令
TOP msg n TRANSACTION 服务器将返回由参数标识的邮件前n行内容,n必须是正整数
NOOP None TRANSACTION 服务器返回一个肯定的响应
------------------------------------------
QUIT None UPDATE
"""
完整代码如下
# coding=utf-8
from email.parser import Parser
from email.header import decode_header
from email.utils import parseaddr
import poplib
import re
# 输入邮件地址, 口令和POP3服务器地址: (切换成自己的邮箱地址与密码)
email = 'xxx@163.com'
password = 'xxpassword'
pop3_server = 'pop.163.com'
def decode_str(s):
"""decode_str()\ guess_charset()\ print_info() 这三个函数都是从网上看到的,用于处理邮件的编码问题。"""
value, charset = decode_header(s)[0]
if charset:
value = value.decode(charset)
return value
def guess_charset(msg):
"""用于处理邮件的编码问题。"""
charset = msg.get_charset()
if charset is None:
content_type = msg.get('Content-Type', '').lower()
pos = content_type.find('charset=')
if pos >= 0:
charset = content_type[pos + 8:].strip()
return charset
def print_info(msg, id):
"""用于处理邮件的编码问题及设置邮件转化后的格式。"""
mail_content = "--------------"+str(id)+"--------------\n"
for header in ['From', 'To', 'Subject']:
value = msg.get(header, '')
if value:
if header == 'Subject':
value = decode_str(value)
else:
hdr, addr = parseaddr(value)
name = decode_str(hdr)
value = u'%s' % (name, addr)
print('%s:%s\n' % (header, value))
mail_content += '%s:%s\n' % (header, value)
# 循环信件中的每一个mime的数据块
for part in msg.walk():
# 这里要判断是否是multipart,是的话,里面的数据是一个message 列表
if not part.is_multipart():
content_type = part.get_content_type()
if content_type == 'text/plain' or content_type == 'multipart/alternative' or content_type == 'multipart/mixed':
content = part.get_payload(decode=True)
charset = guess_charset(part)
if charset:
content = content.decode(charset)
print('Text:%s\n' % content)
mail_content += 'Text:%s\n' % content
else:
print('Attachment:%s\n' % content_type)
mail_content += 'Attachment:%s\n' % content_type
return mail_content
def write2txt(msg):
"""讲提取到的邮件内容写入txt"""
if msg:
with open('/Users/macos/xxx/mail_list.txt', 'a') as f:
f.write(msg)
print("写入txt成功")
def read_email():
# 主工作函数,是此脚本的主干。
# 连接到POP3服务器
server = poplib.POP3(pop3_server)
# 可以打开或关闭调试信息:
server.set_debuglevel(0)
# 可选:打印POP3服务器的欢迎文字:
print(server.getwelcome().decode('utf-8'))
# 身份认证
server.user(email)
server.pass_(password)
# stat() 返回邮件数量和占用空间:
print('Messages:%s. Size:%s' % server.stat())
# list() 返回所有邮件的编号:
resp, mails, octets = server.list()
index = len(mails)
v = 0
for ia in range(1, index):
print("第{}封邮件".format(ia))
resp, lines, otets = server.retr(ia)
msg_content = b'\r\n'.join(lines).decode('utf-8')
msg = Parser().parsestr(msg_content)
sub = msg.get("Subject")
subb = decode_header(sub)[0][0]
if isinstance(subb, str):
subject = subb
print(subject)
else:
subject = subb.decode('utf-8', "ignore")
# 使用正则表达式的规则匹配邮件的标题
pattern = re.compile(r'王总.*?')
if pattern.match(subject):
print("匹配到的邮件编号:{}".format(ia))
mail_list = print_info(msg, ia)
write2txt(mail_list)
v += 1
print("一共打印{}封邮件".format(v))
# 关闭连接:
server.quit()
if __name__ == '__main__':
read_email()
windows下如何用python抓取邮件内容和附件_用python下载邮件内容相关推荐
- python抓取微博评论的图片_用Python语言爬虫抓取微博评论图文教程
提交Cookie信息模拟微博登录 需要爬取登录之后的信息,大家都是望而止步,不要担心,今天呢,给大家提供一个超级简单的方法,就是提交Cookie信息登录微博,首先,我们找到某明星的微博网址:http: ...
- python抓取微博评论破亿_【python】爬虫-微博评论-武大樱花雨为例 笔记
〇.前情提要 b站跟着up主 龙王山小青椒 学习爬虫. 参考: python爬虫-微博评论-武大樱花雨为例 https://www.bilibili.com/video/BV1s7411U7AS 人民 ...
- python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
- python抓取微信群消息怎么屏蔽_在微信好友信息抓取这一块,这才是最好的python分析技巧!...
早些日子有人问我我的微信里面有一共多少朋友,我就随后拉倒了通讯录最下面就找到了微信一共有多少位好友.然后他又问我,这里面你认识多少人? 这一句话问的我很无语.一千多个好友我真的不知道认识的人有多少.他 ...
- python 抓取微博评论破亿_一篇文章教会你使用Python定时抓取微博评论
[Part1--理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找 抓取 ...
- python抓取视频违法吗,科学网—【python爬虫】抓取B站视频相关信息(一) - 管金昱的博文...
昨天我在B站上写了这么一篇文章,但是被他们锁住了.无奈之下我复制到知乎上先保存起来 在这篇名为<三天学会用python进行简单地爬取B站网页视频数据>文章中我主要提到了两点在已知aid的情 ...
- [python]抓取啄木鸟社区《活学活用wxPython》内容与图片
请参考crifan的博文如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站 这是我看到的关于爬取与模拟登陆最详尽的一个系列,总结整理了很多,获益不少 编辑 20130105 ...
- python抓取网页数据并截图_手把手教你使用python抓取并存储网页数据!
作者:刘早起 来源:早起Python 爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Pyth ...
- python抓取网站访客手机号_三网运营商大数据实时截流网站访客
现在很多行业和企业都在网上,手机APP和搜索引擎做竞价引流推广,目的是为自己的企业和业务实时引流获客.但是随着众多资本的介入,和竞价排名的恶意竞争和恶意点击的出现,很多企业做的竞价推广并不尽如人意. ...
- python抓取网页数据并截图_网络爬虫-使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干 准备搭建环境 因为是MAC电脑,所以自动安装了Python 2.7的版本 添加一个 库 Beauti ...
最新文章
- 【Project Euler】530 GCD of Divisors 莫比乌斯反演
- android 上传pdf文件,Android 加载PDF文件
- kdj超卖_三分钟学会KDJ三大买卖绝技,简单高效,把握最佳买卖点,不懂KDJ的股民值得一看!...
- SQL Server 2008 允许远程链接 解决方法
- educoderpython答案顺序结构程序设计_答案汇总:土木机械类+计算机类
- 在JS方法中返回多个值的三种方法
- linux屏幕分辨率文件,Ubuntu 16.04 LTS设置屏幕分辨率显示Unknown display 解决
- linux文件目录与磁盘格式,Linux文件、目录与磁盘格式
- [Java] Java常见错误
- safari 浏览器提示添加到主屏幕_Safari浏览器的几个小技巧你掌握了吗?
- springboot - 应用实践(2)第一个springboot应用
- 手机掌控汽车远程一键启动 预冷预热
- word文档如何设置多级标题
- 用计算机做初中模拟物理实验,仿真物理实验室初中完整版
- Python递归绘制谢尔宾斯基三角形
- 永远做重要而不紧急的事
- 如何玩转阿里巴巴国际站Trueview视频?
- OCR目标识别(车辆VIN码识别效果)
- CPU,处理器插槽,逻辑处理器,处理器内核
- 这些年,亲眼所见的软件公司中混迹的老油条汇总
热门文章
- Python函数声明以及与其他编程语言数据类型的比较
- 963B:Destruction of a Tree
- Spring的标签和验证等模块
- [zz]muduo源码阅读之Thread和ThreadPool
- Java面向对象 Main函数 静态的应用 单例设计模式
- 利用java反射原理写了一个简单赋值和取值通用类【改】
- UVA 167 - The Sultan's Successors
- 【LeetCode】【数组】题号:*289,生命游戏
- HTML学习总结(2)——标题/水平线/注释/段落/折行/文本格式化
- ENVI5.4新添加功能简介