我们使用其它编程语言处理在文本中查找“类似”的内容时,往往使用正则表达式,Python在网页上找出所有“类似”的内容,也是要用正则表达式。

在Python中,使用正则表达式的模块是“re",正则表达式模块"re"指定一个与之匹配的字符集合,本模块所提供的函数,将可以用来检查所给的字符串是否与指定的正则表达式匹配。”re"模块的findall()函数可以找出如电子邮箱、电话号码、外部连接、文件类型等形式。

  • 程序示例:
import requests, re#regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"
#这个正则表达式过滤掉了qq邮箱
regex = r"([a-zA-Z0-9_.+-]+@[a-pr-zA-PRZ0-9-]+\.[a-zA-Z0-9-.]+)"
#基于隐私,使用了“XXXXXXXXXXXXXX”
url = 'http://blog.sina.com.cn/s/XXXXXXXXXXXXXXXXXX.html'
html = requests.get(url).text
#print(html)
emails = re.findall(regex,html)
i = 0
for email in emails:i += 1if i < 16:print("{} :{}".format(i,email))

  • 执行结果:

Python:提取网页中的电子邮箱相关推荐

  1. python提取网页中表格数据_Python2 BeautifulSoup 提取网页中的表格数据及连接

    网址:http://quote.eastmoney.com/ce- 要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格) 暂时只写了这些代码: import urllib ...

  2. python提取网页中p标签中的内容_使用Python进行爬虫的初学者指南

    前言 爬虫是一种从网站上抓取大量数据的自动化方法.即使是复制和粘贴你喜欢的网站上的引用或行,也是一种web抓取的形式.大多数网站不允许你保存他们网站上的数据供你使用.因此,唯一的选择是手动复制数据,这 ...

  3. Python 提取网页正文,将网页转为图片!

    Python 提取网页正文,将网页转为图片!!! 用到python的newspaper库 from newspaper import Article news = Article(link.strip ...

  4. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  5. HtmlParser提取网页中的纯文本信息

    转载自   HtmlParser提取网页中的纯文本信息 HTMLParser 一个解析web页面的开源类库.           准备学习下搜索方面的技术,就学习了些网络爬虫的知识.最近一直在一个点上 ...

  6. 利用正则表达式提取网页中Table内的数据

    利用正则表达式提取网页中Table内的数据 using System; using System.Collections.Generic; using System.Linq; using Syste ...

  7. python在json文件中查找指定数据_Python中json的取值 如何使用python提取json中指定字段的数据...

    python中为什么用json有什么作用 如何用python读取json里面的值啊我爱你,所以我给了你伤害我的权力,只要我能忍受,我会一直陪伴着你,但你不能伤害我太多. 数据如下,我想要读取name. ...

  8. 利用python提取视频中的字幕

    利用python提取视频中的字幕 `` 一.导包 import base64 import os import cv2 import requests import aip from aip impo ...

  9. python提取cad中的文字_[python]提取PPT中的文字(包括图片中的文字)

    python是一门很强大的语言,因为有着丰富的第三方库,所以可以说Python是无所不能的. 很多人都知道,Python可以操作Excel,PDF·还有PPT,这篇文章就围绕Python提取PPT中的 ...

最新文章

  1. 走进科学-盐碱地种出甜高粱
  2. 【深度学习】深入理解Batch Normalization批标准化
  3. SetForceGroundWindow
  4. linux相关知识之特殊符号做目录
  5. docker下如何进入到容器中
  6. POJ 3268 Silver Cow Party (最短路径)
  7. C++算法学习(贪心算法)
  8. minio获取上传文件_Springboot集成Minio实现对象存储服务
  9. 写在2013年最后一天
  10. html好看英文字体,js显示漂亮的英文字体实例
  11. 数据中心服务器多少度宕机,害怕宕机?来看看数据中心机房的4大等级!
  12. Unity 父子约束 手持弓箭
  13. 用JavaScript编写的一个点名系统
  14. Selenium-Chrome环境配置
  15. DT内核圆柱模板行业站点主动tags三项主动推送插件
  16. Houdini软体简介
  17. git push origin HEAD:refs/for/master解析
  18. 电影院网站设计毕业设计,电影院网站的设计与实现,电影院售票系统源码毕设作品参考
  19. 基于PHP语言Laravel+Layui后台代码生成工具
  20. 逆向直播盒子Green-iOS客户端

热门文章

  1. 盘点:你知道8月有哪些编程新书上榜吗?
  2. 计算机用户账户已禁用,windows 7系统 您的账户已被停用 Administrator帐户已停用如何开启...
  3. vue制作导航栏html,vue实现nav导航栏的方法
  4. java中比较两个日期的先后
  5. python做手机应用宝下载_Python代码爬取下载应用宝所有APP软件
  6. 2010年数学二真题手稿解析
  7. JAVA学习-8种基本类型及其对应的封装类
  8. 王者荣耀s10服务器维护,王者荣耀S10:即将被修复的29大bug,有你想知道的吗?...
  9. LINUX开启ssh服务,报错:ssh: connect to host 192.168.6.129 port 22: Connection refused
  10. 鲸探发布点评:7月11日发售说唱俑、金扣蚌壳羽觞