java抓取网页或者文件的邮箱号码
抓文件的
package reg;import java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern;public class TestEmail {public static void main(String[] args) { // TODO Auto-generated method stubBufferedReader br=null;try { br=new BufferedReader(new FileReader("D:/1.htm")); String str=null; StringBuilder sb=new StringBuilder(); while((str=br.readLine())!=null){ sb.append(str); } List es=getEmail(sb.toString()); for(String e:es){ System.out.println(e); } } catch (FileNotFoundException e) { // TODO: handle exception e.printStackTrace(); }catch (IOException e) { // TODO: handle exception e.printStackTrace(); }finally { try { if(br!=null) br.close(); } catch (IOException e) { // TODO: handle exception e.printStackTrace(); } } }public static List getEmail(String str){List es=new ArrayList(); Pattern p=Pattern.compile("[\\w\\.-]*\\w+@[\\w\\.-]*\\w+\\.\\w{2,5}"); // Pattern p=Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");Matcher m=p.matcher(str);while(m.find()){es.add(m.group());}return es;} }
抓网页的
package reg;import java.io.BufferedReader; import java.io.InputStreamReader; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Testemail01 { public static String getWebCon(String domain) { System.out.println("开始抓取邮件地址..("+domain+")"); StringBuffer sb=new StringBuffer(); try { java.net.URL url=new java.net.URL(domain); BufferedReader in=new BufferedReader(new InputStreamReader(url.openStream())); String line; while((line=in.readLine())!=null) { parse(line); } in.close(); } catch(Exception e) { sb.append(e.toString()); System.err.println(e); } return sb.toString(); } public static void main(String[] args) { String s=Testemail01.getWebCon("http://tieba.baidu.com/p/2366935784"); } private static void parse(String line) { Pattern p=Pattern.compile("[\\w[.-]]+@[\\w[.-]]+\\.[\\w]+");//邮箱的正则表达式 Matcher m=p.matcher(line); while(m.find()) { System.out.println(m.group()); } } }
java抓取网页或者文件的邮箱号码相关推荐
- java取邮箱前缀_java抓取网页或文件中的邮箱号码
java抓取网页或文件中的邮箱号码 发布时间:2020-10-18 08:58:32 来源:脚本之家 阅读:69 作者:java大渣渣 本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考, ...
- java 抓取网页乱码_java抓取网页乱码问题的处理
今天同事做了一个我们感觉很牛B的彩票预测程序,采用的是遗传算法实现,于是我"剽"来学习先,但是部署到我电脑上以后,就有问题了: 1.用她的抓取程序得到的网页内容出现乱码,导致数据无 ...
- Java抓取网页数据(原网页+Javascript返回数据)
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
- java抓取网页数据_实现网络图片爬虫,只需5秒快速把整个网页上的图片全下载打包zip...
我们经常需要用到互联网上的一些共享资源,图片就是资源的一种,怎么把网页上的图片批量下载下来?有时候我们需要把网页上的图片下载下来,但网页上图片那么多,怎么下载我们想要的东西呢,如果这个网页都是我们想要 ...
- java抓取网页标题内容_[Java教程]java 网页页面抓取标题和正文
[Java教程]java 网页页面抓取标题和正文 0 2014-07-10 09:01:30 import java.io.BufferedReader;import java.io.IOExcept ...
- java抓取网页css,Java 读取网页Html资料
当前位置:我的异常网» HTML/CSS » Java 读取网页Html资料 Java 读取网页Html资料 www.myexceptions.net 网友分享于:2013-10-27 浏览:13 ...
- java抓取网页数据_简易数据分析 10 | Web Scraper 翻页——抓取滚动加载类型网页...
[这是简易数据分析系列的第 10 篇文章] 友情提示:这一篇文章的内容较多,信息量比较大,希望大家学习的时候多看几遍. 我们在刷朋友圈刷微博的时候,总会强调一个『刷』字,因为看动态的时候,当把内容拉到 ...
- java抓取网页数据_Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取
我们分别通过Golang.Python.Java三门语言,分别实现对Boss直聘网站的招聘数据进行爬取. 首先打开Boss直聘网站: 然后我们在职位类型中输入Go或者Golang关键字: 然后我们可以 ...
- java 流的方式抓取网页 但是显示不全_用java抓取网页源代码时总是无法获取完整的源代码信息,求指导...
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 无论是用urlconnection还是httpurlconnection都只能获得一部分网页源代码(即有的标签内容在网页上右键-查看源代码能看到,但是用下 ...
最新文章
- 2021 几何图机器学习大盘点 | 几何深度学习先驱 Michael Bronstein长文解读
- redis php 持久化,详解Redis RDB持久化、AOF持久化,
- 处理程序“ExtensionlessUrlHandler-Integrated-4.0”在其模块列表
- oc51--循环retain
- java中的多线程的示例
- mysql进阶知识_Mysql面试知识点总结(进阶篇)
- 代码实现——MapReduce统计单词出现次数
- html css布局 慕课,html5和css3学习 Header实现CSS的布局
- mysql关键字test_MySQL关键字Distinct的详细介绍
- com scripting读书笔记
- 惠普打印机故障代码_HP激光打印机常见故障代码
- pyc文件反编译到Python源码
- 计算机大赛鼓励语录,鼓励参加比赛的话
- PhotoShop学习篇
- 酷睿i5 12500H相当于什么水平 i512500H属于哪个档次
- 关于神舟笔记本TX8连副屏经常蓝屏的问题
- JS实现QQ面板-拖曳效果
- MAC Boook打印长图
- 《电脑音乐制作实战指南:伴奏、录歌、MTV全攻略》——2.5 实战WAV、MP3等音频歌曲的原唱消除...
- python画笑脸表情_python
热门文章
- 特征匹配--GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence
- IDEA-Java自动生成单元测试
- 确定神经网络层数以及神经元个数
- 对象是否要被回收(引用计数和可达性分析算法)
- php 删除硬链接,RHCE系列之文件管理----硬链接和软链接
- 计算机二年级考试word,计算机二年级MSOffice真题.docx
- java静态链表_数据结构笔记:静态链表(C语言)
- 数据库迁移_【干货分享】DM数据库迁移方法(物理迁移)
- linux 内核round-robin scheduler代码,LINUX源代码阅读报告
- 湖南工业大学java试卷_湖南工业大学数控加工技术试卷.doc