import org.openqa.selenium.WebDriver;

import org.openqa.selenium.chrome.ChromeDriver;

import org.openqa.selenium.htmlunit.HtmlUnitDriver; // HtmlUnitDriver 需要用到的包

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.List;

import java.util.ArrayList;

/**

* 获取今日头条的某条资讯 (仅测试)

* @author qyx

* @return

*/

public void toutiao(){

/*

* 这里使用的是ChromeDriver浏览器驱动,调用方法就会打开浏览器,执行速度慢,等待时间长

* 推荐项目中使用HtmlUnitDriver,伪浏览器,不打开浏览器,所有省去了渲染页面的时间,速度相对比较快,用法一样,注意加jar包

*/

WebDriverdriver =new ChromeDriver();

driver.get("https://www.toutiao.com/a6458888925732667918/");

// 整个页面的原代码

Stringcontent = driver.getPageSource();

/** 这里代码类似于Python的re模块,re模块很强大,这里代码实现功能相当于Python正则表达式的“re.findall()” */

Matcherm = Pattern.compile("

(.*?).*?.*?(.*?).*?.*?.*?

.*?

java正则表达式爬图片_Java正则表达式爬取网页,贴出完整代码相关推荐

  1. Java链表的书_JAVA实现双向链表的增删功能,完整代码package linked;class LinkedTable{ }public class Linke...

    JAVA实现双向链表的增删功能,完整代码 package linked; class LinkedTable{ } public class LinkedTableTest { //构造单链表 sta ...

  2. java修改图章图片_Java处理PDF图章的方法示例(代码)

    本篇文章给大家带来的内容是关于Java 处理PDF图章的方法示例(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 图章(印章)是一种在合同.票据.公文等文件中表明法律效应.部门 ...

  3. python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  4. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  5. python正则表达式提取电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

  6. Java实现佛洛依德算法(floyd)的完整代码

    Java实现佛洛依德算法(floyd)的完整代码 /*** 弗洛伊德(floyd)算法求图中所有点对之间的最短路径:* 其中'-1'表示两点之间目前还没有联通的路径:* 结论:如果A点到G点之间有最短 ...

  7. Java正则表达式(一)、抓取网页email地址实例

    实现思路: 1.使用java.net.URL对象,绑定网络上某一个网页的地址 2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象 3.通 ...

  8. java qq验证手机号码_java正则表达式表单验证类工具类(验证邮箱、手机号码、qq号码等)...

    package util; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 使用正则表达式进行表单验证 * ...

  9. python 爬取网页照片!全代码!指定数量,指定目录,爬取过程详细!关于有下载照片过程但是不显示照片的问题的解释

    作者:untilyouydc 原文:https://blog.csdn.net/qq_40774175/article/details/81273198 原博主解释比较详细,有些知识还附带上了链接解释 ...

最新文章

  1. python 移动文件
  2. 移动开发架构之MVVM模式
  3. php获取当前操作系统类型 PHP_OS
  4. cocos2d-x CCArray用法 遍历和删除元素
  5. Objective-C学习之旅(四)----内存管理2----retain点语法
  6. 实现教科书图7.33的程序(另加孤立顶点台北)(两城市之间的最短路径模拟)
  7. 写入接口c语言_嵌入式LCD的接口类型详解
  8. 基于SSM的家庭理财系统
  9. 短视频解析易语言代码
  10. m3 pcb开孔 螺丝_螺丝过孔工艺孔底孔尺寸参照表
  11. mysql repaire_Repair MySQL Replication遇到的错误(一)
  12. 【Elementory OS 6】安装 tweak
  13. java调用百望税控NISEC_SKSC.dll发送xml报文
  14. fri什么意思_fri(fri是什么意思中文翻译)
  15. vue使用CKEditor4编辑器
  16. mac时间机器的使用
  17. ask函数有几个形式参数HTML,第七章 函数
  18. INFOCOM2022——brokerChain
  19. 信息学奥赛一本通-1404我家的门牌号
  20. 变异系数法matlab程序,差分进化算法原理及matlab代码实现

热门文章

  1. Python文件读写基本操作
  2. Unique Email Addresses
  3. iOS开发中遇到的一些优化手段(即时更新)
  4. ZOJ1004 DFS基础
  5. 通过Chrome浏览器检测和优化页面
  6. [导入]C#中WebService里的回车符\r丢失问题
  7. oracle实例创建失败,【求助】急!!!!oracle客户端安装时创建实例失败
  8. C++之调用C的so
  9. Android java时间戳转年月日时分秒
  10. 快捷键查看Emacs源码