今天闲着没事看了看使用正则的使用,之前只是用来做验证,第一次用来抓取网页,

抓去了博客园首页几个分页的推荐文章列表。。。。

代码很简单就不做解释了,肯定做得不严谨,主要是熟悉下几个正则类和用于抓取网页内容的方法。。。

using System;using System.Web;using System.Web.UI;using System.Text.RegularExpressions;using System.Net;using System.IO;public partial class test : Page {public int g=0;public string dfdf = "";void Page_Load(object sender, System.EventArgs e)    {for (int i = 2; i <10; i++)        {            WebRequest rque = WebRequest.Create("http://www.cnblogs.com/p"+i.ToString());            WebResponse utxt = rque.GetResponse();            Stream str = utxt.GetResponseStream();            StreamReader sread = new StreamReader(str, System.Text.Encoding.UTF8);

string pram = @"<h3><a class=""titlelnk"" href=""(.*?)"" target=""_blank"">(.*?)</a>";            MatchCollection m = Regex.Matches(sread.ReadToEnd(), pram);foreach (Match ms in m)            {                g += 1;                dfdf = dfdf + ms.Groups[1].Value.ToString() + ms.Groups[2].Value.ToString() + "<br/><br/><br/><br/><br/>";            }        }

        Response.Write("总记录数:"+g.ToString()+"<br/>"+dfdf);    }}

转载于:https://www.cnblogs.com/sishahu/archive/2012/01/18/2325326.html

asp.net 初步入门使用正则抓取网页信息相关推荐

  1. 使用Python抓取网页信息

    之前用C#帮朋友写了一个抓取网页信息的程序,搞得好复杂,今天朋友又要让下网页数据,好多啊,又想偷懒,可是不想用C#了,于是想到了Python,大概花了两个小时,用记事本敲的,然后在IDLE (Pyth ...

  2. .net抓取网页信息 - Jumony框架使用1

    往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...

  3. Node.js抓取网页信息并展示(cheerio网络爬虫)

    书接上回,哈哈,昨天发表了,怎么使用Node的cheerio模块进行抓取网页的信息,那我们拿到数据肯定是有自己的用处的啊. 我昨天抓取的是一些超级诱人的糕点的图片,今天展示出来,大家一起眼馋啊,啊哈哈 ...

  4. matlab抓取网页信息,如何利用Matlab抓取网页数据

    如何利用Matlab抓取网页数据 2019-01-01 %朋友需要做金融方面的分析,要求从网站上下载大量的数据,一个一个复制粘贴太费事.我写了一个简单的网络爬虫,主要用到正则表达式,可以自动下载网页源 ...

  5. php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

    在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二.第三层次深度页面内容. 这里是一个测试例子的实现,仅供参考. /* 匹配给定页面链接 return:array match[link, ...

  6. python抓取网页信息_python抓取网页中的动态数据

    一.概念 网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...

  7. Node.js抓取网页信息(cheerio网络爬虫)

    Node.js的学习中,可用于抓取其他网站的模块是[cheerio],这个模块并不是node的内置模块,所以首先我们需要先安装一下: 安装对应模块 安装命令: npm install cheerio ...

  8. [wbia 1.1] heritrix抓取网页信息

    [wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之. 我对heritrix的了解较浅,希望此文对第一次用爬虫的 ...

  9. 用C#.NET 与Webdriver写的抓取网页信息的小工具

    最近,女友的妹妹要去网上找房产中介人信息用于招聘,自己去网上一个一个找太慢,我女友知道我是搞IT的就请教我有没有办法帮她快速找电话号码,于是我就想到了爬虫程序,然后普通的爬虫代码有限制,刚好自己在搞自 ...

最新文章

  1. boost::gil::is_homogeneous用法的测试程序
  2. NodeJS安装及部署(Linux系统)
  3. 键盘忍者:使用单个热键弹出Vista日历
  4. 新能源补贴退坡 广汽新能源、比亚迪不涨价 蔚来最狠!
  5. [RK3399][Android7.1] 基于regmap的I2C实现方法
  6. Android TV开发总结(五)TV上屏幕适配总结
  7. 《0202年了,还有人学 NFC!?》
  8. 你必须知道的10项大数据思维原理
  9. 使用AMOS软件构建结构方程模型
  10. Chrome浏览器下载zoom录像
  11. 向量积计算三角形面积
  12. Geoserver入门操作系列之二:创建图层样式
  13. 【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)
  14. Ubuntu系统中IPFS环境的配置
  15. 最具影响力30人,托起移动医疗千万市场
  16. 蓝牙远距离,一对多解决方案
  17. 2022-Arch安装(详细)
  18. 魔方APP项目-04-用户模块API接口、Marshmallow,基本构造器(Schema),Schema数据序列化、Schema数据反序列化、反序列化对数据验证、模型构造器(ModelSchema)
  19. #10049. 「一本通 2.3 例 1」Phone List
  20. 【FatFs】基于STM32 SD卡移植FatFs文件系统

热门文章

  1. 关于决策树,你一定要知道的知识点!
  2. 【开源】本周不容错过开源论文,含分割、检索、神经渲染、deepfake 检测、超分、视频相关等...
  3. CVPR2021 双图层实例分割,大幅提升遮挡处理性能
  4. ECCV 2020 论文大盘点-人员重识别(ReID)篇
  5. “3D几何与视觉技术”全球在线研讨会(9月2日到12月16日)
  6. PyTorch终于能用上谷歌云TPU,推理性能提升4倍,我们该如何薅羊毛?
  7. 【TensorFlow】TensorFlow函数精讲之tf.constant()
  8. YOLOv4改进版重磅问世!Yolov4原班人马重磅推出Scaled-YOLOv4!业界最佳
  9. 推荐系统遇上深度学习(三十九)-推荐系统中召回策略演进!
  10. ReedShepp与Dubins path的matlab实现