asp.net 初步入门使用正则抓取网页信息

今天闲着没事看了看使用正则的使用，之前只是用来做验证，第一次用来抓取网页，

抓去了博客园首页几个分页的推荐文章列表。。。。

代码很简单就不做解释了，肯定做得不严谨，主要是熟悉下几个正则类和用于抓取网页内容的方法。。。

using System;using System.Web;using System.Web.UI;using System.Text.RegularExpressions;using System.Net;using System.IO;public partial class test : Page {public int g=0;public string dfdf = "";void Page_Load(object sender, System.EventArgs e)    {for (int i = 2; i <10; i++)        {            WebRequest rque = WebRequest.Create("http://www.cnblogs.com/p"+i.ToString());            WebResponse utxt = rque.GetResponse();            Stream str = utxt.GetResponseStream();            StreamReader sread = new StreamReader(str, System.Text.Encoding.UTF8);

string pram = @"<h3><a class=""titlelnk"" href=""(.*?)"" target=""_blank"">(.*?)</a>";            MatchCollection m = Regex.Matches(sread.ReadToEnd(), pram);foreach (Match ms in m)            {                g += 1;                dfdf = dfdf + ms.Groups[1].Value.ToString() + ms.Groups[2].Value.ToString() + "<br/><br/><br/><br/><br/>";            }        }

        Response.Write("总记录数："+g.ToString()+"<br/>"+dfdf);    }}

转载于:https://www.cnblogs.com/sishahu/archive/2012/01/18/2325326.html

asp.net 初步入门使用正则抓取网页信息相关推荐

使用Python抓取网页信息
之前用C#帮朋友写了一个抓取网页信息的程序,搞得好复杂,今天朋友又要让下网页数据,好多啊,又想偷懒,可是不想用C#了,于是想到了Python,大概花了两个小时,用记事本敲的,然后在IDLE (Pyth ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
Node.js抓取网页信息并展示（cheerio网络爬虫）
书接上回,哈哈,昨天发表了,怎么使用Node的cheerio模块进行抓取网页的信息,那我们拿到数据肯定是有自己的用处的啊. 我昨天抓取的是一些超级诱人的糕点的图片,今天展示出来,大家一起眼馋啊,啊哈哈 ...
matlab抓取网页信息,如何利用Matlab抓取网页数据
如何利用Matlab抓取网页数据 2019-01-01 %朋友需要做金融方面的分析,要求从网站上下载大量的数据,一个一个复制粘贴太费事.我写了一个简单的网络爬虫,主要用到正则表达式,可以自动下载网页源 ...
php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...
在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二.第三层次深度页面内容. 这里是一个测试例子的实现,仅供参考. /* 匹配给定页面链接 return:array match[link, ...
python抓取网页信息_python抓取网页中的动态数据
一.概念网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器 ...
Node.js抓取网页信息（cheerio网络爬虫）
Node.js的学习中,可用于抓取其他网站的模块是[cheerio],这个模块并不是node的内置模块,所以首先我们需要先安装一下: 安装对应模块安装命令: npm install cheerio ...
[wbia 1.1] heritrix抓取网页信息
[wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之. 我对heritrix的了解较浅,希望此文对第一次用爬虫的 ...
用C#.NET 与Webdriver写的抓取网页信息的小工具
最近,女友的妹妹要去网上找房产中介人信息用于招聘,自己去网上一个一个找太慢,我女友知道我是搞IT的就请教我有没有办法帮她快速找电话号码,于是我就想到了爬虫程序,然后普通的爬虫代码有限制,刚好自己在搞自 ...

asp.net 初步入门使用正则抓取网页信息

asp.net 初步入门使用正则抓取网页信息相关推荐

最新文章

热门文章