C#抓取网页HTML内容
using System;
using System.Collections.Generic;
using System.Linq;
using System.Web;
using System.Net;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;
namespace Web
{
/// <summary>
/// 公共方法类
/// </summary>
public class WebHandler
{
/// <summary>
/// 获取网页的HTML码
/// </summary>
/// <param name="url">链接地址</param>
/// <param name="encoding">编码类型</param>
/// <returns></returns>
public static string GetHtmlStr(string url, string encoding)
{
string htmlStr = "";
try
{
if (!String.IsNullOrEmpty(url))
{
WebRequest request = WebRequest.Create(url); //实例化WebRequest对象
WebResponse response = request.GetResponse(); //创建WebResponse对象
Stream datastream = response.GetResponseStream(); //创建流对象
Encoding ec = Encoding.Default;
if (encoding == "UTF8")
{
ec = Encoding.UTF8;
}
else if (encoding == "Default")
{
ec = Encoding.Default;
}
StreamReader reader = new StreamReader(datastream, ec);
htmlStr = reader.ReadToEnd(); //读取网页内容
reader.Close();
datastream.Close();
response.Close();
}
}
catch { }
return htmlStr;
}
}
}
C#抓取网页HTML内容相关推荐
- python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...
python基于BeautifulSoup实现抓取网页指定内容的方法 更新时间:2015年07月09日 10:12:50 作者:光索与诺 这篇文章主要介绍了python基于BeautifulSoup实 ...
- python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
- java抓取网页标题内容_[Java教程]java 网页页面抓取标题和正文
[Java教程]java 网页页面抓取标题和正文 0 2014-07-10 09:01:30 import java.io.BufferedReader;import java.io.IOExcept ...
- java使用爬虫工具jsoup实现抓取网页的内容及图片并写入到word文档中
背景: 有个朋友最近让帮忙写个小功能,需求大概是,1万个链接,让爬每个链接中的某一段文章并附一张图片,每五个链接写入到一个word文档中. 基本思路,就是先去找个爬虫框架把链接网页中内容和图片写到wo ...
- PHP:抓取网页指定内容
效果图 代码 <?php $url = "http://要抓取的网页"; $contents = file_get_contents($url); //如果出现中文乱码使用下 ...
- php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...
在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二.第三层次深度页面内容. 这里是一个测试例子的实现,仅供参考. /* 匹配给定页面链接 return:array match[link, ...
- PHP抓取网页指定内容(推荐用CURL效率更高)
PHP抓取某页面指定内容 初学php研究了好几个小时最后问了同事,得以解决:下面我就以我网站的一个详情页为例子,给大家分享一下: 直接贴代码,注释写的很清楚了 [方法一] <?php //添加编 ...
- 爬虫-演练-GET请求抓取网页的内容
目标站点 待定 操作流程 待定
- python中模拟浏览器抓取网页(-)
对于平时我们抓取网页的内容时,比较倾向于直接利用urllib进行抓取(这里我就基于python的2.7版本进行解说,对于python3之后的版本,是将python中的urllib和urllib2和并成 ...
最新文章
- Oracle的参数文件pfile和spfile
- python整理excel数据-Python 之Excel 数据处理
- DevExpress v19.1新版亮点——WinForms篇(五)
- idea创建包怎么让包分层_干货 | 通勤包怎么选?我推荐这6只
- 【每日一题】6月30日 Growth
- 一个合格的程序员,需要哪些必备技能?
- python星号*在函数中、传参时的含义
- 方便面为什么要是波浪形的 它是怎么做到的?
- 【SoftwareTestingHomework2】--3013218086--
- 区分.net、c#、asp.net三者间的关系
- android使用es文件管理器,Android系统文件管理教程-ES文件浏览器用法!
- 威富通实现微信支付概述
- html子布局不超出父布局,flex布局子元素超出父元素
- C#对Dictionary的按Value排序
- 【论文阅读】2022年最新迁移学习综述笔注(Transferability in Deep Learning: A Survey)
- python for in range 什么意思_python中range什么意思,
- 现控计控中基于留数法Z变换与Z反变换的MATLAB实现
- 软件测试学习资料大全
- Discriminative Learning of Relaxed Hierarchy for Large-scale Visual Recognition
- 【NLP】NLP中的对抗训练
热门文章
- 单目视觉标定:世界坐标系、相机坐标系、图像坐标系、像素坐标系——简单粗暴,粗暴
- Linux C语言调用C++动态链接库
- ITU-RBT.656视频标准接口
- DM365 color space
- MFC导出对话框类DLL的实现
- 【mmdetection2.0错误】——ModuleNotFoundError: No module named ‘mmdet‘
- 【setup.py编译出错】——提示无法查找到powershell.exe
- c++突破网关屏蔽_为什么加了屏蔽罩,测试效果反而不好?
- js导出excel单元格内换行符代码_前端和excel的那些事
- java jconsole rmi 连接不上