近期在做船仅仅识别方面的事情,须要大量的正样本来训练adaboost分类器。

于是到marinetraffic这个站点上下载船仅仅图片。写个爬虫来自己主动下载显然非常方便。

站点特点

在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点:
1. 会定期检測爬虫行为。假设觉得有爬虫大量下载图片。

会把该连接增加黑名单,后几天都没办法下载。
2. 船仅仅图片资源差异大。有的船仅仅有1000多张图,有的船仅仅没有一张图,我们须要的是非常多船仅仅的非常多张图。所以须要对下载的船仅仅按优先级排序。
3. 用来训练分类器的正样本要求检測对象的分辨率一样。而marinetraffic站点下载的图片能够设置下在的图片的宽度,站点依据长宽比,生成对应的高度。所以。不同图片高度不一样。须要自己后期处理。

解决方式

  1. 针对爬虫检測。设置一个随机等待时间,10s左右。能够绕过站点爬虫行为检測。
  2. 对船仅仅依照图片熟练排序,先下载图片数量多的,而且每一个船仅仅不用下载太多。保证图片的差异性。比如
  3. 在下载的时候使用统一的宽度。

    后期处理从图片中抠出分辨率一样的船仅仅

爬虫源代码

using System;
using System.Collections.Generic;
using System.Globalization;
using System.IO;
using System.Linq;
using System.Net;
using System.Runtime.Serialization.Formatters.Binary;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;namespace 船仅仅图像爬虫
{class Program{static void download_all_shipid(List<string> shipid_list){try{WebClient MyWebClient = new WebClient();MyWebClient.Headers["User-Agent"] = "blah";MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;//Console.WriteLine("here1");//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519///http://www.marinetraffic.com/en/ais/index/ships/all//http://www.marinetraffic.com/ais/index/ships/all/page:2/sort:COUNT_PHOTOS/direction:desc;for (int pageNum = 1; pageNum < 100; pageNum++){Console.WriteLine("開始分析第" + pageNum + "张网页");MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据;MyWebClient.Headers["User-Agent"] = "blah";try{//Console.WriteLine("here0");Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/ais/index/ships/all/page:" + pageNum + "/sort:COUNT_PHOTOS/direction:desc/per_page:50"); //从指定站点下载数据//pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312,则使用这句;            string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8。则使用这句;//Console.WriteLine(pageHtml);//在控制台输入获取的内容;//Console.WriteLine("here1");int urlindex = -1;string org_label = "shipid:";urlindex = pageHtml.IndexOf(org_label, urlindex + 1);while (urlindex != -1){int endOfUrl = pageHtml.IndexOf("/", urlindex + org_label.Length);//Console.WriteLine("here2");string shipid = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);if (!shipid_list.Contains(shipid)){Console.WriteLine("新增id:" + shipid);shipid_list.Add(shipid);}//Console.WriteLine("已有id:" + shipid);urlindex = pageHtml.IndexOf(org_label, urlindex + 1);}///保存网页//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}Console.WriteLine("完毕第" + pageNum + "页分析");}catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。Console.Write("绕开站点爬虫行为检測中......");Random rd = new Random();int time_sleep = rd.Next() % 10 + 10;Thread.Sleep(time_sleep * 1000);Console.WriteLine();}Console.WriteLine("分析结束");//以下把list内容保存进文件,使用序列化的方法;string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";using (FileStream fsWriter = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write)){//以下对stu进行序列化。BinaryFormatter bf = new BinaryFormatter();bf.Serialize(fsWriter, shipid_list);}}catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}}/// <summary>/// 依据得到的ship_id获得该ship_id的全部图片;/// </summary>/// <param name="ship_id"></param>static void download_jpg(string ship_id){try{Console.WriteLine("開始下载shipid为:"+ship_id+"的图片");WebClient MyWebClient = new WebClient();MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据MyWebClient.Headers["User-Agent"] = "blah";//http://www.marinetraffic.com/en/photos/of/ships/shipid:281519///http://www.marinetraffic.com/en/photos/of/ships/shipid:371668/per_page:1000/page:1Byte[] pageData = MyWebClient.DownloadData(@"http://www.marinetraffic.com/en/photos/of/ships/shipid:" + ship_id + @"/per_page:100/page:1"); //从指定站点下载数据//string pageHtml = Encoding.Default.GetString(pageData);  //假设获取站点页面採用的是GB2312。则使用这句            string pageHtml = Encoding.UTF8.GetString(pageData); //假设获取站点页面採用的是UTF-8,则使用这句//Console.WriteLine(pageHtml);//在控制台输入获取的内容Console.WriteLine("元网页已下载");//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}int urlindex = -1;string org_label = "data-original='";urlindex = pageHtml.IndexOf(org_label, urlindex + 1);int i = 0;//Directory.CreateDirectory(@"./" );while (urlindex != -1){int endOfUrl = pageHtml.IndexOf("'", urlindex + org_label.Length);string url = pageHtml.Substring(urlindex + org_label.Length, endOfUrl - urlindex - org_label.Length);////以下是unicode编码转换为string的方式;//MatchCollection mc = Regex.Matches(strName, @"\\u([\w]{2})([\w]{2})", RegexOptions.Compiled | RegexOptions.IgnoreCase);//byte[] bts = new byte[2];//foreach (Match m in mc)//{//    bts[0] = (byte)int.Parse(m.Groups[2].Value, NumberStyles.HexNumber);//    bts[1] = (byte)int.Parse(m.Groups[1].Value, NumberStyles.HexNumber);//    musicName += Encoding.Unicode.GetString(bts);//}//Console.WriteLine("接下来下载的是:" + musicName);//以下是一个随机数的方法保证10秒后再下载。以绕过违规检測。Console.Write("绕过站点爬虫行为检測中......");Random rd = new Random();int time_sleep = rd.Next() % 10 + 10;Thread.Sleep(time_sleep * 1000);Console.WriteLine();try{//这是下载的命令;Console.WriteLine(url);MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据MyWebClient.Headers["User-Agent"] = "blah";Byte[] jpgdata = MyWebClient.DownloadData(url); //从指定网页下载数据;//把下载的内容保存在一个地方;using (FileStream fs = new FileStream(@"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\" + ship_id + "_" + i + ".jpg", FileMode.OpenOrCreate, FileAccess.Write)){fs.Write(jpgdata, 0, jpgdata.Length);}}catch (WebException webEx){Console.WriteLine("被捕获了吗?");Console.WriteLine(webEx.Message.ToString());}Console.WriteLine("成功下载第" + (i ++) + "张图片");urlindex = pageHtml.IndexOf(org_label, urlindex + 1);}///保存网页//using (StreamWriter sw = new StreamWriter("ouput.html"))//将获取的内容写入文本//{//    sw.Write(pageHtml);//}Console.WriteLine("*****************************************");Console.WriteLine("下载"+i+"张ship_id为"+ship_id+"的图片");Console.WriteLine("*****************************************");//Console.ReadLine(); //让控制台暂停,否则一闪而过了 }catch (WebException webEx){Console.WriteLine(webEx.Message.ToString());}}static void Main(string[] args){List<string> shipid_list = new List<string>();//shipid_list.Add("371681");//临时高速产生图片用这个;download_all_shipid(shipid_list);//string file = @"C:\Users\dragonfive\Desktop\爬虫获得船仅仅图片\第三批\0_100page_shipid.txt";//using (FileStream fsReader = new FileStream(file, FileMode.Open, FileAccess.Read))//{//    //以下进行反序列话;//    BinaryFormatter bf = new BinaryFormatter();//    shipid_list = (List<string>)bf.Deserialize(fsReader);//    Console.WriteLine("成功加载" + shipid_list.Count + "个shipid");//}////371652 371668  371681 1252401 //shipid_list.Remove("371652");//shipid_list.Remove("371668");//shipid_list.Remove("371681");//shipid_list.Remove("1252401");////132264//shipid_list.Remove("371077");//shipid_list.Remove("132264");//shipid_list.Remove("224871");//shipid_list.Remove("279923");//shipid_list.Remove("369163");//shipid_list.Remove("266342");//shipid_list.Remove("371216");//shipid_list.Remove("368174");//shipid_list.Remove("369163");foreach (var ship_id in shipid_list){download_jpg(ship_id);}Console.ReadLine(); //让控制台暂停,否则一闪而过了 }}
}

转载于:https://www.cnblogs.com/yutingliuyl/p/6941828.html

用c#编写爬虫在marinetraffic下载船仅仅图片相关推荐

  1. Python爬虫之scrapy下载文件和图片

    Python爬虫之scrapy下载文件和图片 一:pipeline 二:使用scrapy下载图片 2.1 创建scrapy项目 1.2 创建爬虫 1.3 配置文件设置 1.4 编写启动文件 1.5 爬 ...

  2. 【教程】记录:python基础爬虫代码(下载妹子福利图片)

    废话不多说,直接代码复制进去自己观察. 前面import的,就是要安装 re os beautifulsoup 注意在本代码同级下创建一个mm文件夹准备放福利 至于网站,是大神给我的网站,我可是纯洁的 ...

  3. 使用Java编写爬虫,下载百度图片

    因为最近需要很多图片素材做机器训练,所以写一个爬虫来下载百度图片里的一些图片,用作机器学习. 先看看效果图: 实现思路: 根据百度图片的Ajax请求,用Chrome获取到URL,然后通过改变URL参数 ...

  4. Python编曲实践(五):通过编写爬虫来爬取海量MIDI文件,预备构建数据集(附有百度云下载链接)

    前言 由于毕业设计的课题是通过CycleGAN搭建一个音乐风格转换系统,需要大量的音乐文件来训练神经网络,而MIDI文件作为最广泛使用的一种电脑编曲保存媒介,十分容易搜集资源,也有很多成熟的Pytho ...

  5. python爬虫图片实例-【图文详解】python爬虫实战——5分钟做个图片自动下载器...

    我想要(下)的,我现在就要 python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识(没看的赶紧去看)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk ...

  6. python爬虫教程下载-Python爬虫视频教程全集下载

    原标题:Python爬虫视频教程全集下载 Python作为一门高级编程语言,在编程中应用得非常广泛.随着人工智能的发展,python人才的需求更大.当然,这也吸引了很多同学选择自学Python爬虫.P ...

  7. Python—实训day4—爬虫案例3:贴吧图片下载

    6 xpath 首先需要安装Google的Chrome浏览器 6.1 安装xpath插件 把 xpath_helper_2_0_2.crx 修改后缀名为 xpath_helper_2_0_2.rar. ...

  8. Python3 网络爬虫:漫画下载,动态加载、反爬虫这都不叫事

    一.前言 作者:Jack Cui 经过上两篇文章的学习,Python爬虫三步走:发起请求.解析数据.保存数据,已经掌握,算入门爬虫了吗? 不,还远远不够!只掌握这些,还只能算门外汉级别. 今天,就来带 ...

  9. Python爬虫之自动下载图片

    对大佬的图片下载器的小程序很感兴趣,故运行了一下代码块,发现会报类似下图中的Exceeded 30 redirects错. 故重新编写了一个访问函数来实现图片下载功能,不过还是要感谢大佬很有趣的ide ...

最新文章

  1. 2019年安徽省模块七满分多少_二级造价考情分析:20年二级造价考试还有戏吗?...
  2. phpstrom配置svn/git提交
  3. 被解放的姜戈03 所谓伊人
  4. cmake CMakeLists.txt 命令 add_compile_options、add_definitions、target_compile_definitions、build_command
  5. hadoop程序运行
  6. ASP.NET MVC 传值方法ViewData与ViewBag的区别
  7. Node.js入门经典 读书笔记(3)
  8. [Android] AlertDialog获取网上天气并显示各城市天气
  9. 3制造数据集_基于MBD的产品设计制造技术研究
  10. docker容器与宿主拷贝文件
  11. 单基因gsea_这篇3+分核心基因筛选,点个在看,我们复现这篇文章!
  12. php js 终止,使用Server-Sent Events(和Javascript / PHP)的连接会立即停止
  13. NClay框架AOP功能简介
  14. android里图标大小设置在哪里,Android TextView设置图标,调整图标大小
  15. OutMan——C语言中字符串处理函数、内存管理和内存分区
  16. 内网渗透系列:隐匿攻击方法
  17. GitCode上手使用体验
  18. 前端实现“查看更多”效果
  19. ST_Geometry
  20. processon画类图和时序图

热门文章

  1. linux安装下载中文包,linux下安装中文包和字体
  2. 【大总结3】leetcode解题总览(算法、剑指offer、SQL、多线程、shell)
  3. (多线程)leetcode1114. 按序打印 认识AtomicInteger
  4. redis的入门/原理/实战大总结
  5. tcpcopy使用方法
  6. 大数据学习(2-2)- 使用docker安装配置Hadoop环境
  7. Error when loading the SDK:解决方案
  8. 为什么我喜欢单独编程
  9. GPU Saturday技术沙龙:OpenCL程序员眼中的下一代APU架构
  10. 设置 shell 脚本中 echo 显示内容带颜色