菜鸟作品,不喜勿喷

前两年自己花了很久想仿制一款火车头采集器

然后也付出了很多努力,最终未能修成正果

代码一直在电脑中吃灰,本着无私奉献的精神

免费开源,给有需要的人参考和完善

软件功能大部分都已实现

  • 任务新建和编辑
  • 网址采集
  • 标签编辑
  • 数据采集
  • 数据发布
  • 发布配置的修改,编辑和测试
  • 发布模块的修改和编辑

先上一些效果图

运行效果

主窗口

任务窗口

采集内容

网址采集

发布选择

多级网址采集

浏览器获取信息

标签编辑(这个部分耗时比较久)

接下来是发布部分

发布配置

发布模块

发布测试

开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)

5.23
[窗口]主界面布局
[窗口]信息提示窗口
5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善
5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件
5.26
[优化]分组增删改重写,改用sqlite3
5.27
[窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)
5.28
[控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成
5.29
[优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取
5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正
5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)
6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)
6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址
6.4-6.9暂停开发六天
6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成
6.12
-16[辅助]xml生成实体类工具开发
6.17
暂停一天
6.18
[窗口]多页管理实现
6.19
[窗口]标签编辑基本布局
6.20
[新增]标签处理列表读取
6.21-6.22
[优化]部分标签处理编辑
6.24
[优化]除ocr外所有标签读取编辑保存
[优化]固定格式读取,测试 
后面懒得写了
? 分页采集 拼音处理 翻译 开发细节 多页名称禁用 分页\d
2018-07-06
[修复]支持多页保存
[新增]支持新增标签
[优化]新建任务自带标签
[优化]制作启动欢迎页,改用本地文件,避免突然失效

[优化]添加多级网址采集部分的标签存在检测和标签不存在检测
2018-07-07
[修复]规则没有默认值引起的错误
[修复]批量多页导入没有解码
[新增]起始网址支持编辑
2018-07-08
[优化]保存任务时的各种参数赋值
[修复]编辑任务时多级网址不存在而引发的错误
2018-07-09
[新增]支持任务新增和保存
[修复]修复添加标签处理时覆盖旧的处理
[优化]保存最近测试的网址
2018-07-12
[优化]任务编辑界面循环匹配换行功能
[修复]标签不存在引起的错误
[修复]多次保存任务导致的重复编码问题
[修复]单条起始网址无法编辑的问题
[修复]没有多级网址无法获取网址列表的问题
2018-07-15
[新增]循环标签添加为新记录,循环不足第一条记录补齐
[优化]标签编辑中保存文件名,保存目录和系统时间高亮显示
[修复]循环获取和非循环获取同时存在时的逻辑
2018-07-16
[优化]将标签测试代码移植到类中,方便后期调用
[新增]标签下载的各项功能实现
2018-07-17
[新增]下载部分布局
[优化]重写http请求全部代码,实现代理功能
[优化]增加默认页重试
2018-07-18
[新增]增加标签保留字段,禁止用户使用
[优化]重写网址爬取,实现类中爬取网址
[新增]实现列表标签
[新增]实现标签排序
[新增]支持开始任务,结束任务
[新增]支持任务抓取网址
[优化]禁止关闭欢迎窗口
[优化]采集网址进度展示
[优化]开启任务或结束任务时判断是否已存在
2018-07-19至21
[新增]实现数据库转换功能
[优化]支持access,sqlite,mysql,sqlserver
2018-07-25
[新增]实现采集网址,统计网址数量
[新增]实现采集待采集单条内容,录入更新至数据库
[修复]保存任务,任务状态丢失
[修复]标签自动获取内容选项具体配置丢失
[优化]提升控件速度
[修复]多次开始并停止内容时注册多次事件
[优化]每次开始任务时重新读取配置
2018-07-26
[修复]固定标签内容为空
[新增]标签结果检测
[新增]内容多线程采集
2018-07-27
[优化]实现标签的内容过滤(标签不得为空,包含,不得包含,重复检测,长度判断等)
[优化]实现一个网址多条结果的采集并录入数据库
[新增]实现采集完成后提示
2018-10-06
[修复]网址自定义规则存在多个标签时的错误
[优化]保存存在错误时,自动跳转对应界面
[修复]匹配时可能会有多种换行符的问题
[修复]采集网址时支持填写多个标签
[修复]采集网址时自动增减标签 
[新增]增加标签名导出功能
2018-10-09
[新增]支持文件发布
[优化]过滤保存文件时路径或文件名包含特殊字符
[优化]实现发布时进度条
[新增]支持设置发布状态,发布成功自动标注(支持全部成功才标记)
[新增]支持全部标记为已发和未发
2018-10-24
[新增]新增数据发布配置界面布局
2018-11-26
[新增]发布模块配置界面
[新增]支持加载发布模块
[新增]新增点选菜单控件
[优化]代码框支持插入标签
2018-11-27
[优化]支持新增和修改发布模块
[优化]支持带有密码的火车头模块和GAC模块
[优化]发布配置支持读取模块列表,支持点击编辑模块
2018-11-29
[优化]发布配置管理支持读取数据库中的配置
[优化]可以通过微型浏览器获取cookies
[优化]发布配置可以修改和保存
[优化]重写发布配置方面XML操作方式
[优化]重写发布模块的XML读写方式
2018-11-30
[优化]支持编辑和删除发布配置信息
[新增]webpost可测试发布
[新增]支持测试发布模块和配置
[优化]测试标签自动保存,方便下次测试
[优化]登陆后的cookies进行保存
[优化]发布模块支持导入,导出,删除
至此,发布模块编辑,发布配置全部完毕
2018-12-01
[新增]规则编辑支持导入发布模块中的标签
[新增]规则编辑支持添加发布配置,删除,修改配置
2018-12-03
[新增]支持测试页面测试web发布
[优化]修改web发布,迎合通用发布接口,使其可以实现正常发布内容
[修复]列表标签编辑后成为标签的bug
[优化]优化必须包含和不得包含返回结果,迎合测试日志
2018-12-21
[优化]修改采集规则和标签规则迎合插件
[优化]修改下载列表迎合插件
[优化]修改采集迎合插件
2018-12-24
[优化]迎合插件合并网址采集和内容采集
[修复]采集网址列表时,范围不支持(*)的bug
[优化]迎合插件重写采集网址部分
2019-01-07
[修复]多个多级网址,会让列表标签消失
[修复]无法取消插件选择的情况
[优化]迎合插件网址获取结果改为List<KeyValuePair<string, Dictionary<string, string>>>
[修复]采集网址时,不是最后一层也入库的情况
[修复]未勾选采内容依旧采集内容的情况
[修复]列表标签多级继承

最后的最后,代码下载地址

链接: https://pan.baidu.com/s/1oyzO-Cnc_YS23svI9QiFYg 提取码: nu4n

代码未完全完成,测试时发现的bug均已全部修复

由于代码未进行大量测试,可能还存在过多问题,望见解

新手开发,仅供参考

转载于:https://www.cnblogs.com/jianzhan/p/11491918.html

(仿)火车头采集器 源码开源相关推荐

  1. 美女图片采集器 源码+解析

    前言: 有一段时间没写博客了, "持之以恒"徽章都暗了, 实在不该. 前一段确实比较忙, ...小小地给自己的懒找个借口吧. 大二即将结束, 学习iOS也有一段时间了.今天抽点时间 ...

  2. 美女图片采集器 (源码+解析)

    前言: 有一段时间没写博客了, "持之以恒"徽章都暗了, 实在不该. 前一段确实比较忙, ...小小地给自己的懒找个借口吧. 大二即将结束, 学习iOS也有一段时间了.今天抽点时间 ...

  3. 博客论坛自动采集器 - 蓝天采集器源码

    介绍: 博客论坛自动采集器 做一个自动采集文章的网站,在你网站根目录创建一个目录随便我这边是caiji,然后把采集器的源码上传到caiji里面去. 安装:你的域名/caiji访问配置好数据库什么的安装 ...

  4. php网页采集器 源码,PHP采集器的简单示例代码

    复制代码 代码示例: #zs#* * 采集器代码一例 * by www.jbxue.com #fzs# $url = "http://book.sina.com.cn/nzt/lit/zhu ...

  5. 火车头采集php源码不同,防火车头采集的功能

    求一个防火车头采集的功能 快两年没动代码了,最近自己弄了一个站玩. 有些资料老被火车头拖来拖去的. 求一个完整的防火车头采集的功能模块. 自己弄了半天 思路是这样的比如在某一个时间段ip多次请求 就把 ...

  6. 精仿腾讯视频php源码开源免安装版,自动采集

    简介: 精仿腾讯视频源码开源-勇哥资源网分享,自动采集,强大搜索功能,采用PHP实时抓取可用资源,程序运行非常快速,可以快速搭建一个属于自已的电影网站. 安装说明: 请将源码上传主机解压,免安装,自带 ...

  7. PHP仿代下狗源码-素材代下载搜索引擎系统整站打包

    介绍: PHP仿代下狗源码-素材代下载搜索引擎系统多功能/自带火车头采集接口/源码素材付费下载系统/整站打包完美运营版本 缺点:这个用户登录必须对接QQ互联登录,有能力可以自己二开注册登录 1.采用p ...

  8. 火车头采集器双标题插件【完整php源码】

    最近比较流行的一种伪原创方式,火车头采集器双标题插件,功能主要如下: 1.原文标题伪原创,实现标题相关双标题: 2.文章内容伪原创,提高文章的原创度: 3.文章内容摘要提取. 废话就不多说,插件是用p ...

  9. 最全的Android开源音乐播放器源码汇总

    收集了很多音乐播放器类的Android项目源码,非常不错的开源项目,会让你事半功倍,希望大家补充...谢谢! Android基于经纬度切歌的冲绳音乐播放器源码 http://neast.cn/foru ...

最新文章

  1. ppt批量缩略图_拒绝加班系列:100个PPT常用快捷键,让PPT制作快到起飞
  2. php7安装kafka扩展(已经测试)
  3. 小甲鱼 OllyDbg 教程系列 (十五) : 逆向注册机简单算法
  4. 腾讯员工每年写3万行代码;马斯克承认利用摄像头监视车主;Chrome 89上线实时字幕 | 极客头条...
  5. 卖掉 3000 平房子,50 岁程序员回国写代码,三个月内融资 2000 万美元
  6. qq操作技巧 - 网上收集
  7. ask调制流程图_一种基于MATLAB的ASK调制仿真方法
  8. alios是安卓吗_揭秘:阿里云OS和Android的主要区别是什么
  9. 干货 | 节省55%测试时间,携程酒店比对平台介绍
  10. 用python画星空源代码
  11. 两分钟理解RAFT光流中的相关层
  12. WPF绑定(Binding)绑定对象集合修改显示属性问题
  13. win10管理员权限怎么获得_实用技巧:如何在win10中安装没有管理员权限的软件...
  14. 企查查访问超频怎么办_怎样删除企查查的不良信息
  15. osgEarth示例分析——osgearth_eci
  16. 给定n个整数,请统计出每个整数出现的次数,按出现次数从多到少的顺序输出。
  17. Notepad++ 代码格式化插件工具
  18. 获取分钟数为5的倍数的时刻
  19. 宜春高考2021年成绩查询,2021年宜春中考成绩公布查询时间 宜春中考成绩查询方式入口...
  20. Windows服务 FLEXnet Licensing service 64

热门文章

  1. 胡小兔的 高考2019 游记
  2. NC235254 晾衣服
  3. 【技术分享】TestFlight测试的流程文档
  4. [前端开发必备]Sugar-Electron轻量级前端开发框架
  5. js reduce()
  6. 基于java的量化交易软件,用户可自行编写交易策略,用于期货、股票、外汇、炒币等多种交易场景,前端采用node14 + vue2
  7. zip学习笔记 —— 用C编写的简单压缩库
  8. 我TM吹爆 VIM - 安装入门,部署
  9. 解决搜狗输入法ctrl+shift+z 和phpstorm冲突的问题
  10. afe模拟前端的重要性_模拟前端afe的作用