辣鸡采集,采集世界上所有辣鸡数据 欢迎大家来采集
辣鸡采集 laji-collect
介绍
辣鸡采集,采集世界上所有辣鸡数据 欢迎大家来采集
基于fesiong万能采集器底层开发
万能采集器
开发语言
golang
官网案例
辣鸡采集
为什么会有这个辣鸡文章采集器
- 市面上有几种采集工具,大多都需要针对不同的网站定制不同的采集规则,才能最终采集到想要的结果。本采集器内置了常用的采集规则,只要添加文章列表连接,就能将内容采集回来。
- 本采集器采用多线程并行采集,可在同一时间采集更多的内容。
- 本采集器只专注于采集文章这一件事,不用来定制采集其他内容,只专心做一件事。
辣鸡文章采集器能采集哪些内容
本采集器可以采集到的的内容有:文章标题、文章关键词、文章描述、文章详情内容、文章作者、文章发布时间、文章浏览量。
什么时候需要使用到辣鸡文章采集器
当我们需要给网站采集文章的时候,本采集器就可以派上用场了,本采集器不需要有人值守,24小时不间断运行,每隔10分钟就会自动遍历一遍采集列表,抓取包含有文章的连接,随时将文字抓取回来,还可以设置自动发布,自动发布到指定文章表中。
辣鸡文章采集器可用在哪里运行
本采集器可用运行在 Windows系统、Mac 系统、Linux系统(Centos、Ubuntu等),可用下载编译好的程序直接执行,也可以下载源码自己编译。
辣鸡文章采集器可用伪原创吗
本采集器暂时还不支持伪原创功能,后期会增加适当的伪原创选项。
如何安装使用
- 下载可执行文件
请从Releases 中根据你的操作系统下载最新版的可执行文件,解压后,然后双击运行可执行文件,在打开的浏览器中的可视化界面,填写数据库信息,完成初始化配置,添加采集源,即可开始采集之旅。
如果你是在服务器端运行,或者程序没有自动打开浏览器,请按命令界面提示,在浏览器输入访问地址,默认的访问地址是 https://127.0.0.1:8088 - 自助编译
先clone代码到本地,本地安装go运行环境,在collector目录下打开cmd/Terminal命令行窗口,执行命。如果你没配置代理的话,还需要新设置go的代理
go env -w GOPROXY=https://goproxy.cn,direct
最后执行下面命令
go mod tidy
go mod vendor
go run main.go
编译结束后,运行编译出来的文件,然后双击运行可执行文件,在打开的浏览器中的可视化界面,填写数据库信息,完成初始化配置,添加采集源,即可开始采集之旅。
开发计划
- 增加可视化添加采集列表连接、查看修改已采集内容操作界面 ✅
- 增加自动发布到远程服务器网站功能 ✅
- 增加关键词自动替换(伪原创的一部分)
- 增加内容自动分段重组功能(待定)
官网微信交流群
协助完善
欢迎有能力有贡献精神的个人或团体参与到本采集器的开发完善工作中来,共同完善采集功能。请fork一个分支,然后在上面修改,修改完了提交pull request合并请求。
版权声明
© echo_yjl_lyc,LycEcho@163.com
Released under the MIT License
辣鸡采集,采集世界上所有辣鸡数据 欢迎大家来采集相关推荐
- 世界上十大数据中心,全球数字经济顶梁柱
信息与计算机科学设计未来·创造世界 我们站在人类知识的最前沿,人类对未知世界的了解从我们脚下延伸. 正文部分 1.Citadel 大型数据中心供应商Switch拥有全球最大的数据中心,即Citadel ...
- python采集最新世界大学排名, 来看看你的母校上榜没~
前言 大家早好.午好.晚好吖 ❤ ~ 本次内容: Python 采集世界大学排行榜 并做数据可视化 知识点: 动态数据抓包 requests发送请求 结构化+非结构化数据解析 开发环境: python ...
- 拼多多商品详情采集上传京东店铺(拼多多商品详情接口,京东商品详情接口,拼多多整店宝贝采集接口,一键采集拼多多宝贝详情接口,无货源商品详情采集接口)代码对接教程
拼多多商品详情采集上传京东店铺(拼多多商品详情接口,京东商品详情接口,拼多多整店宝贝采集接口,一键采集拼多多宝贝详情接口,无货源商品详情采集接口)代码对接教程如下: 1.公共参数 名称 类型 必须 描 ...
- 如何使用VB批量采集指定网站上的图片文件以及网页内文字等资源素材
做自媒体的,可能需要到采集网络上的图片及文章等素材,手动一张张去右键下载效率当然太低 了.还有的朋友不喜欢动脑筋,喜欢到网上搜索一些工作总结啊,或是看小说啊那些文字看得到复制不了,要是能有个小工具来帮 ...
- Flume04:【案例】使用Flume采集文件内容上传至HDFS
案例:采集文件内容上传至HDFS 接下来我们来看一个工作中的典型案例: 采集文件内容上传至HDFS 需求:采集目录中已有的文件内容,存储到HDFS 分析:source是要基于目录的,channel建议 ...
- 利用QGIS采集卫星图上的建筑并转成矢量数据
利用QGIS采集卫星图上的建筑并转成矢量数据 安装两个插件:Magic Wand,Rectanglify Magic Wand用来采集矢量数据 Rectanglify用来修正矢量数据 在QGIS中搜索 ...
- 用Visual Studio Code Debug世界上最好的语言
前言 这阵子因缘巧合接手了一个辣鸡项目,是用世界上最好的拍黄片写的,项目基本是另一个小伙伴在撸码,我就兼职打杂和发布做点运维的工作. 然后昨天项目上了测试版之后,一用起来Error满天飞了.让小伙伴查 ...
- 大数据“矿工” 世界上最艰辛的IT人
矿工,应该是这个世界上最辛苦的工人!这让笔者不经联想到,一个月以前,在风风火火的"2016贵阳数博会"上,总理又给中国市场指出了一块新"矿源"--大数据. 大数 ...
- 大数据“下田”,未来农业将成为世界上最重要的产业之一
罗德尼·席林(RodneySchilling)是美国伊利诺伊州的一个农场主,他和父亲二人经营着1300英亩(约7900亩)田地.他的父亲已经83岁了,地里的活儿全靠席林自己上阵,即便在农忙时节,他也不 ...
最新文章
- 利用ngxtop实时监控nginx的访问情况
- java 文件引用路径_JAVA项目引用文件路径问题
- Unity 3D 离线协议
- 成功创业者必须具备的9个特质
- OpenGL编程指南7:视图-
- HTML+CSS+JavaScript复习笔记持更(十)——CSS3常用属性之定位
- Mycat - 数据库分库分表中间件,国内最活跃的、性能最好的开源数据库中间件
- 动态规划:从新手到专家
- Perl文档操作选项
- eclipse启动tomcat 404
- 26个适用于VMware管理员的强大工具,收藏了!
- 关于数据属性特性configurable设置为false后的限制
- 面空间数据中网格索引和四叉树索引的结合及优化的一种方案
- 基于java电子病历管理系统设计与实现
- 宝马 android手机同步,BMW将发布无线安卓互联系统,CarPlay终于不再一家独大!
- 嵌入式软件工程师学习路线
- 计算机博士差国际期刊能申请答辩吗,博士生申请答辩注意事项
- Windows 7 利用电脑自带工具定时开关和重启方法
- 腾讯云图 数据源 api
- python中repr_Python中的repr()函数
热门文章
- 进入游戏后如何回到计算机界面,玩LOL胜利后点击“继续游戏”要等个将近10秒才能回到结算界面,请问是怎么回事?...
- 定积分的计算(换元法)
- 教育行业又一个黄金赛道,B端教育市场为何吸引互联网企业争抢?
- 用windows自带功能轻松建立自己的FTP网站
- php中用unset报错,慎用PHP的unset、array_unique方法
- Win10批处理宽带管理
- linux git clone 指定分支
- IBM誓打翻身仗 Watson多项商用落地
- html下拉框怎么设置默认值,html下拉框怎么设置默认值-excel默认值,excel下拉框怎么设置默认值...
- ×××短信的梦,以及罗永浩野心和局限