php爬虫小说网站源码,基于php的cli模式小说爬虫案例
一、源文件包含4个部分
1.使用说明文档.rar
2.小说源文件.rar
3.cli.rar
4.cmder_mini.zip
如下:
其中cli.rar文件如下
php文件是源码文件
二、系统的安装与使用
系统的安装
1.小说源文件.rar 解压后 上传到网站根目录下,或者在 本地 搭建网站服务器也可以,通过 域名+页面文件 可以打开 页面即可(建议在本地配置,方便测试研究),如 下图所示
2.cli.rar解压后放到指定的位置,如 E盘的 cli文件夹下,如下图:
其中文件夹sound下包括两个文件:cmdmp3win.exe , play.mp3 ,主要作用是在下载完成时播放提示声音.
系统的使用
1.打开 Cmder.exe ,用dos命令进入到 E:\cli ,如图:
2.执行命令 php xiaoshuo.php go ,如图:
温馨提法:使用 php 命令,需要 在 系统的 “环境变量” 中 配置,同时 要求 PHP 版本 5.6 或以上版本 ,如 下图所示
3.系统任务完成时,会有 声音提示,在 生成的 data 文件夹内有 生成的缓存文件 cache.php , 日期命名的 log 日志文件 以及 刚刚下载 的 小说 ,如图:
执行结果
缓存文件 cache.php
运行日志 log 文件
下载 的 小说文件
三、代码讲解
1.代码有详细的解析,如下图
2.系统参数的配置与定义,如下图
PATH_DATA : 数据存放的主要目录
PATH_HTML :当 isHtml 为 true 时,在 PATH_HTML 生成 html的文件
PATH_SOUND : 下载完成时 需要 播放的 提示 声音路径
isHtml : 当 isHtml 为 true 时,在 PATH_HTML 生成 html的文件
idOpenCurl : 当 idOpenCurl 为 true 时,启动多线程 下载 ,最多可同时处理 maxNum 条 数据
isOpenLog : 当 isOpenLog 为 true 时,在 PATH_DATA 下 生成 日志文件
isAutoCloseWin : 当 isAutoCloseWin 为 true 时,下载完成后自动关机
isTest : 当 isTest 为 true 时,说明当前环境为 测试 ,测试的数据 最多 为 testNum 条
testNum : 当 isTest 为 true 时,该参数有效
maxNum : 当 idOpenCurl 为 true 时,该参数有效
WebRoot : 当前 域名 ,如 http://www.abc.com , 不以 “/” 结尾
PageList : 小说目录列表页
3.部分代码详细说明
1.用 function list() 读取列表页,生成下载目录 cache.php
缓存文件 cache.php
用到的对应的方法函数function list()
四、php cli能做什么事情?
1.CLI模式其实就是命令行运行模式,英文全称Command-Line Interface(命令行接口)
2.由于 PHP-CLI 的最大执行时间是没有限制的(the maximum execution time is unlimited for CLI scripts),不像 Web 脚本默认最多只能执行30秒,所以用 PHP-CLI 脚本来维护系统是很合适的。
3.PHP CLI模式开发不需要任何一种Web服务器(包括Apache或MS IIS等),这样,CLI可以运行在各种场合。
五、疑问与答疑
1.系统运行过程有乱码,如何解决?
答:请保持文件编码的统一性。如 远程返回的 html 是 gbk 编码,那么 xiaoshuo.php 请转换为 gbk 编码 , dos 命令窗口 也 转换为 gbk 编码
2.为什么不直接使用互联网上小说网站做案例 还 需要 自己配置站点上传测试网页文件?
1.爬虫多线程运行是很耗损网络带宽资源的行为,使用不当会造成服务器崩溃,给他人造成不便。
2.爬虫对数据的读取有严格要求,哪些能爬哪些不能爬取,自己要心中有数,要用道德行为准则来约束自己。
php爬虫小说网站源码,基于php的cli模式小说爬虫案例相关推荐
- 爱看小说手机网源码全站带3w数据带采集,ThinkPHP内核小说网站源码带听书等全部插件
源码介绍 会员分享的一款自带2w数据爱看小说网源码全站带数据打包,ThinkPHP内核小说网站源码带听书等全部插件 还带了采集规则,采集是没问题的但是不保证时效,早下载早采集!! 喜欢的拿去研究学习吧 ...
- PHP自适应小说网站源码深度SEO优化自动采集
深度SEO优化自动采集PHP自适应小说网站源码,此源码是深度SEO优化自动采集的新版本,小说不占内存,存个上万小说不成问题. 记住采集以后的文章需要处理文章信息,至于自动采集我没去细细研究,跟前面的版 ...
- 织梦dedecms小说网站源码|带采集+搭建方式
介绍: 织梦dedecms小说网站源码,带全自动采集功能. 此套源码某宝买的,东西全套! 源码文件夹带部署搭建教程, 与普通织梦安装方法几乎一致,另外有专门的官方教程,非常详细. 网盘下载地址: ht ...
- 最新轻量级精简风小说网站源码+支持WAP端
正文: PHP语言开发的超精简风格的全站自适应的小说网站源码,体积超小,压缩包仅几十K,正则爬取笔趣阁的. 站点配置include/config.php文件内,特别小巧的源码,有兴趣的自行去体验吧. ...
- DEDE单本小说网站源码[无错版]
DEDE单本小说网站源码 PHP单本小说源码无错版 这是2013-9-17最新更新的DEDE单本小说网站源码,本人手动用PHP写的,绝对不是广告 今天给大家分享织梦DEDE单本小说网站,最近好多人貌 ...
- 自动采集的网站源码-自动采集发布的电影小说新闻网站程序源码
自动采集网站源码,有不少SEO的同伴们都在找可以自动采集网站源码,但是这种源码真的好吗?首先可以自动采集的网站源码程序,规则也是别人写好的,采集的内容也是别人用过的,对于网站收录肯定不是那么友好.我们 ...
- 公众号TP小说网站源码(含数据库脚本)
绿色大气环保科技通用企业公司网站源码,测试完整无错,兼容主流浏览器. 模板包含安装说明,并包含测试数据. 织梦cms通用蓝白简介大气企业网站环保科技公司源码(带数据),企业通用型的整站源码对于一般企业 ...
- thinkphp手机版小说网站源码
php源码说明: 本源码是基于帝国CMS7.2版本开发,UTF-8编码.测试发现,自带测试数据没有内容,而且模板有很多错误,如果没能力修复建议就别下载了.分享出来主要给大家可以学习下里面的某些代码. ...
- 狂雨CMS小说网站源码 附一套pc模板和两套手机模板(白色,蓝色)
介绍: 系统要求: PHP要求5.6版本以上,低于5.6版本无法运行 支持php7 addons,application,config,extend,public,runtime,template,u ...
最新文章
- showModalDialog关闭子窗口,并刷新父窗口
- Matlab中mat2cell的使用
- 人类历史上最伟大的物理学家
- arcore之路-unity开发从入门到实践_Unity游戏开发——单例模式的最佳实践
- ASP.NET MVC4中用 BundleCollection
- DataGuard常用命令及DG主备库开关顺序
- 从文件夹中批量抽取(复制or剪切)文件 批处理脚本
- 机器学习第二回——多变量线性回归
- java中的强制类型转换注意事项_浅谈Java中强制类型转换的问题
- 黑帽大会:苹果网络服务器比微软易入侵
- Bailian4014 字符串加密【密码】
- Word插入插图清单目录、附表清单目录
- 14.Java实现UDP通信
- window10运行不了1stopt_1stopt软件到底性能怎样?
- 微信/QQ/TIM消息防撤回最新补丁
- Best practices for a new Go developer
- 腾讯云自建k8s对接文件存储CFS
- 最小链覆盖——Dilworth定理
- 根据UI图设计的大小换算REM单位以及大屏页面全屏展示
- 从苏宁电器到卡巴斯基第21篇:单证这一年(上)
热门文章
- sklearn 中的评分
- 关于pr出现a low-level exception occrred in 文本(AE...)导致字幕无法输入文字的解决办法
- 通过js下载图片或文件
- 技术前沿与经典文章17:历史上54位伟大物理学家、科学家的专属LOGO(三)
- win10系统MongoDB 4.0安装配置记录
- 《android开发艺术探索》笔记之Bitmap的加载和Cache
- “30以上不配转行”:大龄转行,还来得及吗?
- 小学生日记-excel:考勤表加班统计
- 基于 MaxCompute 的大数据安全方案
- 2021年机械员-通用基础(机械员)考试总结及机械员-通用基础(机械员)复审考试