一、源文件包含4个部分

1.使用说明文档.rar

2.小说源文件.rar

3.cli.rar

4.cmder_mini.zip

如下:

其中cli.rar文件如下

php文件是源码文件

二、系统的安装与使用

系统的安装

1.小说源文件.rar 解压后 上传到网站根目录下,或者在 本地 搭建网站服务器也可以,通过 域名+页面文件 可以打开 页面即可(建议在本地配置,方便测试研究),如 下图所示

2.cli.rar解压后放到指定的位置,如 E盘的 cli文件夹下,如下图:

其中文件夹sound下包括两个文件:cmdmp3win.exe , play.mp3 ,主要作用是在下载完成时播放提示声音.

系统的使用

1.打开 Cmder.exe ,用dos命令进入到 E:\cli ,如图:

2.执行命令 php xiaoshuo.php go ,如图:

温馨提法:使用 php 命令,需要 在 系统的 “环境变量” 中 配置,同时 要求 PHP 版本 5.6 或以上版本 ,如 下图所示

3.系统任务完成时,会有 声音提示,在 生成的 data 文件夹内有 生成的缓存文件 cache.php , 日期命名的 log 日志文件 以及 刚刚下载 的 小说   ,如图:

执行结果

缓存文件 cache.php

运行日志 log 文件

下载 的 小说文件

三、代码讲解

1.代码有详细的解析,如下图

2.系统参数的配置与定义,如下图

PATH_DATA : 数据存放的主要目录

PATH_HTML :当 isHtml 为 true 时,在 PATH_HTML 生成 html的文件

PATH_SOUND : 下载完成时 需要 播放的 提示 声音路径

isHtml : 当 isHtml 为 true 时,在 PATH_HTML 生成 html的文件

idOpenCurl : 当 idOpenCurl 为 true 时,启动多线程 下载 ,最多可同时处理 maxNum 条 数据

isOpenLog : 当 isOpenLog 为 true 时,在 PATH_DATA 下 生成 日志文件

isAutoCloseWin : 当 isAutoCloseWin 为 true 时,下载完成后自动关机

isTest : 当 isTest 为 true 时,说明当前环境为 测试 ,测试的数据 最多 为 testNum 条

testNum :  当 isTest 为 true 时,该参数有效

maxNum : 当 idOpenCurl 为 true 时,该参数有效

WebRoot : 当前 域名 ,如 http://www.abc.com , 不以 “/” 结尾

PageList : 小说目录列表页

3.部分代码详细说明

1.用 function list() 读取列表页,生成下载目录 cache.php

缓存文件 cache.php

用到的对应的方法函数function list()

四、php cli能做什么事情?

1.CLI模式其实就是命令行运行模式,英文全称Command-Line Interface(命令行接口)

2.由于 PHP-CLI 的最大执行时间是没有限制的(the maximum execution time is unlimited for CLI scripts),不像 Web 脚本默认最多只能执行30秒,所以用 PHP-CLI 脚本来维护系统是很合适的。

3.PHP CLI模式开发不需要任何一种Web服务器(包括Apache或MS IIS等),这样,CLI可以运行在各种场合。

五、疑问与答疑

1.系统运行过程有乱码,如何解决?

答:请保持文件编码的统一性。如 远程返回的 html 是 gbk 编码,那么 xiaoshuo.php 请转换为 gbk 编码 , dos 命令窗口 也 转换为 gbk 编码

2.为什么不直接使用互联网上小说网站做案例 还 需要 自己配置站点上传测试网页文件?

1.爬虫多线程运行是很耗损网络带宽资源的行为,使用不当会造成服务器崩溃,给他人造成不便。

2.爬虫对数据的读取有严格要求,哪些能爬哪些不能爬取,自己要心中有数,要用道德行为准则来约束自己。

php爬虫小说网站源码,基于php的cli模式小说爬虫案例相关推荐

  1. 爱看小说手机网源码全站带3w数据带采集,ThinkPHP内核小说网站源码带听书等全部插件

    源码介绍 会员分享的一款自带2w数据爱看小说网源码全站带数据打包,ThinkPHP内核小说网站源码带听书等全部插件 还带了采集规则,采集是没问题的但是不保证时效,早下载早采集!! 喜欢的拿去研究学习吧 ...

  2. PHP自适应小说网站源码深度SEO优化自动采集

    深度SEO优化自动采集PHP自适应小说网站源码,此源码是深度SEO优化自动采集的新版本,小说不占内存,存个上万小说不成问题. 记住采集以后的文章需要处理文章信息,至于自动采集我没去细细研究,跟前面的版 ...

  3. 织梦dedecms小说网站源码|带采集+搭建方式

    介绍: 织梦dedecms小说网站源码,带全自动采集功能. 此套源码某宝买的,东西全套! 源码文件夹带部署搭建教程, 与普通织梦安装方法几乎一致,另外有专门的官方教程,非常详细. 网盘下载地址: ht ...

  4. 最新轻量级精简风小说网站源码+支持WAP端

    正文: PHP语言开发的超精简风格的全站自适应的小说网站源码,体积超小,压缩包仅几十K,正则爬取笔趣阁的. 站点配置include/config.php文件内,特别小巧的源码,有兴趣的自行去体验吧. ...

  5. DEDE单本小说网站源码[无错版]

    DEDE单本小说网站源码  PHP单本小说源码无错版 这是2013-9-17最新更新的DEDE单本小说网站源码,本人手动用PHP写的,绝对不是广告 今天给大家分享织梦DEDE单本小说网站,最近好多人貌 ...

  6. 自动采集的网站源码-自动采集发布的电影小说新闻网站程序源码

    自动采集网站源码,有不少SEO的同伴们都在找可以自动采集网站源码,但是这种源码真的好吗?首先可以自动采集的网站源码程序,规则也是别人写好的,采集的内容也是别人用过的,对于网站收录肯定不是那么友好.我们 ...

  7. 公众号TP小说网站源码(含数据库脚本)

    绿色大气环保科技通用企业公司网站源码,测试完整无错,兼容主流浏览器. 模板包含安装说明,并包含测试数据. 织梦cms通用蓝白简介大气企业网站环保科技公司源码(带数据),企业通用型的整站源码对于一般企业 ...

  8. thinkphp手机版小说网站源码

    php源码说明: 本源码是基于帝国CMS7.2版本开发,UTF-8编码.测试发现,自带测试数据没有内容,而且模板有很多错误,如果没能力修复建议就别下载了.分享出来主要给大家可以学习下里面的某些代码. ...

  9. 狂雨CMS小说网站源码 附一套pc模板和两套手机模板(白色,蓝色)

    介绍: 系统要求: PHP要求5.6版本以上,低于5.6版本无法运行 支持php7 addons,application,config,extend,public,runtime,template,u ...

最新文章

  1. showModalDialog关闭子窗口,并刷新父窗口
  2. Matlab中mat2cell的使用
  3. 人类历史上最伟大的物理学家
  4. arcore之路-unity开发从入门到实践_Unity游戏开发——单例模式的最佳实践
  5. ASP.NET MVC4中用 BundleCollection
  6. DataGuard常用命令及DG主备库开关顺序
  7. 从文件夹中批量抽取(复制or剪切)文件 批处理脚本
  8. 机器学习第二回——多变量线性回归
  9. java中的强制类型转换注意事项_浅谈Java中强制类型转换的问题
  10. 黑帽大会:苹果网络服务器比微软易入侵
  11. Bailian4014 字符串加密【密码】
  12. Word插入插图清单目录、附表清单目录
  13. 14.Java实现UDP通信
  14. window10运行不了1stopt_1stopt软件到底性能怎样?
  15. 微信/QQ/TIM消息防撤回最新补丁
  16. Best practices for a new Go developer
  17. 腾讯云自建k8s对接文件存储CFS
  18. 最小链覆盖——Dilworth定理
  19. 根据UI图设计的大小换算REM单位以及大屏页面全屏展示
  20. 从苏宁电器到卡巴斯基第21篇:单证这一年(上)

热门文章

  1. sklearn 中的评分
  2. 关于pr出现a low-level exception occrred in 文本(AE...)导致字幕无法输入文字的解决办法
  3. 通过js下载图片或文件
  4. 技术前沿与经典文章17:历史上54位伟大物理学家、科学家的专属LOGO(三)
  5. win10系统MongoDB 4.0安装配置记录
  6. 《android开发艺术探索》笔记之Bitmap的加载和Cache
  7. “30以上不配转行”:大龄转行,还来得及吗?
  8. 小学生日记-excel:考勤表加班统计
  9. 基于 MaxCompute 的大数据安全方案
  10. 2021年机械员-通用基础(机械员)考试总结及机械员-通用基础(机械员)复审考试