Node_初步了解(4)小爬虫
1 var http=require('http'); 2 var cheerio=require('cheerio'); 3 var url='http://www.cnblogs.com/Lwd-linux/archive/2017/01.html'; 4 5 //获取 6 function filterChapters(html){ 7 var $=cheerio.load(html); 8 9 var chapters=$('.entrylistItem'); 10 11 var courseData=[]; 12 chapters.each(function(){ 13 var chapter=$(this); 14 var chapterTitle=chapter.find('.entrylistItemTitle').text(); 15 var summary=chapter.find('.c_b_p_desc').text(); 16 var chapterData={ 17 chapterTitle:chapterTitle, 18 summary:summary 19 }; 20 courseData.push(chapterData); 21 }) 22 23 24 return courseData; 25 } 26 //打印 27 function printCourseInfo(courseData){ 28 courseData.forEach(function(item){ 29 var chapterTitle=item.chapterTitle; 30 console.log(chapterTitle+'\n'); 31 var summary=item.summary; 32 console.log(summary+'\n'); 33 }) 34 } 35 36 37 http.get(url,function(res){ 38 var html=''; 39 40 res.on('data',function(data){ 41 html+=data; 42 }) 43 44 res.on('end',function(){ 45 var courseData=filterChapters(html); 46 printCourseInfo(courseData); 47 }).on('error',function(){ 48 console.log('获取数据出错!'); 49 }) 50 })
转载于:https://www.cnblogs.com/LinSL/p/7199429.html
Node_初步了解(4)小爬虫相关推荐
- 微信小程序(一)初步,包括(初步了解微信小程序,小程序项目结构,小程序宿主环境,发布与上线等)
文章目录 前言 一 微信小程序 1. 小程序与普通网页开发的区别 2. 注册小程序开发帐号 3. 安装开发者工具 4. 创建小程序项目 5. 查看项目效果 6. 主界面的 5 个组成部分 二 项目结构 ...
- Node.js可能是最适合写简易小爬虫的语言,速度极快、代码极少
"凡是能用JS 写出来的,最终都会用JS 写",这是一个非常著名的定律,用在爬虫这里再合适不过了. 一说到爬虫很多人都会想到python,的确,python语法简洁,还有scrap ...
- python小爬虫之天气查询
python小爬虫之天气查询 刚开始研究爬虫,这个小程序通过抓取网页源代码,使用json解析实现了天气的查询. 1.需求分析 该博客实现了简单的天气查询功能,输入城市名称后可以查询出该城市的天气情况. ...
- python简单的爬虫教程中召唤小海龟_Python练习,网络小爬虫(初级)
标签: 最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 ...
- 第一个python爬虫_Python爬虫01——第一个小爬虫
Python小爬虫--贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...
- python小爬虫—获取学校教务处成绩
开始想自己计算一下绩点,所以第一个小爬虫就从抓取自己成绩开始 1.工具: chrome浏览器 vscode 2.先来分析一下学校教务处成绩管理系统的结构,用的竟然是frame标签!!首先是一个输入学号 ...
- 简单完整的Python小爬虫教程
作者:vinyyu 声明:版权所有,转载请注明出处,谢谢. 1 调入需要使用的库 time库用于每次获取页面的时间间隔:pandas库用于DataFrame的数据格式存储:requests用于爬虫获取 ...
- 一个爬取沪深两市融资融券标的融资融券交易数据的小爬虫
1.学习初衷 本着紧跟时代进步步伐,坚决不拖社会主义建设后腿的想法,紧赶大数据.数据分析.机器学习的趋势......当然,前面只是瞎扯了. 最后我综合考虑R跟Python,最终还是选择走上了pytho ...
- 第一只python小爬虫
前言: 互联网就像一张无形的蜘蛛网,网站就相当于在这张网的交叉结点.而网络爬虫就是这张网上的蜘蛛,它是一种程序,能够利用url链接在各网站之间自动穿梭并抓取所需数据. 学了python的正则表达式之后 ...
- 小爬虫爬取小猫咪图片并存入本地文件夹
小爬虫爬取小猫咪图片并存入本地文件夹 本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...
最新文章
- UA PHYS515 电磁理论II 静电场问题2 电荷与静电场的几何: Green函数法的物理背景
- AB1601继电器干扰问题
- 【Centos7】安装memcached
- 限制nginx仅能域名访问,不可用ip访问
- H3C的DHCP中继配置命令
- 一文讲透数仓临时表的用法
- 商户管理后台/消费统计管理/云平台商户端管理后台原型/PaaS金融服务平台商户端管理后台原型/企业管理系统后台/账户管理/工单管理/充值管理/汇款单管理/余额管理/用户管理/认证管理/web后台原型
- 05-简单的输入输出
- 012的悲剧终于预言了
- 在线答题小程序一站式开发(现源码)
- Nginx学习笔记(七)——配置Nginx实现Gzip网页压缩、图片压缩
- 原生js实现canvas粒子特效
- iris学习踩坑之旅
- 浅谈可带病投保的“税优险”
- MSP430 G2553 单片机 口袋板 日历 时钟 闹钟 万年历 电子时钟 秒表显示
- 解决华为手机InputMethodManager和GestureBoostManager的内存泄露的问题
- OA与BPM究竟有啥区别
- 大学毕业论文写作技巧干货(毕业论文写作中的Word实用技巧)
- 山东大学计算机组成与设计实验六 二进制补码加法器实验
- 用java编写斗兽棋2之规则与走法
热门文章
- 深入理解Java的整型类型:如何实现2+2=5?
- S/4HANA for Customer Management里的搜索分页处理 1
- html3d旋转发光立方体,纯css3实现的3D立体动态旋转立方体特效
- Windows设置HTML,windows怎么添加静态路由
- 服务器装win10系统文档,Win10系统安装远程服务器管理的技巧
- python工作不好找吗_如何更好的找到 Python 工作?
- android tv market,安卓市场TV版
- mac securecrt程序无响应_终端仿真软件SecureCRT和Xshell,让运维工作更轻松
- 二叉树展开为链表Python解法
- 判断图有无环_【转】判断一个图是否有环 无向图 有向图