##用nodejs 写爬虫 关键模块:cheerio、http,request。 consonl.log() 出来的数据

首先安装相关的模块:

//我用了某宝的镜像安装     原来是  npm,-g 可以根据自己情况是全局按装还是局域安装
cnpm install -g jquerycnpm install -g cheeriocnpm install requestcnpm install http
......复制代码

根据你需要用的的模块安装 代码如下:


// 新建一个对象
var MyUtil = function () {
};
// var $ = require('../node_modules/jQuery');
var request = require('request');
// 用于 保存body的html数据
var bodtTemp;
MyUtil.prototype.get=function(url,callback){// console.log("MyUtil.prototype") // 打印request(url, function (error, response, body) {if (!error && response.statusCode == 200) {// console.log(body) // 打印目标页面console.log("request ");// 用临时变量保存起来请求回来的body数据bodtTemp=body;var movie={}  // movie.name = $(body).find('span[property="v:itemreviewed"]').text();// movie.director = $(body).find('#info span:nth-child(1) a').text();}})
}
// console.log(movie);
//获取目标网页的数据
var temp = new MyUtil();
var httpUrl='https://movie.douban.com/subject/25921812/?tag=%E7%83%AD%E9%97%A8&from=gaia_video';
// var httpUrl='http://movie.douban.com/subject/1152952';
temp.get(httpUrl);
console.log('bodtTemp is '+bodtTemp);
// 开启自己的http服务器
var http = require('http')
http.createServer(function(req,res){res.writeHead(200,{'Content-Type':'text/html'});// res.write(bodtTemp);let cheerio = require('cheerio')let $ = cheerio.load(bodtTemp)// $('h2.title').text('Hello there!')// $('h2').addClass('welcome')// $('#db-nav-movie .nav-logo a').text("哈哈")// $("#dale_movie_subject_bottom_super_banner_frame").remove();// 移除  id 里面的内容// $("#footer").remove();console.log($('#info').text());// $.html()// console.log($.html());res.write($.html());// res.end('<p>结束</p>');res.end();
}).listen(5858);复制代码

保存为index.js 文件,切换到 你的文件路径,用node 命令打开: 如:

node index.js
复制代码

浏览器打开

http://127.0.0.1:5858/
复制代码

**记得要打开浏览器访问地址才能看到控制台的数据。 ###本文为了更好阅读以及新手可以直接执行,提高新手兴趣,故把所有可执行代码直接放一个文件,详细以及一些测试也有备注。尝试去修改一下要爬的链接以及代码吧,一切都是实践中的出效果。

转载于:https://juejin.im/post/5a3217baf265da4310486603

nodejs 30行代码 爬豆瓣电影数据相关推荐

  1. python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...

    爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...

  2. Scrapy之10行代码爬下电影天堂全站

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...

  3. 爬虫入门,带你用30行代码爬取高清美女写真,附安装包+源码

    1.准备工作 1 高清壁纸:https://www.36992.com/girls/list-1.html 2 Python环境 Python3.9新特性: 字典"并集"运算符 类 ...

  4. html5网易云歌词滚动,30行代码爬取网易云歌词(示例代码)

    需求分析: 利用爬虫获取网易云音乐歌曲的歌词,效果如下: 分析:通过官方的歌词API获取歌词,例如:访问https://music.163.com/#/song?id=1417093533 则会跳转到 ...

  5. 老司机带你30行代码爬糗事百科成人版

    学了大概一个月爬虫了,看着人家爬东爬西的,自己也按捺不住终于写好了自己的爬虫,而且是福利哦. 这里我们主要用到了requests库,推荐大家用python 3.0+以上版本. import urlli ...

  6. 3行代码爬取京东数据

    OK-一切准备就绪,let's go

  7. Python25行代码爬取豆瓣排行榜数据

    Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...

  8. python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据

    这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

  9. Java爬取豆瓣电影数据

    所用到的技术有Jsoup,HttpClient. Jsoup jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CS ...

最新文章

  1. iOS - XML 数据解析
  2. 步步为营 .NET 代码重构学习笔记 九
  3. 【bzoj2242】[SDOI2011]计算器 EXgcd+BSGS
  4. tf.nn.embedding_lookup函数的用法
  5. Mocha BSM基础架构管理——网络设备
  6. 阿里不让 MySQL 多表 Join ?我偏要!
  7. VS2017中的附加到进程
  8. SQLAlchemy()分页器paginate方法
  9. 图片测量尺寸软件_3D扫描之工件测量检测
  10. wifi 信道_Win10电脑找不到自家Wifi无线网络解决方法 可能是无线信道问题
  11. android 拒绝服务漏洞,Android 应用本地拒绝服务漏洞浅析
  12. 7-1 输入学生姓名,输出问候信息。
  13. Linux字符设备驱动中container_of宏的作用
  14. 白板推导系列Pytorch-朴素贝叶斯
  15. 6.RabbitMQ实战 --- 从故障中恢复
  16. WebLogic下载地址 各版本
  17. 对数坐标归一化_数据标准化/归一化方法(Normalization Method)汇总
  18. Cisco.Packet.Tracer思科模拟器浮动路由讲解(含实例步骤)
  19. 中国传统四大菜系之:淮扬菜
  20. 人工智能工程师要具备的5项基本技能

热门文章

  1. Qt之程序发布以及打包成exe安装包
  2. x64 stack walking、调用约定、函数参数识别
  3. 求凸包(两遍扫描,求上下凸包的方法)
  4. Hibernate查询
  5. linux网络编程系列-select和epoll的区别
  6. checkStyle -- 代码风格一致
  7. Indy中判断邮件来源
  8. MYsql 安装后启动服务1067错误
  9. 异步通知实验(信号)
  10. mysql读锁和写锁