nodejs 30行代码 爬豆瓣电影数据
##用nodejs 写爬虫 关键模块:cheerio、http,request。 consonl.log() 出来的数据
首先安装相关的模块:
//我用了某宝的镜像安装 原来是 npm,-g 可以根据自己情况是全局按装还是局域安装
cnpm install -g jquerycnpm install -g cheeriocnpm install requestcnpm install http
......复制代码
根据你需要用的的模块安装 代码如下:
// 新建一个对象
var MyUtil = function () {
};
// var $ = require('../node_modules/jQuery');
var request = require('request');
// 用于 保存body的html数据
var bodtTemp;
MyUtil.prototype.get=function(url,callback){// console.log("MyUtil.prototype") // 打印request(url, function (error, response, body) {if (!error && response.statusCode == 200) {// console.log(body) // 打印目标页面console.log("request ");// 用临时变量保存起来请求回来的body数据bodtTemp=body;var movie={} // movie.name = $(body).find('span[property="v:itemreviewed"]').text();// movie.director = $(body).find('#info span:nth-child(1) a').text();}})
}
// console.log(movie);
//获取目标网页的数据
var temp = new MyUtil();
var httpUrl='https://movie.douban.com/subject/25921812/?tag=%E7%83%AD%E9%97%A8&from=gaia_video';
// var httpUrl='http://movie.douban.com/subject/1152952';
temp.get(httpUrl);
console.log('bodtTemp is '+bodtTemp);
// 开启自己的http服务器
var http = require('http')
http.createServer(function(req,res){res.writeHead(200,{'Content-Type':'text/html'});// res.write(bodtTemp);let cheerio = require('cheerio')let $ = cheerio.load(bodtTemp)// $('h2.title').text('Hello there!')// $('h2').addClass('welcome')// $('#db-nav-movie .nav-logo a').text("哈哈")// $("#dale_movie_subject_bottom_super_banner_frame").remove();// 移除 id 里面的内容// $("#footer").remove();console.log($('#info').text());// $.html()// console.log($.html());res.write($.html());// res.end('<p>结束</p>');res.end();
}).listen(5858);复制代码
保存为index.js 文件,切换到 你的文件路径,用node 命令打开: 如:
node index.js
复制代码
浏览器打开
http://127.0.0.1:5858/
复制代码
**记得要打开浏览器访问地址才能看到控制台的数据。 ###本文为了更好阅读以及新手可以直接执行,提高新手兴趣,故把所有可执行代码直接放一个文件,详细以及一些测试也有备注。尝试去修改一下要爬的链接以及代码吧,一切都是实践中的出效果。
转载于:https://juejin.im/post/5a3217baf265da4310486603
nodejs 30行代码 爬豆瓣电影数据相关推荐
- python爬取网页汉字_程序小技巧:Python3借助requests类库3行代码爬取网页数据!快来...
爬取网页数据是python很长干的一件事情,不过做起来基本上都是很冗长的一段代码,看起来复杂,不宜理解.今天给大家分享一个小诀窍,利用python3中的requests类库进行爬取网页数据. 我们先看 ...
- Scrapy之10行代码爬下电影天堂全站
欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...
- 爬虫入门,带你用30行代码爬取高清美女写真,附安装包+源码
1.准备工作 1 高清壁纸:https://www.36992.com/girls/list-1.html 2 Python环境 Python3.9新特性: 字典"并集"运算符 类 ...
- html5网易云歌词滚动,30行代码爬取网易云歌词(示例代码)
需求分析: 利用爬虫获取网易云音乐歌曲的歌词,效果如下: 分析:通过官方的歌词API获取歌词,例如:访问https://music.163.com/#/song?id=1417093533 则会跳转到 ...
- 老司机带你30行代码爬糗事百科成人版
学了大概一个月爬虫了,看着人家爬东爬西的,自己也按捺不住终于写好了自己的爬虫,而且是福利哦. 这里我们主要用到了requests库,推荐大家用python 3.0+以上版本. import urlli ...
- 3行代码爬取京东数据
OK-一切准备就绪,let's go
- Python25行代码爬取豆瓣排行榜数据
Python25行代码爬取豆瓣排行榜数据 只需要用到requests, re ,csv 三个库即可. code import re import requests import csv url = ' ...
- python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...
- Java爬取豆瓣电影数据
所用到的技术有Jsoup,HttpClient. Jsoup jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CS ...
最新文章
- iOS - XML 数据解析
- 步步为营 .NET 代码重构学习笔记 九
- 【bzoj2242】[SDOI2011]计算器 EXgcd+BSGS
- tf.nn.embedding_lookup函数的用法
- Mocha BSM基础架构管理——网络设备
- 阿里不让 MySQL 多表 Join ?我偏要!
- VS2017中的附加到进程
- SQLAlchemy()分页器paginate方法
- 图片测量尺寸软件_3D扫描之工件测量检测
- wifi 信道_Win10电脑找不到自家Wifi无线网络解决方法 可能是无线信道问题
- android 拒绝服务漏洞,Android 应用本地拒绝服务漏洞浅析
- 7-1 输入学生姓名,输出问候信息。
- Linux字符设备驱动中container_of宏的作用
- 白板推导系列Pytorch-朴素贝叶斯
- 6.RabbitMQ实战 --- 从故障中恢复
- WebLogic下载地址 各版本
- 对数坐标归一化_数据标准化/归一化方法(Normalization Method)汇总
- Cisco.Packet.Tracer思科模拟器浮动路由讲解(含实例步骤)
- 中国传统四大菜系之:淮扬菜
- 人工智能工程师要具备的5项基本技能