基于爬虫爬取的数据,完成数据展示网站
文章目录
- 前言
- 一、列表 分页
- 二、注册 登录
- 三、查询支持布尔表达式
- 四、图表
- 五、入口创建
- 总结
前言
学期进入尾声 web编程课程迎来了期末大作业 作业要求如下:
爬虫数据:利用Nodejs实现爬虫_zhangXX77的博客-CSDN博客_node 爬虫库
大作业整体:
其中routes存放所有路由文件,参照Node.js Express 路由文件分类 - 歪头儿在帝都 - 博客园
users.js为index.html路由代码(登录 注册)
news.js为news.html路由代码(查询 图表)
public存放所有前端静态资源
index.html 为登录界面
news.html为登录后跳转页面
search.html为布尔查询页面
使用的图像images,美化网页样式的stylesheets文件夹css文件 前端html等存放
一、列表 分页
如图所示 在我们爬取数据 在网页进行展示时 是一种混乱的状态
这里首先用express脚手架 创建网页构架
参考博客:express-generator脚手架的使用_Zmikoo成长之路的博客-CSDN博客
以及分页:在news.js文件中
// 分页$scope.initPageSort=function(item){$scope.pageSize=5; //每页显示的数据量,可以随意更改$scope.selPage = 1;$scope.data = item;$scope.pages = Math.ceil($scope.data.length / $scope.pageSize); //分页数$scope.pageList = [];//最多显示5页,后面6页之后不会全部列出页码来$scope.index = 1;// var page = 1;// for (var i = page; i < $scope.pages+1 && i < page+5; i++) {// $scope.pageList.push(i);// }var len = $scope.pages> 5 ? 5:$scope.pages;$scope.pageList = Array.from({length: len}, (x,i) => i+1);//设置表格数据源(分页)$scope.items = $scope.data.slice(0, $scope.pageSize);};//打印当前选中页$scope.selectPage = function (page) {//不能小于1大于最大(第一页不会有前一页,最后一页不会有后一页)if (page < 1 || page > $scope.pages) return;//最多显示分页数5,开始分页转换var pageList = [];if(page>2){for (var i = page-2; i <= $scope.pages && i < page+3; i++) {pageList.push(i);}}else {for (var i = page; i <= $scope.pages && i < page+5; i++) {pageList.push(i);}}$scope.index =(page-1)*$scope.pageSize+1;$scope.pageList = pageList;$scope.selPage = page;$scope.items = $scope.data.slice(($scope.pageSize * (page - 1)), (page * $scope.pageSize));//通过当前页数筛选出表格当前显示数据console.log("选择的页:" + page);};//设置当前选中页样式$scope.isActivePage = function (page) {return $scope.selPage == page;};//上一页$scope.Previous = function () {$scope.selectPage($scope.selPage - 1);};//下一页$scope.Next = function () {$scope.selectPage($scope.selPage + 1);};$scope.searchsortASC = function () {$scope.sorttime = '1';$scope.search();};$scope.searchsortDESC = function () {$scope.sorttime = '2';$scope.search();};
二、注册 登录
在数据库中建两张表 存储用户信息和记录用户的登陆,查询(具体查询语句)操作
配置数据库 对myspl进行定义确认
文件位置:
module.exports = {mysql: {host: 'localhost',//本地数据库user: 'root',password: 'root',//数据库密码database:'crawl',//使用的database// 最大连接数,默认为10connectionLimit: 10}
};//数据库
前端 index.html登录界面
<!DOCTYPE html>
<html ng-app="login">
<head><meta charset="utf-8" /><title>Login</title><link rel="stylesheet" href="http://cdn.bootcss.com/bootstrap/3.3.0/css/bootstrap.min.css"><script src="https://cdn.staticfile.org/jquery/3.2.1/jquery.min.js"></script><script src="https://cdn.staticfile.org/popper.js/1.12.5/umd/popper.min.js"></script><script src="https://cdn.staticfile.org/twitter-bootstrap/4.1.0/js/bootstrap.min.js"></script>
<!-- <script src="../node_modules/angular/angular.min.js"></script>--><script src="/angular/angular.min.js"></script><!-- 引入自己的样式与js--><link rel="stylesheet" type="text/css" href="stylesheets/index.css"><script type="text/javascript" src="javascripts/index.js"></script><script>var app = angular.module('login', []);app.controller('loginCtrl', function ($scope, $http, $timeout) {// 登录时,检查用户输入的账户密码是否与数据库中的一致$scope.check_pwd = function () {var data = JSON.stringify({username: $scope.username,password: $scope.password});$http.post("/users/login", data).then(function (res) {if(res.data.msg=='ok') {window.location.href='/news.html';}else{$scope.msg=res.data.msg;}},function (err) {$scope.msg = err.data;});};//增加注册用户$scope.doAdd = function () {// 检查用户注册时,输入的两次密码是否一致if($scope.add_password!==$scope.confirm_password){// $timeout(function () {// $scope.msg = '两次密码不一致!';// },100);$scope.msg = '两次密码不一致!';}else {var data = JSON.stringify({username: $scope.add_username,password: $scope.add_password});$http.post("/users/register", data).then(function (res) {if(res.data.msg=='成功注册!请登录') {$scope.msg=res.data.msg;$timeout(function () {window.location.href='index.html';},2000);} else {$scope.msg = res.data.msg;}}, function (err) {$scope.msg = err.data;});}};});</script>
</head>
<body>
<div class="container" ng-controller="loginCtrl"><div class="row"><div class="col-md-6 col-md-offset-3"><div class="panel panel-login"><div class="panel-heading"><div class="row"><div class="col-xs-6"><a href="#" class="active" id="login-form-link">Login</a></div><div class="col-xs-6"><a href="#" id="register-form-link">Register</a></div></div><hr></div><div class="panel-body"><div class="row"><div class="col-lg-12"><form id="login-form" method="post" role="form" style="display: block;">
<!-- 登陆部分--><div class="form-group"><input ng-model="username" tabindex="1" class="form-control" placeholder="Username" value=""/></div><div class="form-group"><input type="password" ng-model="password" tabindex="2" class="form-control" placeholder="Password"></div>
<!-- <div class="form-group text-center">-->
<!-- <input type="checkbox" tabindex="3" class="" name="remember" id="remember">-->
<!-- <label for="remember"> Remember Me</label>-->
<!-- </div>--><div class="form-group"><div class="row"><div class="col-sm-6 col-sm-offset-3"><button id="login-submit" tabindex="4" class="form-control btn btn-login" ng-click="check_pwd()">LOG IN</button></div></div></div></form><form id="register-form" method="post" role="form" style="display: none;"><div class="form-group"><input ng-model="add_username" tabindex="1" class="form-control" placeholder="Username" value=""/></div><div class="form-group"><input type="password" ng-model="add_password" tabindex="2" class="form-control" placeholder="Password"></div><div class="form-group"><input type="password" ng-model="confirm_password" tabindex="2" class="form-control" placeholder="Confirm Password"></div><div class="form-group"><div class="row"><div class="col-sm-6 col-sm-offset-3"><button tabindex="4" class="form-control btn btn-register" ng-click="doAdd()">Register Now</button></div></div></div></form></div></div></div>
<!-- <div class="alert alert-warning alert-dismissible fade show">-->
<!-- <button type="button" class="close" data-dismiss="alert">×</button>-->
<!-- <strong>警告!</strong>{{msg}}-->
<!-- </div>--></div><div class="alert alert-warning" ng-if="msg && msg!='ok'"><a href="#" class="close" data-dismiss="alert">×</a><strong>警告!</strong>{{msg}}</div></div></div>
</div>
</body>
路由:route/users.js
将用户名传入数据库获取对应的密码,如果获取到密码,检查和用户输入的密码是否匹配:若匹配则发送 json 响应,msg 赋值为“ok”,并且把用户名保存到服务器内存中,以便记录用户登录操作日志和检查用户对页面进行操作时的登录状态;否则 msg 为错误提示。
var express = require('express');
var router = express.Router();
var userDAO = require('../dao/userDAO');
router.post('/login', function(req, res) {var username = req.body.username;var password = req.body.password;// var sess = req.session;userDAO.getByUsername(username, function (user) {if(user.length==0){//如果返回的用户名长度为零,说明用户不存在;res.json({msg:'用户不存在!请检查后输入'});}else {if(password===user[0].password){req.session['username'] = username;res.cookie('username', username);res.json({msg: 'ok'});// res.json({msg:'ok'});}else{res.json({msg:'用户名或密码错误!请检查后输入'});}}});
});/* add users */
router.post('/register', function (req, res) {var add_user = req.body;// 先检查用户是否存在userDAO.getByUsername(add_user.username, function (user) {if (user.length != 0) {// res.render('index', {msg:'用户不存在!'});res.json({msg: '用户已存在!'});}else {userDAO.add(add_user, function (success) {res.json({msg: '成功注册!请登录'});})}});});// 退出登录
router.get('/logout', function(req, res, next){// 备注:这里用的 session-file-store 在destroy 方法里,并没有销毁cookie// 所以客户端的 cookie 还是存在,导致的问题 --> 退出登陆后,服务端检测到cookie// 然后去查找对应的 session 文件,报错// session-file-store 本身的bugreq.session.destroy(function(err) {if(err){res.json('退出登录失败');return;}// req.session.loginUser = null;res.clearCookie('username');res.json({result:'/index.html'});});
});
//退出登录
module.exports = router;
三、查询支持布尔表达式
使得在查询关键词是可使用 或 和
查询前端文件:public/search.html
<link rel="stylesheet" type="text/css" href="stylesheets/search.css">
<form class="form-horizontal" role="form"><div class="row" style="margin-bottom: 10px;"><label class="col-lg-2 control-label">标题关键字</label><div class="col-lg-3"><input type="text" class="form-control" placeholder="标题关键字" ng-model="$parent.title1"></div><div class="col-lg-1"><select class="form-control" autocomplete="off" ng-model="$parent.selectTitle"><option selected="selected">AND</option><option>OR</option></select></div><div class="col-lg-3"><input type="text" class="form-control" placeholder="标题关键字" ng-model="$parent.title2"></div></div><div class="row" style="margin-bottom: 10px;"><label class="col-lg-2 control-label">内容关键字</label><div class="col-lg-3"><input type="text" class="form-control" placeholder="内容关键字" ng-model="$parent.content1"></div><div class="col-lg-1"><select class="form-control" autocomplete="off" ng-model="$parent.selectContent"><option selected="selected">AND</option><option>OR</option></select></div><div class="col-lg-3"><input type="text" class="form-control" placeholder="内容关键字" ng-model="$parent.content2"></div></div><div class="form-group"><div class="col-md-offset-9"><button type="submit" class="btn btn-default" ng-click="search()">查询</button></div></div></form>
<!--显示查询结果-->
<div ng-show="isisshowresult"><table class="table table-striped"><thead><tr><td>序号</td><td>标题</td><td>作者</td>
<!-- <td>内容</td>--><td>关键词</td><td>链接</td><td>发布时间</td></tr></thead><tbody><tr ng-repeat="(key, item) in items"><td>{{index+key}}</td><td>{{item.title}}</td><td>{{item.author}}</td>
<!-- <td>{{item.content}}</td>--><td>{{item.keywords}}</td><td>{{item.url}}</td><td>{{item.publish_date}}</td></tr></tbody></table><div class="row">
<!-- <div class="form-group">--><div class="pull-left" style="margin-top: 12px;"><button type="submit" class="btn btn-primary" ng-click="searchsortASC()" >发布时间升序</button><button type="submit" class="btn btn-primary" ng-click="searchsortDESC()">发布时间降序</button></div>
<!-- </div>--><div class="pull-right"><nav><ul class="pagination"><li><a ng-click="Previous()" role="button"><span role="button">上一页</span></a></li><li ng-repeat="page in pageList" ng-class="{active:isActivePage(page)}" role="button"><a ng-click="selectPage(page)" >{{ page }}</a></li><li><a ng-click="Next()" role="button"><span role="button">下一页</span></a></li></ul></nav></div></div>
</div>
public/javascript/news.js:
var app = angular.module('news', []);
app.controller('news_Ctrl', function ($scope, $http, $timeout) {// 控制查询页面是否显示$scope.showSearch = function () {$scope.isShow = true;$scope.isisshowresult = false;// 再次回到查询页面时,表单里要保证都空的$scope.title1=undefined;$scope.title2=undefined;$scope.selectTitle='AND';$scope.content1=undefined;$scope.content2=undefined;$scope.selectContent='AND';$scope.sorttime=undefined;};$scope.logout = function () {// $http.get().then();$http.get("/users/logout").then(function (res) {window.location.href=res.data.result;},function (err) {$scope.msg = err.data;});};// 查询数据$scope.search = function () {var title1 = $scope.title1;var title2 = $scope.title2;var selectTitle = $scope.selectTitle;var content1 = $scope.content1;var content2 = $scope.content2;var selectContent = $scope.selectContent;var sorttime = $scope.sorttime;// 检查用户传的参数是否有问题//用户有可能这样输入:___ and/or 新冠(直接把查询词输在了第二个位置)if(typeof title1=="undefined" && typeof title2!="undefined" && title2.length>0){title1 = title2;}if(typeof content1=="undefined" && typeof content2!="undefined" && content2.length>0){content1 = content2;}// 用户可能一个查询词都不输入,默认就是查找全部数据var myurl = `/news/search?t1=${title1}&ts=${selectTitle}&t2=${title2}&c1=${content1}&cs=${selectContent}&c2=${content2}&stime=${sorttime}`;$http.get(myurl).then(function (res) {if(res.data.message=='data'){$scope.isisshowresult = true; //显示表格查询结果// $scope.searchdata = res.data;$scope.initPageSort(res.data.result)}else {window.location.href=res.data.result;}},function (err) {$scope.msg = err.data;});};
四、图表
1.柱形图实现:
// 下面是图的操作//柱状图$scope.histogram = function () {$scope.isShow = false;$http.get("/news/histogram").then(function (res) {if(res.data.message=='url'){window.location.href=res.data.result;}else {// var newdata = washdata(data);let xdata = [], ydata = [], newdata;var pattern = /\d{4}-(\d{2}-\d{2})/;res.data.result.forEach(function (element) {xdata.push(pattern.exec(element["x"])[1]);ydata.push(element["y"]);});newdata = {"xdata": xdata, "ydata": ydata};var myChart = echarts.init(document.getElementById('main1'));// 指定图表的配置项和数据var option = {title: {text: '新闻发布数随时间变化'},tooltip: {},legend: {data: ['新闻发布数']},xAxis: {data: newdata["xdata"]},//设置横坐标yAxis: {},series: [{name: '新闻数目',type: 'bar',data: newdata["ydata"]}]//设置纵坐标};// 使用刚指定的配置项和数据显示图表。myChart.setOption(option);}},function (err) {$scope.msg = err.data;});};
效果展示:
2.折线图实现:
//折线图$scope.line = function () {$scope.isShow = false;$http.get("/news/line").then(function (res) {if(res.data.message=='url'){window.location.href=res.data.result;}else {var myChart = echarts.init(document.getElementById("main1"));option = {title: {text: '"中国"该词在新闻中的出现次数随时间变化图'},xAxis: {type: 'category',data: Object.keys(res.data.result)},yAxis: {type: 'value'},series: [{data: Object.values(res.data.result),type: 'line',itemStyle: {normal: {label: {show: true}}}}],};if (option && typeof option === "object") {myChart.setOption(option, true);}}});};
效果展示:
3.词云实现:
使用以下命令安装nodejieba
npm install nodejieba
C++环境建构:
yum -y install gcc
yum -y install gcc-c++
//词云$scope.wordcloud = function () {$scope.isShow = false;$http.get("/news/wordcloud").then(function (res) {if(res.data.message=='url'){window.location.href=res.data.result;}else {var mainContainer = document.getElementById('main1');var chart = echarts.init(mainContainer);var data = [];for (var name in res.data.result) {data.push({name: name,value: Math.sqrt(res.data.result[name])})}var maskImage = new Image();maskImage.src = './images/云logo1.jpg';//词云的形状 使用images文件中的图片作为logovar option = {title: {text: '词云展示'},series: [{type: 'wordCloud',sizeRange: [12, 60],rotationRange: [-90, 90],rotationStep: 45,gridSize: 2,shape: 'circle',maskImage: maskImage,drawOutOfBound: false,textStyle: {normal: {fontFamily: 'sans-serif',fontWeight: 'bold',// Color can be a callback function or a color stringcolor: function () {// Random colorreturn 'rgb(' + [Math.round(Math.random() * 160),Math.round(Math.random() * 160),Math.round(Math.random() * 160)].join(',') + ')';}},emphasis: {shadowBlur: 10,shadowColor: '#333'}},data: data}]};maskImage.onload = function () {// option.series[0].data = data;chart.clear();chart.setOption(option);};window.onresize = function () {chart.resize();};}});}});
效果展示:
五、入口创建
程序入口创建:app.js:
var createError = require('http-errors');
var express = require('express');
var path = require('path');
var cookieParser = require('cookie-parser');
var session = require('express-session');
var logger = require('morgan');
var logDAO = require('./dao/logDAO.js');
// var fs = require('fs');//加了文件操作的模块
// var accessLogStream = fs.createWriteStream(path.join(__dirname, 'access.log'), { flag: 'a' });//创建一个写文件流,并且保存在当前文件夹的access.log文件中// var indexRouter = require('./routes/users');
var usersRouter = require('./routes/users');
var newsRouter = require('./routes/news');var app = express();//设置session
app.use(session({secret: 'sessiontest',//与cookieParser中的一致resave: true,saveUninitialized: false, // 是否保存未初始化的会话cookie : {maxAge : 1000 * 60 * 60, // 设置 session 的有效时间,单位毫秒},
}));let method = '';
app.use(logger(function (tokens, req, res) {console.log('打印的日志信息:');var request_time = new Date();var request_method = tokens.method(req, res);var request_url = tokens.url(req, res);var status = tokens.status(req, res);var remote_addr = tokens['remote-addr'](req, res);if(req.session){var username = req.session['username']||'notlogin';}else {var username = 'notlogin';}// 直接将用户操作记入mysql中if(username!='notlogin'){logDAO.userlog([username,request_time,request_method,request_url,status,remote_addr], function (success) {console.log('成功保存!');})}console.log('请求时间 = ', request_time);console.log('请求方式 = ', request_method);console.log('请求链接 = ', request_url);console.log('请求状态 = ', status);console.log('请求长度 = ', tokens.res(req, res, 'content-length'),);console.log('响应时间 = ', tokens['response-time'](req, res) + 'ms');console.log('远程地址 = ', remote_addr);console.log('远程用户 = ', tokens['remote-user'](req, res));console.log('http版本 = ', tokens['http-version'](req, res));console.log('浏览器信息 = ', tokens['user-agent'](req, res));console.log('用户 = ', username);console.log(' ===============',method);}, ));app.use(express.json());
app.use(express.urlencoded({ extended: false }));
app.use(cookieParser());
app.use(express.static(path.join(__dirname, 'public')));
app.use('/angular', express.static(path.join(__dirname , '/node_modules/angular')));// app.use('/', indexRouter);
app.use('/users', usersRouter);
app.use('/news', newsRouter);// catch 404 and forward to error handler
app.use(function(req, res, next) {next(createError(404));
});// error handler
app.use(function(err, req, res, next) {// set locals, only providing error in developmentres.locals.message = err.message;res.locals.error = req.app.get('env') === 'development' ? err : {};// render the error pageres.status(err.status || 500);// res.render('error');
});module.exports = app;
在项目文件夹中按住shift单击右键选择 “在此处打开powershell窗口”
输入node bin/www 回车
在浏览器输入localhost:3000 进入登录界面
进行注册:
powershell窗口得到打印的日志信息
需要注意最新版的angular上可能没有angular.min.js文件
当出现如下信息时需要下载angular.min.js文件
文件安装路径为public/angular/
教程https://jingyan.baidu.com/article/1612d500e3a94be20e1eee98.html
打印的日志信息:
请求时间 = 2020-06-19T17:54:15.849Z
请求方式 = GET
请求链接 = /angular/angular.min.js
请求状态 = undefined
请求长度 = undefined
响应时间 = undefinedms
远程地址 = ::ffff:xxx.xx.xx.x
远程用户 = undefined
http版本 = 1.1
浏览器信息 = Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363
用户 = notlogin
检索界面:
使用or搜索:
按发布时间降序排序:
三个图表展示见上文。
css页面美化参考:
body {padding-top: 90px;background-image:url("../images/背景dream.jpg");//背景图片background-repeat:no-repeat;background-size:100% 100%;background-attachment:fixed;
}
h2{color: yellow;text-align:center;
}
.imgBox{position: absolute;top: 0%;left: 50%;
}
.panel-login {border-color:green ;-webkit-box-shadow: 0px 2px 3px 0px rgba(204, 245, 21, 0.2);-moz-box-shadow: 0px 2px 3px 0px rgba(56, 233, 150, 0.2);box-shadow: 0px 2px 3px 0px rgba(50, 231, 27, 0.2);
}
.panel-login>.panel-heading {color: #00415d;background-color: #fff;border-color: #fff;text-align:center;
}
.panel-login>.panel-heading a{text-decoration: none;color: #666;font-weight: bold;font-size: 15px;-webkit-transition: all 0.1s linear;-moz-transition: all 0.1s linear;transition: all 0.1s linear;
}
.panel-login>.panel-heading a.active{color: green;font-size: 18px;
}
.panel-login>.panel-heading hr{margin-top: 10px;margin-bottom: 0px;clear: both;border: 0;height: 1px;background-image: -webkit-linear-gradient(left,rgba(0, 0, 0, 0),rgba(0, 0, 0, 0.15),rgba(0, 0, 0, 0));background-image: -moz-linear-gradient(left,rgba(0,0,0,0),rgba(0,0,0,0.15),rgba(0,0,0,0));background-image: -ms-linear-gradient(left,rgba(0,0,0,0),rgba(0,0,0,0.15),rgba(0,0,0,0));background-image: -o-linear-gradient(left,rgba(0,0,0,0),rgba(0,0,0,0.15),rgba(0,0,0,0));
}
.panel-login input[type="text"],.panel-login input[type="email"],.panel-login input[type="password"] {height: 45px;border: 1px solid #ddd;font-size: 16px;-webkit-transition: all 0.1s linear;-moz-transition: all 0.1s linear;transition: all 0.1s linear;
}
.panel-login input:hover,
.panel-login input:focus {outline:none;-webkit-box-shadow: none;-moz-box-shadow: none;box-shadow: none;border-color: #ccc;
}
.btn-login {background-color: #1c99ec;outline: none;color: #fff;font-size: 14px;height: auto;font-weight: normal;padding: 14px 0;text-transform: uppercase;border-color: #59B2E6;
}
.btn-login:hover,
.btn-login:focus {color: #fff;background-color: yellow;border-color: yellow;
}
.forgot-password {text-decoration: underline;color: #888;
}
.forgot-password:hover,
.forgot-password:focus {text-decoration: underline;color: #666;
}.btn-register {background-color: greenyellow;outline: none;color: #fff;font-size: 14px;height: auto;font-weight: normal;padding: 14px 0;text-transform: uppercase;border-color: #1CB94A;
}
.btn-register:hover,
.btn-register:focus {color: #fff;background-color: #1CA347;border-color: #1CA347;
}
基于爬虫爬取的数据,完成数据展示网站相关推荐
- python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版
在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...
- python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
- 网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
- python java 爬数据_如何用java爬虫爬取网页上的数据
当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...
- python 爬虫爬取统计局北京统计数据
python 爬虫爬取统计局统计数据 写在前面 主要因为朋友写论文,要爬取北京的经济数据.拜托我写一个爬虫爬取数据.爬取的都是公开的数据,代码仅供学习使用,切勿用作非法. http://tjj.bei ...
- python爬虫爬取微信网页_python下爬虫爬取微信公众号文章给网站的相关操作与问题...
一.出发点 在dodo团队知乎号开刊文章中已介绍过本团队平常的实际工作,我们是一个从事游戏与金融结合的项目开发与运营团队.技术上主要是从事游戏分期.玩后付支付插件.游戏充值app等前后端开发,主要使用 ...
- 使用爬虫爬取豆瓣电影影评数据Java版
2019独角兽企业重金招聘Python工程师标准>>> 近期被<我不是药神>这部国产神剧刷屏了,为了分析观众对于这部电影的真实感受,我爬取了豆瓣电影影评数据.当然本文仅讲 ...
- python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页
比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...
- JAVA爬虫爬取携程酒店数据selenium实现
在爬取携程的时候碰到很多的壁垒,接下来分析所有过程 1.根据以往经验最初想到用jsoup去解析每个HTML元素,然后拿到酒店数据,然后发现解析HTML根本拿不到id为hotel_list的div,所以 ...
最新文章
- fields在php中,phpmysqli_num_fields函数怎么用
- 鸿蒙之境的称号,《神都夜行录》鸿蒙之境80级古都凶煞打法
- java单行字符_十个便捷的单行代码编程技巧
- HDU - 4253 Two Famous Companies(二分+最小生成树)
- python3爬虫初探(七)使用MySQL
- springmvc ajax 页面无法重定向问题!!!!
- 刻画小狗状态java_JAVA面向接口编程
- php mvc教程 文档,PHP培训教程教你快速打造PHP MVC框架[PHP基础教程]
- ZOJ2724_Windows Message Queue(STL/优先队列)
- ZOJ 3511 Cake Robbery
- 【设计模式】-工厂模式->抽象工法模式(源码与类图解析)
- 下了一个游戏说计算机丢失,冰封64位win10系统下启动游戏提示计算机丢失XINPUT1-3.dll怎么办...
- 深圳市及各区人才补贴
- Hit Refresh读书摘要
- 移动交互提示语设计(转)
- win10任务管理器禁用_如何在Windows 10的文件资源管理器中禁用广告和通知
- upstream指令参数 max_fails、fail_timeout、backup、max_conns、down
- 基于Java+SSM+Vue农家乐管理系统(住宿-美食-活动)设计与实现
- 外国人申请居留许可服务指南(中英文)
- 支持大S,你一定要幸福!
热门文章
- Tandem Repeats Finder:串联重复序列查找工具
- 云豹短视频app源码中,标签选择功能的实现
- 机器学习 - 随机森林 Random Forest
- vscode c#代码格式化
- python0x452_python at 0x
- MySQL:偏移量为 0x000000000ae000 的位置执行 读取 期间,操作系统已经向 SQL Server 返回了错误 21(设备未就绪。)。
- .net仿google analysis第三方流量监测
- 遍历Java对象所有字段并处理
- Java百钱百鸡程序代码
- HTTP的请求常用方法