java爬虫(爬取豆瓣电影排行榜)
java爬虫
可以尝试一下java爬虫,爬取豆瓣电影榜单。用上正则表达式,结合一下gui
最初版本
import java.net.*;
import java.util.*;
import java.nio.charset.*;
import java.io.*;
import java.math.*;
public class Test
{public static void main(String[] args) throws Exception{//Java爬虫/*URL url4 = new URL("http://www.baidu.com#aaa");URLConnection conn = url4.openConnection();conn.connect();System.out.println(conn.getContent());InputStream input = url4.openStream();byte[] buffer = new byte[1024];int hasRead = -1;while((hasRead = input.read(buffer)) != -1){System.out.println(new String(buffer,Charset.forName("utf-8")));}*/URL url = new URL("https://movie.douban.com/chart");URLConnection conn = url.openConnection();conn.setRequestProperty("accept","*/*");conn.setRequestProperty("connection","Keep-Alive");conn.setRequestProperty("user-agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36");conn.connect();InputStream input = conn.getInputStream();byte[] buffer = new byte[1024];int hasRead = -1;int length = 0;String msg = "";//输出到一个txt文件中//FileWriter fw = new FileWriter("E:\\java\\practice\\seven\\豆瓣电影排行榜.txt");RandomAccessFile raf = new RandomAccessFile("E:\\java\\practice\\seven\\豆瓣电影排行榜.txt","rw");while((hasRead =input.read(buffer)) != -1){raf.write(buffer);length += hasRead;System.out.println("爬取进度:"+length);}raf.close();System.out.println("爬取完成!");}}
java爬虫(爬取豆瓣电影排行榜)相关推荐
- python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中
我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...
- [爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...
- python爬虫爬取豆瓣电影排行榜,并写进csv文件,可视化数据分析
#1.爬取内容,写进csv文件 import requests import re import csv #豆瓣电影排行榜,写进csv文件 url = "https://movie.doub ...
- 爬虫爬取豆瓣电影排行榜
import requests import re # 此模块专门用来提取有效信息url = 'https://movie.douban.com/top250' head = {'User-Agent ...
- python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版
在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...
- python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图
**爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...
- Python爬虫爬取豆瓣电影评论内容,评论时间和评论人
Python爬虫爬取豆瓣电影评论内容,评论时间和评论人 我们可以看到影评比较长,需要展开才能完整显示.但是在网页源码中是没有显示完整影评的.所以我们考虑到这部分应该是异步加载的方式显示.所以打开网页的 ...
- python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中
python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...
最新文章
- excel表格出问题了
- mqtt android简书,iOS MQTT协议笔记
- linux系统 克隆 恢复 Clonezilla 再生龙 使用
- 进程外Session和进程内Session存储
- oracle usenl,深入理解Oracle表(1):ORDERED和USE_NL | 学步园
- PHP的CURL:请求接口 模拟请求登陆 上传下载
- git 切换分支_git 入门教程之分支总览
- python中*args **kwargs
- 深度学习之卷积神经网络CNN
- 基于React+Koa实现一个h5页面可视化编辑器-Dooring
- Tomcat SSL Configuration
- 苹果cms v10官网源码下载
- 分享个三国志2017挂机脚本 可玩性很高占用小
- ArchSummit 北京 2016之lookalike主题
- 高项 人力资源管理论文
- CDD数据库文件制作(一)
- Taylor’s Formula - 泰勒公式
- 【爬虫入门】一键爬取LOL全部高清皮肤
- 视频格式怎么转换,将mp4格式转为mov格式
- Tecohoo VD-306S 全高清视频会议摄像机
热门文章
- Raul的新机器学习书!
- 赴微软 软件开发测试工程师。
- 存储资源 存储设备 数据存储
- JAVA线程中的sleep()、wait()、yield()、join()作用
- 四川公办二本计算机专业院校排名,四川二本大学排名及分数线
- 算法-斐波那契数列Fibonacci
- 在VM虚拟机上装“黑苹果
- 用 SpriteKit 做一个逃逸游戏 (2)
- python--多线程爬取王者荣耀高清壁纸
- gpt分区android系统备份,win10 (GPT+UEFI)利用GHOST进行备份还原系统迁移