网络爬虫全解析(JAVA)--目录
- 第1章技术基础1
- 1.1第一个程序1
- 1.2准备开发环境2
- 1.2.1JDK2
- 1.2.2Eclipse3
- 1.3类和对象4
- 1.4常量5
- 1.5命名规范6
- 1.6基本语法6
- 1.7条件判断7
- 1.8循环8
- 1.9数组9
- 1.10位运算11
- 1.11枚举类型13
- 1.12比较器14
- 1.13方法14
- 1.14集合类15
- 1.14.1动态数组15
- 1.14.2散列表15
- 1.15文件19
- 1.15.1文本文件19
- 1.15.2二进制文件23
- 1.16多线程27
- 1.16.1基本的多线程28
- 1.16.2线程池30
- 1.17折半查找31
- 1.18处理图片34
- 1.19本章小结35
- 第2章网络爬虫入门36
- 2.1获取信息36
- 2.1.1提取链接37
- 2.1.2采集新闻37
- 2.2各种网络爬虫38
- 2.2.1信息采集器40
- 2.2.2广度优先遍历41
- 2.2.3分布式爬虫42
- 2.3爬虫相关协议43
-2.3.1网站地图44- 2.3.2Robots协议45
- 2.4爬虫架构48
- 2.4.1基本架构48
- 2.4.2分布式爬虫架构51
- 2.4.3垂直爬虫架构54
- 2.5自己写网络爬虫55
- 2.6URL地址查新57
- 2.6.1嵌入式数据库58
- 2.6.2布隆过滤器60
- 2.6.3实现布隆过滤器61
- 2.7部署爬虫63
- 2.7.1部署到Windows64
- 2.7.2部署到Linux64
- 2.8本章小结65
- 2.1获取信息36
- 第3章定向采集69
- 3.1下载网页的基本方法69
- 3.1.1网卡70
- 3.1.2下载网页70
- 3.2HTTP基础75
- 3.2.1协议75
- 3.2.2URI77
- 3.2.3DNS84
- 3.3使用HttpClient下载网页84
- 3.3.1HttpCore94
- 3.3.2状态码98
- 3.3.3创建99
- 3.3.4模拟浏览器99
- 3.3.5重试100
- 3.3.6抓取压缩的网页102
- 3.3.7HttpContext104
- 3.3.8下载中文网站105
- 3.3.9抓取需要登录的网页106
- 3.3.10代理111
- 3.3.11DNS缓存112
- 3.3.12并行下载113
- 3.4下载网络资源115
- 3.4.1重定向115
- 3.4.2解决套接字连接限制118
- 3.4.3下载图片119
- 3.4.4抓取视频122
- 3.4.5抓取FTP122
- 3.4.6网页更新122
- 3.4.7抓取限制应对方法126
- 3.4.8URL地址提取131
- 3.4.9解析URL地址134
- 3.4.10归一化135
- 3.4.11增量采集135
- 3.4.12iframe136
- 3.4.13抓取JavaScript动态页面137
- 3.4.14抓取即时信息141
- 3.4.15抓取暗网141
- 3.5PhantomJS144
- 3.6Selenium145
- 3.7信息过滤146
- 3.7.1匹配算法147
- 3.7.2分布式过滤153
- 3.8采集新闻153
- 3.8.1网页过滤器154
- 3.8.2列表页159
- 3.8.3用机器学习的方法抓取新闻160
- 3.8.4自动查找目录页161
- 3.8.5详细页162
- 3.8.6增量采集164
- 3.8.7处理图片164
- 3.9遍历信息164
- 3.10并行抓取165
- 3.10.1多线程爬虫165
- 3.10.2垂直搜索的多线程爬虫168
- 3.10.3异步IO172
- 3.11分布式爬虫176
- 3.11.1JGroups176
- 3.11.2监控179
- 3.12增量抓取180
- 3.13管理界面180
- 3.14本章小结181
- 3.1下载网页的基本方法69
- 第4章数据存储182
- 4.1存储提取内容182
- 4.1.1SQLite183
- 4.1.2Access数据库185
- 4.1.3MySQL186
- 4.1.4写入维基187
- 4.2HBase187
- 4.3Web图189
- 4.4本章小结193
- 4.1存储提取内容182
- 第5章信息提取194
- 5.1从文本提取信息194
- 5.2从HTML文件中提取文本195
- 5.2.1字符集编码195
- 5.2.2识别网页的编码198
- 5.2.3网页编码转换为字符串编码201
- 5.2.4使用正则表达式提取数据202
- 5.2.5结构化信息提取206
- 5.2.6表格209
- 5.2.7网页的DOM结构210
- 5.2.8使用Jsoup提取信息211
- 5.2.9使用XPath提取信息217
- 5.2.10HTMLUnit提取数据219
- 5.2.11网页结构相似度计算220
- 5.2.12提取标题222
- 5.2.13提取日期224
- 5.2.14提取模板225
- 5.2.15提取RDF信息227
- 5.2.16网页解析器原理227
- 5.3RSS229
- 5.3.1Jsoup解析RSS230
- 5.3.2ROME231
- 5.3.3抓取流程231
- 5.4网页去噪233
- 5.4.1NekoHTML234
- 5.4.2Jsoup238
- 5.4.3提取正文240
- 5.5从非HTML文件中提取文本241
- 5.5.1PDF文件242
- 5.5.2Word文件245
- 5.5.3Rtf文件247
- 5.5.4Excel文件253
- 5.5.5PowerPoint文件254
- 5.6提取标题254
- 5.6.1提取标题的一般方法255
- 5.6.2从PDF文件中提取标题259
- 5.6.3从Word文件中提取标题261
- 5.6.4从Rtf文件中提取标题261
- 5.6.5从Excel文件中提取标题267
- 5.6.6从PowerPoint文件中提取标题270
- 5.7图像的OCR识别270
- 5.7.1读入图像271
- 5.7.2准备训练集272
- 5.7.3图像二值化274
- 5.7.4切分图像279
- 5.7.5SVM分类283
- 5.7.6识别汉字287
- 5.7.7训练OCR289
- 5.7.8检测行290
- 5.7.9识别验证码291
- 5.7.10JavaOCR292
- 5.8提取地域信息292
- 5.8.1IP地址293
- 5.8.2手机315
- 5.9提取新闻316
- 5.10流媒体内容提取317
- 5.10.1音频流内容提取317
- 5.10.2视频流内容提取321
- 5.11内容纠错322
- 5.11.1模糊匹配问题325
- 5.11.2英文拼写检查331
- 5.11.3中文拼写检查333
- 5.12术语336
- 5.13本章小结336
- 第6章Crawler4j338
- 6.1使用Crawler4j338
- 6.1.1大众点评339
- 6.1.2日志342
- 6.2crawler4j原理342
- 6.2.1代码分析343
- 6.2.2使用BerkeleyDB344
- 6.2.3缩短URL地址347
- 6.2.4网页编码349
- 6.2.5并发349
- 6.3本章小结352
- 第7章网页排重353
- 7.1语义指纹354
- 7.2SimHash357
- 7.3分布式文档排重367
- 7.4本章小结369
- 第8章网页分类370
- 8.1关键词加权法371
- 8.2机器学习的分类方法378
- 8.2.1特征提取380
- 8.2.2朴素贝叶斯384
- 8.2.3支持向量机393
- 8.2.4多级分类401
- 8.2.5网页分类403
- 8.3本章小结403
- 第9章案例分析404
- 9.1金融爬虫404
- 9.1.1中国能源政策数据404
- 9.1.2世界原油现货交易和期货交易数据405
- 9.1.3股票数据405
- 9.1.4从PDF文件中提取表格408
- 9.2商品搜索408
- 9.2.1遍历商品410
- 9.2.2使用HttpClient415
- 9.2.3提取价格416
- 9.2.4水印419
- 9.2.5数据导入ECShop420
- 9.2.6采集淘宝423
- 9.3自动化行业采集424
- 9.4社会化信息采集424
- 9.5微博爬虫424
- 9.6微信爬虫426
- 9.7海关数据426
- 9.8医药数据427
- 9.9本章小结429
- 6.1使用Crawler4j338
- 后记430
注:本文是学习记录总结日志,并非个人大脑产物!
原书:《网络爬虫全解析:技术、原理与实践》罗刚 著
网络爬虫全解析(JAVA)--目录相关推荐
- iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...
- python基础实例 韦玮 pdf_韦玮:Python网络爬虫实战解析
2016年12月27日晚8点半,CSDN特邀IT专家.<Python系列实战教程>系列图书作者韦玮带来了主题为"Python网络爬虫反爬破解策略实战"的Chat交流.以 ...
- python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...
- java jsoup 网络爬虫 jsoup解析html Java爬虫 Jsoup爬虫 jsoup例子
java jsoup 网络爬虫 java jsoup 网络爬虫 学习例子(一)抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫 学习例子(二)只抓取豆瓣电影5星(力荐)电影名称 java j ...
- 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
- python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
目录 前言 一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例 二.爬取网页图片 1.分析网页 2.获取数据 爬取妹子网的案例 后记 前言 hello,大家好 ...
- 基于java的网络爬虫_基于java实现网络爬虫
[实例简介] 基于java实现的java爬虫,是我学习java来练练手的,java基础入门的学生可以考虑参考一下 [实例截图] [核心代码] 爬虫 ├── 暑假任务-爬虫系统 │ ├── bin ...
- 网络爬虫讲解及java代码实现
网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开 ...
- Python3网络爬虫实战解析——优美壁纸爬取
在上一博客中,我们已经学会了如何使用Python3爬虫抓取文字,那么在本问中,将通过实例来教大家如何使用Python3爬虫批量抓取图片. (1)实战背景 URL:https://unsplash.co ...
最新文章
- .Net Framework 3.0 概述
- leangoo大讲堂--北京站
- 以不变应万变:因果启发的稳定学习年度研究进展(下篇)
- 尝试在wireshark中查找密码
- php中的parse_ini_file函数
- 不用网关或代理的单点远程办公如何实现,Aruba推出EdgeConnect Microbranch
- CentOS 7.8使用devtoolset-9使用高版本gcc version 9.3.1
- 处理table 超出部分滚动问题
- AJAX from S3 CORS fails on preflight OPTIONS with 403
- oracle flashback 功能,oracle 10g中开启flashback功能
- L298N电机驱动原理图+PCB制版文件(和你买的模块一模一样的!)
- scratch素材准备
- java 银行帐号_Java 根据银行卡号获取银行名称以及图标
- C语言求100以内素数
- python之函数习题
- Java学习笔记 第一天
- 隐式差分方程c语言,科学网—显式与隐式差分 - 张凌的博文
- 为泄愤程序员攻击北京摇号网站昨受审 曾为市高考状元
- 做成才还是做许三多——反思程序员职场生涯规划
- Python爬虫与信息提取(八)将新浪热搜排名导入数据库