• 第1章技术基础1

    • 1.1第一个程序1
    • 1.2准备开发环境2
      • 1.2.1JDK2
      • 1.2.2Eclipse3
    • 1.3类和对象4
    • 1.4常量5
    • 1.5命名规范6
    • 1.6基本语法6
    • 1.7条件判断7
    • 1.8循环8
    • 1.9数组9
    • 1.10位运算11
    • 1.11枚举类型13
    • 1.12比较器14
    • 1.13方法14
    • 1.14集合类15
      • 1.14.1动态数组15
      • 1.14.2散列表15
    • 1.15文件19
      • 1.15.1文本文件19
      • 1.15.2二进制文件23
    • 1.16多线程27
      • 1.16.1基本的多线程28
      • 1.16.2线程池30
    • 1.17折半查找31
    • 1.18处理图片34
    • 1.19本章小结35
  • 第2章网络爬虫入门36
    • 2.1获取信息36

      • 2.1.1提取链接37
      • 2.1.2采集新闻37
    • 2.2各种网络爬虫38
      • 2.2.1信息采集器40
      • 2.2.2广度优先遍历41
      • 2.2.3分布式爬虫42
    • 2.3爬虫相关协议43
      -2.3.1网站地图44

      • 2.3.2Robots协议45
    • 2.4爬虫架构48
      • 2.4.1基本架构48
      • 2.4.2分布式爬虫架构51
      • 2.4.3垂直爬虫架构54
    • 2.5自己写网络爬虫55
    • 2.6URL地址查新57
      • 2.6.1嵌入式数据库58
      • 2.6.2布隆过滤器60
      • 2.6.3实现布隆过滤器61
    • 2.7部署爬虫63
      • 2.7.1部署到Windows64
      • 2.7.2部署到Linux64
    • 2.8本章小结65
  • 第3章定向采集69
    • 3.1下载网页的基本方法69

      • 3.1.1网卡70
      • 3.1.2下载网页70
    • 3.2HTTP基础75
      • 3.2.1协议75
      • 3.2.2URI77
      • 3.2.3DNS84
    • 3.3使用HttpClient下载网页84
      • 3.3.1HttpCore94
      • 3.3.2状态码98
      • 3.3.3创建99
      • 3.3.4模拟浏览器99
      • 3.3.5重试100
      • 3.3.6抓取压缩的网页102
      • 3.3.7HttpContext104
      • 3.3.8下载中文网站105
      • 3.3.9抓取需要登录的网页106
      • 3.3.10代理111
      • 3.3.11DNS缓存112
      • 3.3.12并行下载113
    • 3.4下载网络资源115
      • 3.4.1重定向115
      • 3.4.2解决套接字连接限制118
      • 3.4.3下载图片119
      • 3.4.4抓取视频122
      • 3.4.5抓取FTP122
      • 3.4.6网页更新122
      • 3.4.7抓取限制应对方法126
      • 3.4.8URL地址提取131
      • 3.4.9解析URL地址134
      • 3.4.10归一化135
      • 3.4.11增量采集135
      • 3.4.12iframe136
      • 3.4.13抓取JavaScript动态页面137
      • 3.4.14抓取即时信息141
      • 3.4.15抓取暗网141
    • 3.5PhantomJS144
    • 3.6Selenium145
    • 3.7信息过滤146
      • 3.7.1匹配算法147
      • 3.7.2分布式过滤153
    • 3.8采集新闻153
      • 3.8.1网页过滤器154
      • 3.8.2列表页159
      • 3.8.3用机器学习的方法抓取新闻160
      • 3.8.4自动查找目录页161
      • 3.8.5详细页162
      • 3.8.6增量采集164
      • 3.8.7处理图片164
    • 3.9遍历信息164
    • 3.10并行抓取165
      • 3.10.1多线程爬虫165
      • 3.10.2垂直搜索的多线程爬虫168
      • 3.10.3异步IO172
    • 3.11分布式爬虫176
      • 3.11.1JGroups176
      • 3.11.2监控179
      • 3.12增量抓取180
    • 3.13管理界面180
    • 3.14本章小结181
  • 第4章数据存储182
    • 4.1存储提取内容182

      • 4.1.1SQLite183
      • 4.1.2Access数据库185
      • 4.1.3MySQL186
      • 4.1.4写入维基187
    • 4.2HBase187
    • 4.3Web图189
    • 4.4本章小结193
  • 第5章信息提取194
    • 5.1从文本提取信息194
    • 5.2从HTML文件中提取文本195
      • 5.2.1字符集编码195
      • 5.2.2识别网页的编码198
      • 5.2.3网页编码转换为字符串编码201
      • 5.2.4使用正则表达式提取数据202
      • 5.2.5结构化信息提取206
      • 5.2.6表格209
      • 5.2.7网页的DOM结构210
      • 5.2.8使用Jsoup提取信息211
      • 5.2.9使用XPath提取信息217
      • 5.2.10HTMLUnit提取数据219
      • 5.2.11网页结构相似度计算220
      • 5.2.12提取标题222
      • 5.2.13提取日期224
      • 5.2.14提取模板225
      • 5.2.15提取RDF信息227
      • 5.2.16网页解析器原理227
    • 5.3RSS229
      • 5.3.1Jsoup解析RSS230
      • 5.3.2ROME231
      • 5.3.3抓取流程231
    • 5.4网页去噪233
      • 5.4.1NekoHTML234
      • 5.4.2Jsoup238
      • 5.4.3提取正文240
    • 5.5从非HTML文件中提取文本241
      • 5.5.1PDF文件242
      • 5.5.2Word文件245
      • 5.5.3Rtf文件247
      • 5.5.4Excel文件253
      • 5.5.5PowerPoint文件254
    • 5.6提取标题254
      • 5.6.1提取标题的一般方法255
      • 5.6.2从PDF文件中提取标题259
      • 5.6.3从Word文件中提取标题261
      • 5.6.4从Rtf文件中提取标题261
      • 5.6.5从Excel文件中提取标题267
      • 5.6.6从PowerPoint文件中提取标题270
    • 5.7图像的OCR识别270
      • 5.7.1读入图像271
      • 5.7.2准备训练集272
      • 5.7.3图像二值化274
      • 5.7.4切分图像279
      • 5.7.5SVM分类283
      • 5.7.6识别汉字287
      • 5.7.7训练OCR289
      • 5.7.8检测行290
      • 5.7.9识别验证码291
      • 5.7.10JavaOCR292
    • 5.8提取地域信息292
      • 5.8.1IP地址293
      • 5.8.2手机315
    • 5.9提取新闻316
    • 5.10流媒体内容提取317
      • 5.10.1音频流内容提取317
      • 5.10.2视频流内容提取321
    • 5.11内容纠错322
      • 5.11.1模糊匹配问题325
      • 5.11.2英文拼写检查331
      • 5.11.3中文拼写检查333
    • 5.12术语336
    • 5.13本章小结336
  • 第6章Crawler4j338
    • 6.1使用Crawler4j338

      • 6.1.1大众点评339
      • 6.1.2日志342
    • 6.2crawler4j原理342
      • 6.2.1代码分析343
      • 6.2.2使用BerkeleyDB344
      • 6.2.3缩短URL地址347
      • 6.2.4网页编码349
      • 6.2.5并发349
    • 6.3本章小结352
    • 第7章网页排重353
    • 7.1语义指纹354
    • 7.2SimHash357
    • 7.3分布式文档排重367
    • 7.4本章小结369
    • 第8章网页分类370
    • 8.1关键词加权法371
    • 8.2机器学习的分类方法378
      • 8.2.1特征提取380
      • 8.2.2朴素贝叶斯384
      • 8.2.3支持向量机393
      • 8.2.4多级分类401
      • 8.2.5网页分类403
    • 8.3本章小结403
    • 第9章案例分析404
    • 9.1金融爬虫404
      • 9.1.1中国能源政策数据404
      • 9.1.2世界原油现货交易和期货交易数据405
      • 9.1.3股票数据405
      • 9.1.4从PDF文件中提取表格408
    • 9.2商品搜索408
      • 9.2.1遍历商品410
      • 9.2.2使用HttpClient415
      • 9.2.3提取价格416
      • 9.2.4水印419
      • 9.2.5数据导入ECShop420
      • 9.2.6采集淘宝423
    • 9.3自动化行业采集424
    • 9.4社会化信息采集424
    • 9.5微博爬虫424
    • 9.6微信爬虫426
    • 9.7海关数据426
    • 9.8医药数据427
    • 9.9本章小结429
  • 后记430

注:本文是学习记录总结日志,并非个人大脑产物!

原书:《网络爬虫全解析:技术、原理与实践》罗刚 著

网络爬虫全解析(JAVA)--目录相关推荐

  1. iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据

    网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...

  2. python基础实例 韦玮 pdf_韦玮:Python网络爬虫实战解析

    2016年12月27日晚8点半,CSDN特邀IT专家.<Python系列实战教程>系列图书作者韦玮带来了主题为"Python网络爬虫反爬破解策略实战"的Chat交流.以 ...

  3. python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件)

    python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...

  4. java jsoup 网络爬虫 jsoup解析html Java爬虫 Jsoup爬虫 jsoup例子

    java jsoup 网络爬虫 java jsoup 网络爬虫 学习例子(一)抓取豆瓣电影名称+推荐星级 java jsoup 网络爬虫 学习例子(二)只抓取豆瓣电影5星(力荐)电影名称 java j ...

  5. 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)...

    一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...

  6. python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]

    目录 前言 一.正则表达式的学习 1.正则表达式的匹配工具 2.正则表达式的样式 3.正则表达式的案例 二.爬取网页图片 1.分析网页 2.获取数据 爬取妹子网的案例 后记 前言 hello,大家好 ...

  7. 基于java的网络爬虫_基于java实现网络爬虫

    [实例简介] 基于java实现的java爬虫,是我学习java来练练手的,java基础入门的学生可以考虑参考一下 [实例截图] [核心代码] 爬虫 ├── 暑假任务-爬虫系统 │   ├── bin ...

  8. 网络爬虫讲解及java代码实现

     网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开 ...

  9. Python3网络爬虫实战解析——优美壁纸爬取

    在上一博客中,我们已经学会了如何使用Python3爬虫抓取文字,那么在本问中,将通过实例来教大家如何使用Python3爬虫批量抓取图片. (1)实战背景 URL:https://unsplash.co ...

最新文章

  1. .Net Framework 3.0 概述
  2. leangoo大讲堂--北京站
  3. 以不变应万变:因果启发的稳定学习年度研究进展(下篇)
  4. 尝试在wireshark中查找密码
  5. php中的parse_ini_file函数
  6. 不用网关或代理的单点远程办公如何实现,Aruba推出EdgeConnect Microbranch
  7. CentOS 7.8使用devtoolset-9使用高版本gcc version 9.3.1
  8. 处理table 超出部分滚动问题
  9. AJAX from S3 CORS fails on preflight OPTIONS with 403
  10. oracle flashback 功能,oracle 10g中开启flashback功能
  11. L298N电机驱动原理图+PCB制版文件(和你买的模块一模一样的!)
  12. scratch素材准备
  13. java 银行帐号_Java 根据银行卡号获取银行名称以及图标
  14. C语言求100以内素数
  15. python之函数习题
  16. Java学习笔记 第一天
  17. 隐式差分方程c语言,科学网—显式与隐式差分 - 张凌的博文
  18. 为泄愤程序员攻击北京摇号网站昨受审 曾为市高考状元
  19. 做成才还是做许三多——反思程序员职场生涯规划
  20. Python爬虫与信息提取(八)将新浪热搜排名导入数据库

热门文章

  1. oracle中的日期函数
  2. 用python写九九乘法表(用format格式极其简单)
  3. CAS解决单点登录SSO
  4. 转战物联网·基础篇02-物联网中的角儿
  5. 拼多多关键词推广技巧有哪
  6. 最新域名升级是什么?
  7. 'utf-8' codec can't decode byte 0xca in position 94: invalid continuation byte问题
  8. Linux中阶—文件服务vsftpd (九)
  9. 日历插件(项目总结)(包括mobiscroll.js LCalendar 和Calendar这三个日历插件)
  10. 桂林山水甲天下,阳朔山水甲桂林