java单线程爬虫使用Jsoup爬取bt磁力链接

import java.io.FileWriter;
import java.io.IOException;
import java.net.URLEncoder;
import java.util.Random;
import java.util.Scanner;import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;/**
* @Title: AntSpider.java
* @Package com.guanglan.spider
* @Description: TODO
* @author guanglan
* @date 2016年9月10日 下午3:09:24
* @version V1.0
*/
public class AntSpider {private final static String baseUrl = "http://www.btany.com/search/";public static String getData(String key) throws IOException{Document doc = Jsoup.connect(baseUrl+key+"-first-asc-1").header("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2").timeout(5000).get();Element element = doc.getElementsByClass("bottom-pager").first().children().last();String index = element.attr("href").toString();String pageNum = index.substring(index.lastIndexOf("-")+1,index.length());int indexPage = Integer.valueOf(pageNum);System.out.println("当前搜索关键词共查询到"+indexPage+"个页面相关的数据!");StringBuffer sbf = new StringBuffer();for(int i=1 ; i <= indexPage ; i++){System.out.println("当前已加载并分析第"+i+"个页面======================================================》》》");Document docIndex = Jsoup.connect(baseUrl+key+"-first-asc-"+i).header("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2").get();Elements search = docIndex.getElementsByClass("search-item");for(Element e : search){sbf.append("链接名称:"+e.child(0).text()+"\n"+e.child(2).child(0).text()+"\n"+e.child(2).child(1).text()+"\n"+e.child(2).child(2).text()+"\n"+e.child(2).child(3).text()+"\n"+e.child(2).child(4).text()+":"+e.child(2).child(4).attr("href")+"\n"+e.child(2).child(5).text()+":"+e.child(2).child(5).attr("href")+"\n\n ===========光蓝Comet=====================光蓝Comet=====================光蓝Comet==========================>>>\n\n");}}System.out.println("恭喜您!页面加载完成...");return sbf.toString();}public static void main(String[] args) throws IOException {System.out.println("请输入需要查询的关键字o(^▽^)o。。。");String key = URLEncoder.encode(new Scanner(System.in).next(),"utf-8");System.out.println("正在为您在网上搜寻数据呦,请稍后。。。");String str = getData(key);FileWriter writer;int id = new Random().nextInt(1000);try {System.out.println("正在为您写入文件。。。");writer = new FileWriter(id+".txt");writer.write(str);writer.flush();writer.close();} catch (IOException e) {e.printStackTrace();}finally {System.out.println("恭喜您,文件写入完成!,文件名是"+id+".txt");}}}原文链接:http://www.sogablog.com/blog?id=UfbXI9wV

*———-
首先在Main入口执行输入要查询关键字,执行完毕以后刷新下项目就能看到下载的磁力链接列表了。。。o(^▽^)o*

java单线程爬虫使用Jsoup爬取bt磁力链接相关推荐

  1. 爬虫系列-jsoup爬取网页你需要了解的一切

    爬虫系列-jsoup爬取网页 概述 解析和遍历文档 文档的对象模型 加载HTML数据 从String解析文档 从String中加载解析片段 从URL加载文档 描述 从文件加载文档 描述 提取数据 使用 ...

  2. 项目三:爬取视频磁力链接

    项目三:爬取视频磁力链接 标签(空格分隔): 爬虫 BeautifulSoup -具体技术实现原理类似项目二 1. 项目任务分析 类似上一个小项目中爬取图片的技术原理,本次小项目尝试对相同网站上的可供 ...

  3. Python简单爬取电影磁力链接

    Python简单爬取电影磁力链接 网页的链接:http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html 打开你想要的电影:http://www.ygdy8. ...

  4. 【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

    百度抽奖概率改4个小时频繁黑屏频繁弹出源码的前端FE T8李森:请云端高level的同学参加会议...对,我级别到了... 666666 业务背景:如何保证搜索算法的好坏?所以有了竞品评测,自己的AP ...

  5. Java开源爬虫框架WebCollector—爬取新浪微博

    本教程给出了一个使用WebCollector模拟登陆并爬取新浪微博的示例.登录过程中会出现验证码.如图所示: 1.依赖jar包: 本教程需要两套jar包,WebCollector核心jar包和sele ...

  6. java 网络爬虫(以爬取豆瓣为例)

    文章目录 一. 设计思路 二. 功能概述 三.运行状态图 四.代码设计 1.设计一个类负责任意一个豆瓣电影详情网页的爬取. 2.设计一个类爬取 [豆瓣电影 Top 250](https://movie ...

  7. Go语言爬取网站磁力链接

    package mainimport ("bufio""fmt""io""io/ioutil""net/htt ...

  8. Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)

    文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分 代码部分 数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

  9. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  10. Java爬虫初学——爬取BT电影天堂电影的磁力链接并筛选下载

    最近和朋友们一起看悬疑电影,会百度了解信息并把想看的电影写在记事本中,突然萌生了一个想法,能不能写一个简单的程序每次自动下载记事本中想看的电影.因此用了一个下午和一个晚上的时间学习和编写了一个简单的J ...

最新文章

  1. 卷起来了,写了一套Tensorflow和Pytorch的教程
  2. OpenAirInterface,开源的 4G EPS 实现
  3. SpringBoot中在除controller以外注入service-过滤器中注入
  4. HTML基础(part7)--常用标签之超链接标签
  5. IDEA配置xml文件头报错:URI is not registered (Settings | Languages Frameworks | Schemas and DTDs)解决方法,亲测有效
  6. 开发者必备Linux命令
  7. 个人品牌这个事情,适用于长期主义者
  8. springboot框架笔记——springboot提供的自动配置
  9. 应用:Xbox 360无线大屏幕控制器“WP 7”
  10. 姜成转载:站群的操作方法
  11. 用Tampermonkey真正屏蔽B站自己不感兴趣的视频
  12. 澳门大学计算机qs排名,澳门大学世界排名(澳门科技大学qs世界排名2021)
  13. 当Apple TV+的生态化反梦,撞上一个“日渐昂贵”的流媒体市场
  14. UIUC计算机科学系博士,伊利诺伊大学香槟分校之计算机科学系
  15. haproxy配置sni实现https多域名代理
  16. 程序员在外包公司工作怎么样?
  17. 史上绝地反击,美式英语英文学习大全。美国英语最新词频表
  18. MITK中窗宽窗位相关代码
  19. 京东2017校园招聘Android研发工程师编程题(二):幸运数
  20. 少用的却实用的计算机知识

热门文章

  1. 【Unity3D基础2-2】认识Unity3D引擎
  2. CF55D-Beautiful numbers【数位dp】
  3. 《概率论与数理统计》(浙大第四版)第二章总结笔记(纯手写)
  4. 什么都不懂的人怎么样可以建立自己的网站
  5. 分享Web前端性能优化的实用技巧
  6. unity3D 最全资源合集分享
  7. 如何用excel批量生成word文档,并且命名?
  8. 秒跳转html代码,5秒定时跳转指定网页源码
  9. python拟合曲线求方程_matplotlib中对数曲线拟合及lin方程的求解
  10. LitePal的使用