jsoup的jar包maven导入

<dependencies>
<!--        爬虫--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.13.1</version></dependency>
</dependencies>

爬取的内容打印到控制台
你也可以输出到文件
在输出到文件方法中的注释就是输出到文件,你修改一下文件路径和文件的格式就可以了。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.*;
import java.util.HashMap;
import java.util.Map;/*** @author kliker* @version 1.0*/
//生成文档注释 javadoc -d F:\SSM\data -author -version Main.java
public class Main {private static Map<String,String> map = new HashMap<>();public static void main(String[] args) {for(int i = 1;i<101;i++) {String url = "https://sz.lianjia.com/zufang/pg"+i+"rt200600000002/#contentList";try {Document html = Jsoup.connect(url).get();Elements elements = html.getElementsByClass("twoline");for (Element element : elements) {String title = element.text();String content = element.getElementsByTag("a").attr("href");
//                    System.out.println(title + "\t" + "https://sz.lianjia.com" + content);String contents = getHtml(content);map.put(title,contents);}writeFile(map);} catch (IOException e) {e.printStackTrace();} catch (Exception e) {e.printStackTrace();}}}//获取房子详细信息public static String getHtml(String content){String url = "https://sz.lianjia.com"+content;String contents1 = null;String contents2 = null;try {Document html = Jsoup.connect(url).get();Elements elements1 = html.select("#info");
//            Elements elements2 = html.select("body > div.wrapper > div:nth-child(2) > div.content.clear.w1150 > div.content__detail > div.content__article.fl > ul");
//            Elements elementsImg = html.select("#gslide > div > p.gslide--list");
//            for(Element element : elementsImg){//                String attr = element.getElementsByTag("img").attr("src");
//                getImg(attr);
//            }contents1 = elements1.text();
//            contents2 = elements2.text();System.out.println(contents1);}catch(Exception e){e.printStackTrace();}return contents1;}//获取房子图片
//    public static void getImg(String urlImg){//        try {//            Document html = Jsoup.connect(urlImg).get();
//        }catch(Exception e){//            e.printStackTrace();
//        }
//    }//写入文件public static void writeFile(Map<String,String> map) {try {//            BufferedWriter bf = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("data/shenzhenzufang.txt"))));
//            for(Map.Entry<String,String> entry:map.entrySet()) {//                bf.write(entry.getKey());
//                bf.newLine();
//                bf.write(entry.getValue());
//                bf.newLine();
//            }
//            bf.flush();
//            bf.close();PrintWriter pw = new PrintWriter(new OutputStreamWriter(System.out));for(Map.Entry<String,String> entry:map.entrySet()) {pw.println(entry.getKey());pw.println(entry.getValue());}}catch(Exception e){e.printStackTrace();}}
}

链家爬取深圳租房代码(java)相关推荐

  1. 深圳python爬虫培训南山科技园钽电容回收_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题...

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

  2. python解决租房问题_记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

    为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓网站上深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: import requests from reques ...

  3. 九十二、Python爬取深圳租房信息小案例

    @Author:Runsen @Date:2020/6/19 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...

  4. 爬取链家网站的北京租房信息

    本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...

  5. 爬取链家网站中的租房信息

    爬取链家网站中的租房信息 信息爬取代码 信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...

  6. python 爬取自如租房的租房数据,使用图像识别获取价格信息

    python 爬取自如租房的租房数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/ziru #!/usr/bin/py ...

  7. python爬虫爬取58网站数据_Python爬虫,爬取58租房数据 字体反爬

    Python爬虫,爬取58租房数据 这俩天项目主管给了个爬虫任务,要爬取58同城上福州区域的租房房源信息.因为58的前端页面做了base64字体加密所以爬取比较费力,前前后后花了俩天才搞完. 项目演示 ...

  8. Python爬取自如租房信息(价格)笔记——笨办法

    爬取自如租房信息 最近正在学习python爬虫,顺便又要租房子,于是就想爬去自如上的租房信息顺便来联系一下. ·掉进价格的大坑里 在爬取过程中一切都听顺利的,可是到了最关键的房租部分就遇到了问题.居然 ...

  9. python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库

    python-爬虫,实现输入关键字,然后爬取关键字主页代码并存储到mysql数据库 实现代码如下: 代码是可以实现的,有问题可以私聊我 import os import sys import base ...

  10. 进军Json,以战养战 -- 爬取搜狗图片代码分析

    爬取搜狗图片代码分析 代码 代码功能 代码 代码解析 总结 代码 代码功能 从搜狗网页下载 n 张指定分类的图片并保存到指定的文件夹. 代码 # 导入相关的库 import requests impo ...

最新文章

  1. 【c_prime_plus】第十七章笔记
  2. f分布表完整图a=0.05_MySQL8.0新特性-invisible indexes
  3. python处理csv文件 sql_如何用python将csv文件写入sql数据库
  4. poj 3352 Road Construction(边-双连通分量)
  5. VTK:可视化之BoxClipUnstructuredGrid
  6. 基于指数平滑对心电信号进行PQRST模拟(第二种方案)
  7. android 通讯录字母排序,Android仿微信联系人字母排序效果
  8. 陈敏敏-130242014024-实验一
  9. 四元数左乘右乘_四元数、欧拉角学习笔记个人理解
  10. druid删除数据_Apache druid 删除数据流程 0.13
  11. 从平台架构到大屏可视化,一文读懂金融服务行业的数据分析
  12. API 的5 大身份验证安全隐患
  13. 上海电信宽带自助修复服务器,家庭网络故障自助修复法
  14. 软件测试及标准(基于ISO/IEC/IEEE 29119系列)
  15. 为什么相关不等于因果
  16. 海德汉 LSV2 协议采集 2
  17. 吊打面试官:Android中高级面试题 -- 终局之战,万分膜拜
  18. 5 种 无线协议的特点:lora、NB-IOT、ZigBee、WiFi、BLE
  19. JavaScript_ES5和ES6
  20. 【安装配置Git】最新版Git安装教程

热门文章

  1. labelmx条码打印软件如何批量制作服装吊牌
  2. 「黑科技」盘点那些脑洞大开的人类设计的“异形”机器人
  3. source setup.bash 文件
  4. D3.入门教程——简介和安装
  5. Surrogate mother是代孕妈妈,那么,Surrogate parent呢?
  6. [导入]饭后适宜吃14种健康零食
  7. 阿里高频面试题:如何快速判断元素是不是在集合里?
  8. 梦幻西游手游经验任务链计算机,梦幻西游手游经验和道具任务链攻略
  9. 安卓手机云控系统框架源码,PHP+Autojs, ,这套是空框架源码
  10. 关于.Net的面试遐想