因为项目需求我需要在网站上爬取中国地区编号的信息,用于创建用户的运费模板,数据格式为key为湖南省,value为长沙市,430100
被爬取的网站链接:https://blog.csdn.net/a497785609/article/details/7656330

try {//从网站上爬取中国地区编号转变成MapDocument tbTmallPageDoc = Jsoup.connect("https://blog.csdn.net/a497785609/article/details/7656330").timeout(20000).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36").get();Elements elements = tbTmallPageDoc.select("div.htmledit_views").select("p").eq(1);//格式为一个省份对应多个城市,例如:key为湖南省,value为长沙市,430100Map<String, Map<String, String>> linkedHashMap = new LinkedHashMap<>();Arrays.asList(elements.html().split("<br>")).forEach(x -> {Map<String, String> map = new HashMap<>();List<String> stringList = Arrays.asList(x.split("&nbsp;")).stream().filter(z -> !z.isEmpty()).collect(Collectors.toList());stringList = stringList.subList(2, stringList.size() - 3);for (int i = 0; i < stringList.size(); i++) {//如果linkedHashMap已经key已存在则获取valueString key = stringList.get(i) + ";" + stringList.get(++i);if (linkedHashMap.containsKey(key)) {map = linkedHashMap.get(key);map.put(stringList.get(++i), stringList.get(++i));linkedHashMap.put(key, map);} else {map.put(stringList.get(++i), stringList.get(++i));linkedHashMap.put(key, map);}}});} catch (IOException e) {e.printStackTrace();}

用Jsoup从网页上抓取中国地区编号转变成Map相关推荐

  1. 根据专利号到专利查询的网站上抓取想要的信息(上)

    前述:前几天看到有人论要请别人写一个从从网页上抓取某个专利号的收费信息的一个程序,说实话我自己知道那里面的原理是什么,但一直没有自己动手实现以下.根据自己的实际的工作需要一般是有一张Excel表,第一 ...

  2. Android登录客户端,验证码的获取,网页数据抓取与解析,HttpWatch基本使用

    大家好,我是M1ko.在互联网时代的今天,如果一个App不接入互联网,那么这个App一定不会有长时间的生命周期,因此Android网络编程是每一个Android开发者必备的技能,博主是在校大学生,自学 ...

  3. 网页信息抓取进阶 支持Js生成数据 Jsoup的不足之处

    转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...

  4. 抓取中国天气网当前时段所有城市的天气数据(python+xpath)

    先给大家看一看效果图(我一共获取到了462个城市的天气): 前不久,2019年开放数据中心峰会在北京国际会议中心成功召开,ODCC指出:"对数据进行汇聚,在体系化融合中产生新的价值已成为未来 ...

  5. 从Internet上抓取指定URL的源码的方案

    从Internet上抓取指定URL的源码的方案 作者: 引言: 在做无线项目的时候,与通讯公司的数据通讯有一部分是通过XML交互的,所以必须要动态抓取通讯公司提供的固定的Internet上的数据,便研 ...

  6. 网页数据抓取-网页实时数据抓取软件

    网页数据抓取,随着社会的发展,互联网的普及,不管是企业还是个人都意识到数据的重要性.今天给大家分享一款免费的网页数据抓取软件.只要点点鼠标就能轻松采集你想要的内容不管是导出还是自动发布都支持!详细参考 ...

  7. 网页数据抓取之当当网

    所谓"网页数据抓取",也称为网页数据采集,Web数据采集等等,就是从我们平时通过浏览器查看的web网页上来提取需要的数据信息,然后以结构化的方式存储到CSV.JSON.XML.AC ...

  8. 根据专利号到专利查询的网站上抓取想要的信息(下)

    上一回讲了怎么根据一个专利号发送我们要查询信息的请求,详情请看根据专利号到专利查询的网站上抓取想要的信息(上).接下来要做的就是从一个Excel表中去读取我们要查的一系列的申请号,然后将抓到的信息写到 ...

  9. C#网页爬虫抓取行政区划

    借鉴C#网页爬虫抓取行政区划,从国家统计局获取了最新行政区域数据. 以下为代码贴片: 数据库类: public class City {public decimal ID { get; set; }p ...

  10. 网页数据抓取 java_Java抓取网页数据(原网页+Javascript返回数据)

    转载请注明出处! 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同! 本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据:(2)抓取网页Javas ...

最新文章

  1. 企业服务内部接口校验方案
  2. 失战于知识付费,会员与智能硬件将助蜻蜓FM打赢下半场战争?
  3. Qt Creator创建组件
  4. 【SSH】——Struts2中的动态方法调用(一)
  5. linux如果一个目录具有执行,Linux操作系统部分复习题答案
  6. ApacheCN Angular 译文集 20211114 更新
  7. matlab的函数要写在哪,matlab函数库在哪
  8. Flex手机开发系列一:新建Flex手机项目并打包
  9. 代码实现识别部分截图在整张图片中的位置_基于神经网络的OCR识别
  10. visual studio 2015 rc cordova -hello world
  11. 10/13 Total variation loss 全变分
  12. 仙武:开局神级召唤!(一)
  13. 勾股数规律(任意三个数能够满足勾股定理需要满足的条件)
  14. 【射影几何01】 射影几何介绍
  15. HTTP 模拟post请求
  16. 淘宝美食数据分析实战,三只松鼠居然这么强?
  17. 【综述篇】(1)无人驾驶/机器人规划方向综述
  18. 【C】五边形绘制(续)
  19. 学院后勤报修系统php,学校后勤报修系统功能介绍
  20. po/mo互相转换工具

热门文章

  1. des加密 lua_纯lua实现Base64加密与解密
  2. 斐讯K3官改,安装onmp教程,回馈社区。
  3. ssci源刊里有开源期刊吗_SSCI和SCI期刊投稿指南-以经济学和管理学为例
  4. Yolov5+Resnet+Flask实现唇语识别系统
  5. 密码编码学之公钥密码学及RSA
  6. python 麦克风人声检测_人声后期混音教程:13条人声处理技巧
  7. python 拼音输入法_ubuntu上安装 ibus Google拼音输入法(修改一点错误)
  8. Centos7安装Rarlinux解压rar文件
  9. 华为路由器配置Telnet登录
  10. Spring框架学习笔记6-AOP编程-AspectJ方式