java爬虫工具:Jsoup

Maven地址

org.jsoup

jsoup

1.11.2

网页分析:

商品布局分析:

Java代码实例:

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

/**

* 作者:小鱼

* 作者唯一QQ号:1132017151

*

* 简单测试类

* 包含内容:京东商品页查询

* 不包含京东商品排除个性化查询和后半部动态加载,如有想要了解,请联系作者

* */

public class Test {

public static void main(String[] args) throws Exception {

String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&psort=3&page=3";//第二页商品

//网址分析

/*keyword:关键词(京东搜索框输入的信息)

* enc:编码方式(可改动:默认UTF-8)

* psort=3 //搜索方式 默认按综合查询 不给psort值

* page=分业(不考虑动态加载时按照基数分业,每一页30条,这里就不演示动态加载)

* 注意:受京东商品个性化影响,准确率无法保障

* */

Document doc = Jsoup.connect(url).maxBodySize(0).get();

//doc获取整个页面的所有数据

Elements ulList = doc.select("ul[class='gl-warp clearfix']");

Elements liList = ulList.select("li[class='gl-item']");

//循环liList的数据

for (Element item : liList) {

//排除广告位置

if (!item.select("span[class='p-promo-flag']").text().trim().equals("广告")) {

//如果向存到数据库和文件里请自行更改

System.out.println(item.select("div[class='p-name p-name-type-2']").select("em").text());//打印商品标题到控制台

}

}

}

}

运行结果:

如有疑问可加作者QQ或者博客园留言,看到必回!

如有转载,请自觉贴上本帖地址,谢谢合作!

java爬虫爬取天眼查_Java爬虫爬取京东商品信息相关推荐

  1. 爬取天眼查 的python 代码

    ''' @Description: 天眼查关键词爬取风险信息 @Author: bessie_lina @Date: 2019-08-14 17:39:30 @LastEditTime: 2019-0 ...

  2. go爬虫和python爬虫哪个好_python 爬虫实战项目--爬取京东商品信息(价格、优惠、排名、好评率等)-Go语言中文社区...

    利用splash爬取京东商品信息 一.环境 window7 python3.5 pycharm scrapy scrapy-splash MySQL 二.简介 为了体验scrapy-splash 的动 ...

  3. layui获取input信息_python爬虫—用selenium爬取京东商品信息

    python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...

  4. python爬虫爬取京东商品评价_python爬取京东商品信息及评论

    ''' 爬取京东商品信息: 功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取 ...

  5. python爬虫爬商品库存_python爬虫实践——爬取京东商品信息

    1 ''' 2 爬取京东商品信息:3 请求url:4 https://www.jd.com/5 提取商品信息:6 1.商品详情页7 2.商品名称8 3.商品价格9 4.评价人数10 5.商品商家11 ...

  6. 使用python程序抓取天眼查,企查查和爱企查上的企业基本信息

    本文说明使用python程序自动抓取天眼查或者企查查上的企业基本信息.本文中的程序仅供学习参考,请通过正规渠道获取相应的数据资产. 工程目录如下: w3目录下内容为: 工程中的部分源码如下. 文件pa ...

  7. Selenium介绍--实例爬取京东商品信息与图片

    目录 一.Selenium简介 二.Selenium组成 三.Selenium特点 四.Selenium的基本使用 1.下载所用浏览器需要的驱动 2.创建项目并导入依赖 3.入门 3.代码演示 五.实 ...

  8. Python爬虫——京东商品信息 前期准备

    我们想用Python编写京东商品爬虫,其实很简单.可以使用Python的第三方爬虫框架(比如BeautifulSoup, requests等)结合学习HTTP请求和页面解析. 可以利用requests ...

  9. python爬取京东商品信息代码_Python利用Xpath选择器爬取京东网商品信息

    HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step ...

  10. Day06,selenium的剩余用法、万能登录破解和爬取京东商品信息,及破解极验滑动验证码...

    一.自动登录抽屉新热榜 from selenium import webdriver import timedriver = webdriver.Chrome(r'D:\BaiduNetdiskDow ...

最新文章

  1. tomcat远程调试
  2. shiro整合ehcache
  3. 程序员选择字体的标准是
  4. Java黑皮书课后题第8章:**8.37(猜测首府)编写一个程序,重复提示用户输入一个州的首府。当接收到用户输入后,程序报告答案是否正确。假设50个州以及它们的首府保存在一个二维数组中,提示用户回答所
  5. Android之Only fullscreen opaque activities can request orientation
  6. 飞畅科技-交换机的三种交换方式详解
  7. apache配置php版本,apache配置支持多版本php
  8. Ubuntu 18.04 安装 NVIDIA+ CDUDA +CUDNN
  9. java 汉字排序_Java中文排序
  10. jQuery源码解析
  11. 网关串口+EM310
  12. json csrf html5,Exploiting JSON CSRF
  13. em模型补缺失值_缺失值填补方法
  14. android 工具栏透明,Android 系统状态栏沉浸式/透明化完整解决方案
  15. 毕设-基于LoRa的智能农业大棚(一)
  16. 添加航班信息c语言,c语言编写航班查询代码
  17. 腾讯微搭低代码(预约)总体介绍——工作室专用(客户端)
  18. 数据分析实战 | 银行 “信贷” 客户的可视化分析
  19. Unity线程与协程
  20. MySQL基础--MySQL数据库基本操作

热门文章

  1. vant 表单按钮置灰_Vant Switch 开关
  2. 北洋降舰之鱼雷艇队 ZT
  3. 二元二次方程例题_二元二次方程组-解法-例题.
  4. bat文件实现ftp上传和下载
  5. html jquery隐藏input,JQuery控制input的隐藏和显示
  6. 神舟战神换cpu教程_神舟战神能换什么cpu 神舟战神Z7可以换CPU吗
  7. Nginx 的配置文件
  8. Typora使用技巧之插入图片及图片上传
  9. 【Unity】Unity5.0之PBR/PBS详解
  10. 魔兽世界服务器卡 邮件寄不出去,魔兽世界怀旧服邮件收不到怎么办 WOW怀旧服邮件取不出来解决方法...