java爬虫爬取天眼查_Java爬虫爬取京东商品信息
java爬虫工具:Jsoup
Maven地址
org.jsoup
jsoup
1.11.2
网页分析:
商品布局分析:
Java代码实例:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* 作者:小鱼
* 作者唯一QQ号:1132017151
*
* 简单测试类
* 包含内容:京东商品页查询
* 不包含京东商品排除个性化查询和后半部动态加载,如有想要了解,请联系作者
* */
public class Test {
public static void main(String[] args) throws Exception {
String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&psort=3&page=3";//第二页商品
//网址分析
/*keyword:关键词(京东搜索框输入的信息)
* enc:编码方式(可改动:默认UTF-8)
* psort=3 //搜索方式 默认按综合查询 不给psort值
* page=分业(不考虑动态加载时按照基数分业,每一页30条,这里就不演示动态加载)
* 注意:受京东商品个性化影响,准确率无法保障
* */
Document doc = Jsoup.connect(url).maxBodySize(0).get();
//doc获取整个页面的所有数据
Elements ulList = doc.select("ul[class='gl-warp clearfix']");
Elements liList = ulList.select("li[class='gl-item']");
//循环liList的数据
for (Element item : liList) {
//排除广告位置
if (!item.select("span[class='p-promo-flag']").text().trim().equals("广告")) {
//如果向存到数据库和文件里请自行更改
System.out.println(item.select("div[class='p-name p-name-type-2']").select("em").text());//打印商品标题到控制台
}
}
}
}
运行结果:
如有疑问可加作者QQ或者博客园留言,看到必回!
如有转载,请自觉贴上本帖地址,谢谢合作!
java爬虫爬取天眼查_Java爬虫爬取京东商品信息相关推荐
- 爬取天眼查 的python 代码
''' @Description: 天眼查关键词爬取风险信息 @Author: bessie_lina @Date: 2019-08-14 17:39:30 @LastEditTime: 2019-0 ...
- go爬虫和python爬虫哪个好_python 爬虫实战项目--爬取京东商品信息(价格、优惠、排名、好评率等)-Go语言中文社区...
利用splash爬取京东商品信息 一.环境 window7 python3.5 pycharm scrapy scrapy-splash MySQL 二.简介 为了体验scrapy-splash 的动 ...
- layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
- python爬虫爬取京东商品评价_python爬取京东商品信息及评论
''' 爬取京东商品信息: 功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取 ...
- python爬虫爬商品库存_python爬虫实践——爬取京东商品信息
1 ''' 2 爬取京东商品信息:3 请求url:4 https://www.jd.com/5 提取商品信息:6 1.商品详情页7 2.商品名称8 3.商品价格9 4.评价人数10 5.商品商家11 ...
- 使用python程序抓取天眼查,企查查和爱企查上的企业基本信息
本文说明使用python程序自动抓取天眼查或者企查查上的企业基本信息.本文中的程序仅供学习参考,请通过正规渠道获取相应的数据资产. 工程目录如下: w3目录下内容为: 工程中的部分源码如下. 文件pa ...
- Selenium介绍--实例爬取京东商品信息与图片
目录 一.Selenium简介 二.Selenium组成 三.Selenium特点 四.Selenium的基本使用 1.下载所用浏览器需要的驱动 2.创建项目并导入依赖 3.入门 3.代码演示 五.实 ...
- Python爬虫——京东商品信息 前期准备
我们想用Python编写京东商品爬虫,其实很简单.可以使用Python的第三方爬虫框架(比如BeautifulSoup, requests等)结合学习HTTP请求和页面解析. 可以利用requests ...
- python爬取京东商品信息代码_Python利用Xpath选择器爬取京东网商品信息
HTML文件其实就是由一组尖括号构成的标签组织起来的,每一对尖括号形式一个标签,标签之间存在上下关系,形成标签树:XPath 使用路径表达式在 XML 文档中选取节点.节点是通过沿着路径或者 step ...
- Day06,selenium的剩余用法、万能登录破解和爬取京东商品信息,及破解极验滑动验证码...
一.自动登录抽屉新热榜 from selenium import webdriver import timedriver = webdriver.Chrome(r'D:\BaiduNetdiskDow ...
最新文章
- tomcat远程调试
- shiro整合ehcache
- 程序员选择字体的标准是
- Java黑皮书课后题第8章:**8.37(猜测首府)编写一个程序,重复提示用户输入一个州的首府。当接收到用户输入后,程序报告答案是否正确。假设50个州以及它们的首府保存在一个二维数组中,提示用户回答所
- Android之Only fullscreen opaque activities can request orientation
- 飞畅科技-交换机的三种交换方式详解
- apache配置php版本,apache配置支持多版本php
- Ubuntu 18.04 安装 NVIDIA+ CDUDA +CUDNN
- java 汉字排序_Java中文排序
- jQuery源码解析
- 网关串口+EM310
- json csrf html5,Exploiting JSON CSRF
- em模型补缺失值_缺失值填补方法
- android 工具栏透明,Android 系统状态栏沉浸式/透明化完整解决方案
- 毕设-基于LoRa的智能农业大棚(一)
- 添加航班信息c语言,c语言编写航班查询代码
- 腾讯微搭低代码(预约)总体介绍——工作室专用(客户端)
- 数据分析实战 | 银行 “信贷” 客户的可视化分析
- Unity线程与协程
- MySQL基础--MySQL数据库基本操作
热门文章
- vant 表单按钮置灰_Vant Switch 开关
- 北洋降舰之鱼雷艇队 ZT
- 二元二次方程例题_二元二次方程组-解法-例题.
- bat文件实现ftp上传和下载
- html jquery隐藏input,JQuery控制input的隐藏和显示
- 神舟战神换cpu教程_神舟战神能换什么cpu 神舟战神Z7可以换CPU吗
- Nginx 的配置文件
- Typora使用技巧之插入图片及图片上传
- 【Unity】Unity5.0之PBR/PBS详解
- 魔兽世界服务器卡 邮件寄不出去,魔兽世界怀旧服邮件收不到怎么办 WOW怀旧服邮件取不出来解决方法...