xpath代码:

import requests
from lxml import etreeurl = 'https://www.jhc.cn/4548/list.htm'
data = requests.get(url)
data.encoding = 'utf-8'
s = etree.HTML(data.text)
print(data.text)
titlelist= s.xpath('//span[@class="Article_Title"]/a/text()')
hreflist=s.xpath('//span[@class="Article_Title"]/a/@href')
for i in range(len(hreflist)):title=titlelist[i]href=hreflist[i]print("标题:",title,"网址:","https://www.jhc.cn"+href)
for n in range(len(hreflist)):print("\n")turl='https://www.jhc.cn/'+hreflist[n]tdata = requests.get(turl)tdata.encoding = 'utf-8'x= etree.HTML(tdata.text)ttitle=x.xpath('//h1[@class="arti-title"]/text()')author=x.xpath('//p[@class="arti-metas"]/span/text()')zhengwen=x.xpath('//span[@style]/text()')print("标题:",ttitle)print(author)zhengwen.remove(zhengwen[0])# print(zhengwen)for n in range(len(zhengwen)):zhengwen=''.join(zhengwen)print("正文: ",zhengwen)

使用xpath爬取学院新闻相关推荐

  1. python+Xpath爬取英文新闻并生成文档词频矩阵

    详情见我的github:https://github.com/Snowing-ST/Statistical-Case-Studies/tree/master/Lab3%20English%20Text ...

  2. 爬取校园新闻首页的新闻

    1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文. url = "http://news.gzcc.cn/html/xiaoyuanxinwe ...

  3. scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...

  4. 【python 爬虫】 scrapy 入门--爬取百度新闻排行榜

    scrapy 入门–爬取百度新闻排行榜 环境要求:python2/3(anaconda)scrapy库 开发环境:sublime text + windows cmd 下载scrapy(需要pytho ...

  5. 爬虫(爬取36kr新闻)(未完成)

    爬取36kr网站的经历 虽然之前老是听同学提起网络爬虫,但是自己一直没有尝试过.这次因为项目需要,我也开始了爬虫之旅.跌跌撞撞,特此记录,希望能够帮助到一些人,也是对自己的一个总结提高. 设计到的知识 ...

  6. python 爬取财经新闻_金融财经新闻的文本爬取

    大家一定还记得<金融数据的获取--一个爬虫的简单例子>这篇文章中介绍的爬虫思想和方法吧.看过之后,大多数人都会有这样的感受,虽然爬虫的原理比较简单,但是正则表达式却很难写.对于每个页面内容 ...

  7. 【Java爬虫】HttpClient+Jsoup实现爬取校内新闻

    介绍 接上一篇博客,本篇主要讲如何利用上一篇的HttpUtil工具类实现爬取校内新闻 上篇地址: https://blog.csdn.net/m0_64261982/article/details/1 ...

  8. 19. python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求 [前期准备] 2.分析及代码实现 (1)获取五大板块详情页url (2)解析每个板块 (3)解析每个模块里的标题中详情页信息 1.需 ...

  9. 爬取央视新闻国内版块新闻

    爬取央视新闻国内版块 一个练习项目,爬取央视新闻的国内新闻板块,保存为txt文件.格式未经仔细排版. import requests import re from lxml import etree ...

最新文章

  1. matlab中cumsum函数的使用
  2. java批量事物管理_[疯狂Java]JDBC:事务管理、中间点、批量更新
  3. python如何在手机上下载模块-Python 下载文件的 11 种方式
  4. agg::rendering_buffer 渲染缓存
  5. 用python替换文件中内容的两种方法
  6. HTML5 速查列表
  7. boost::gil::compute_harris_responses用法的测试程序
  8. resnet网络结构_深度学习之16——残差网络(ResNet)
  9. HTTP协议是如何实现“秘密交互”的?
  10. Android开发之利用动画做出Activity悬浮滑动效果
  11. 院士新作赠送——调查问卷活动感谢信
  12. 如果多个用户同时修改同一客户记录,而且先后提交修改,Oracle 怎样保证该客户记录...
  13. [USACO 2012 Feb Gold] Cow Coupons【贪心 堆】
  14. chpater 2 : InnoDB存储引擎
  15. linux xps文件,XPS 文件扩展名: 它是什么以及如何打开它?
  16. Activiti6.0 用户任务分配方式总结(单人任务、多人任务)
  17. Win7串口开发的的一些错误以及解决方案
  18. python的编码解码是什么意思_python - 这是什么编码,如何解码
  19. 或且非 java_Java且或非的符号
  20. dba怎么报考_2019年报考DBA需要什么条件,要求是不是很高?

热门文章

  1. Springboot 使用设计模式- 策略模式
  2. 衡量风控模型优劣的曲线-PR曲线、ROC曲线、K-S曲线、Lift曲线
  3. 大数据技术之Hadoop(HDFS)第2章 HFDS的Shell操作
  4. 我的awk常用命令备忘 xargs备忘
  5. 双硬盘安装win10和linux双系统,双硬盘安装win10+ubuntu18心得
  6. 照度计的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  7. 2018/12/22
  8. python list 查找与过滤方法整合
  9. 【面试篇】ConcurrentHashMap1.7和1.8详解对比
  10. c语言数组相同字符主元素,C语言数组考点归纳