content = item.xpath('//div[@class="content"]/span')[0].xpath('string(.)')

content= item.xpath('//div[@class="content"]/span//text()')

两种匹配规则,都能匹配到图中的文本段落内容:

第一种匹配到的结果是:

"content":

"\n\n\n小儿子5岁天生戏精在高铁站,一对夫妻带一男孩也5岁左右,小男孩坐地上耍赖,小夫妻与小男孩全程英语交流,坐他们对面的小儿子看的云里雾里,突然转过头跟我说,“妈妈,他们说的话我也会。”正在我惊讶之际,这小子一首“ABCDEFG……”好吧~\n\n"

第二种匹配到的结果是:

"content":

["\n\n\n小儿子5岁天生戏精", "在高铁站,一对夫妻带一男孩也5岁左右,小男孩坐地上耍赖,小夫妻与小男孩全程英语交流,坐他们对面的小儿子看的云里雾里,突然转过头跟我说,“妈妈,他们说的话我也会。”", "正在我惊讶之际,这小子一首“ABCDEFG……”", "好吧~\n\n"]

第一种匹配规则得到的content,内容中的
自动忽略,得到包含全部字符内容的整串,但是原本用换行符断句处没有逗号,产生的内容阅读起来可能不连贯。

第二种匹配规则得到的content,也将忽略内容中的
,同时会以
为间隔,将文本内容用逗号切开,最终得到一个字符串列表。

在对文本内容要求比较精确的情况下,可以将第二种规则匹配后的结果,用 "\n".join() 来对字符串列表进行处理,不会出现不连贯情况。

python 匹配段落_python中用xpath匹配文本段落内容的技巧相关推荐

  1. python怎么匹配字符串_python正则表达式如何匹配字符串

    python正则表达式匹配字符串的方法:1.使用[(.+?)]这个正则表达式来提取单个位置的字符串:2.使用[(?P-)]这个正则表达式[匹配连续多个位置的字符串. python正则表达式匹配字符串的 ...

  2. python实现括号匹配代码_python实现括号匹配的思路详解

    1.用一个栈[python中可以用List]就可以解决,时间和空间复杂度都是O(n) # -*- coding: utf8 -*- # 符号表 SYMBOLS = {'}': '{', ']': '[ ...

  3. python 写txt 换行_写入txt文本的内容为什么没换行效果?

    PHP把内容写入文件,并每次自动换行 weixin_4089680029712018-07-20 Java文本追加.换行.输出到TXT u01422837514692015-12-15 Android ...

  4. python正则匹配空格_Python中正则匹配TAB及空格的小技巧

    在正则中,使用.*可以匹配所有字符,其中.代表除\n外的任意字符,*代表0-无穷个,比如说要分别匹配某个目录下的子目录: >>> import re >>> mat ...

  5. python word排版_Python控制Word文件中段落格式与文本格式

    本文主要介绍扩展库python-docx中关于Word文件中文本格式控制的接口和用法,可以使用命令pip install python-docx安装,然后通过名字docx来使用其中提供的功能. 1.设 ...

  6. 基于python文本挖掘实战_python实现CNN中文文本分类

    [实例简介] CNN 中文文本挖掘 文本分类 python 深度学习 机器学习 [实例截图] [核心代码] zh_cnn_text_classify-master └── zh_cnn_text_cl ...

  7. python一键替换_python 实现批量替换文本中的某部分内容

    一.介绍 在做YOLOv3项目时,会需要将文本文件中的某部分内容进行批量替换和修改,所以编写了python程序批量替换所有文本文件中特定部分的内容. 二.代码实现 import re import o ...

  8. python 按键精灵_python中用ctypes模拟点击的实例讲解

    在小编学习python中的模拟点击之前,我们想要对某一项操作进行自动指令的重复,可以选择大家熟知的按键精灵.那么对比python的模拟点击,小编还是觉得python中使用更加方便.这样说不能让有些小伙 ...

  9. python文字冒险游戏_python实现的简单文本类游戏实现方法

    本文实例讲述了python实现的简单文本类游戏实现方法.分享给大家供大家参考.具体实现方法如下: ################################################### ...

最新文章

  1. Windows下R语言环境安装
  2. Delphi-网络编程-UDP聊天程序(转)
  3. phoenixframework自动化测试平台架构图
  4. scikit-learn学习笔记(四)Ridge Regression ( 岭回归 )
  5. 静物摄影用光技巧_详解摄影用光技巧,用好光线,拍出好照片。
  6. Kubernetes架构为什么是这样的?
  7. Android官方开发文档Training系列课程中文版:性能优化建议
  8. 使用jaxb根据xsd逆向生成java代码
  9. PHP是4个进程还是五个,PHP多进程(4) :内部多进程
  10. QuickWebApi2:使用Lambda方式,完成对WebApi的开发和调用-文档的生成
  11. python3.7保存不了_Python3.7 traceback捕获打印和保存异常
  12. 像电影里黑客高手一样写代码
  13. 为什么大部分人,会对南北经济“差距”产生误解?
  14. 阿里编程规范(精简版)
  15. W806芯片性能测试
  16. 【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告
  17. 健身房健身需要什么装备,五款健身房必备运动耳机分享
  18. POJ1608 Banal Tickets
  19. 分析2440开发板和4412开发板的性价比_初学者你们怎么看?
  20. 在线教育20年:在线教育的未来发展趋势

热门文章

  1. 经验性和理论性的研究方法
  2. 苹果手机2019年什么时候出新款_苹果前员工视频秀三款新iPhone模型,详细对比现款...
  3. mysql中文字符存储_mysql定义汉字存储类型
  4. maven私服 的详细介绍和搭建 下载慢的注意事项
  5. 进口信用证项下的贸易融资——进口押汇
  6. Android Execution failed for task ‘:app:process_DebugManifest‘.
  7. 苹果高通之基带芯片战争
  8. 如何让你的APP变小及手机各屏幕尺寸
  9. ffmpeg实例,比特率码率(-b)、帧率(-r)和文件大小(-fs)相关操作
  10. 顺序表中删除指定值时间复杂度为O(n)空间复杂度为O(1)