问题来源于 xpath 爬虫,我通过 requests 提取到的 HTML 内容为字符串,不是 json 格式,所以需要提取字符串中的 URL,但是这比 json 数据难处理多了。为此在Google上找到了方法。

What’s the cleanest way to extract URLs from a string using Python?

https://stackoverflow.com/questions/520031/whats-the-cleanest-way-to-extract-urls-from-a-string-using-python/44936558#44936558?newreg=a1ad42438aea44d08f387154dbb6891d

由于提取到的超链接里面既有图片,也有文本(这是由urlextract.py 文件决定的,具体的可以参考GitHub网页 https://github.com/lipoja/URLExtract),我只需要文本的链接,所以需要过滤数据。
Python判断一个字符串是否包含子串的几种方法

https://blog.csdn.net/yl2isoft/article/details/52079960

def get_url():with codecs.open('../xinhuanet/汽车_新闻.txt', 'a') as file:response = requests.get(homepage, proxies=proxies, headers=headers, params=data)print(response.status_code)  # 200html = etree.HTML(response.content)print(tostring(html).decode())  # 找不到想要的内容extractor = URLExtract()urls = extractor.find_urls(tostring(html).decode(), only_unique=True)# print(urls)pc_url = []for u in urls:flag = ".htm" in uif flag is True:pc_url.append(u)file.writelines(u)file.writelines('\n')print(pc_url)return pc_url

Python 如何从字符串中提取 URL 链接相关推荐

  1. python输入文字字符串、如何提取字符_如何使用python从字符串中提取url?

    例如: string = "This is a link http://www.google.com" 我怎样才能提取"http://www.google.com&quo ...

  2. php提取字符串连接,如何从PHP中的字符串中提取URL?

    我正在使用PHP的"simplexml_load_file"从Flickr获取一些数据. 我的目标是获取照片网址. 我能够得到以下值(分配给PHP变量): codewrecker ...

  3. python/正则 从字符串中提取数字

    string = 'Argentina:111min|UK:110min|Poland:106min(dvdrelease)' 提取出[111,110,106] 代码如下: import restri ...

  4. python正则表达式提取数字比较好_python正则表达式从字符串中提取数字的思路详解...

    python从字符串中提取数字 使用正则表达式,用法如下: ## 总结 ## ^ 匹配字符串的开始. ## $ 匹配字符串的结尾. ## \b 匹配一个单词的边界. ## \d 匹配任意数字. ## ...

  5. python 从字符串中提取数字 re.findall()

    以前老用(.*?)提取数字,今天发现不对了,比如一行数字为: 0 0.248438 0.255556 0.128125 0.194444 用: re.findall('(.*?) (.*?) (.*? ...

  6. python电话号码对应的字符组合_Python3 在字符串中提取字母+数字组合微信账号、电话等 - pytorch中文网...

    今天处理数据要提取字符串中的微信,字符串中包含中文英文Emoji,标点符号等. python 提取字符串中的电话 提取电话相对简单,多个电话也可以提取 import re desstr = " ...

  7. python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例

    01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

  8. python关键词提取_如何从Python格式字符串中提取关键字? - python

    我想在API中提供自动字符串格式,例如: my_api("path/to/{self.category}/{self.name}", ...) 可以替换为格式化字符串中标注的属性值 ...

  9. python文本分析 提取数据含义_从文本字符串中提取数据进行分析

    需求 在进行数据分析的时候,有时候会碰到需要从文本字符串中提取需要的数据来进行分析的情况,这种需求在网络爬虫数据分析非常常见. 比如,需要下列表格"基础薪资规则"字段中提取阶梯单量 ...

  10. 正则匹配——python用一个正则表达式从字符串中提取数字(包括整数、小数、正负数)

    import re# 从字符串中提取数字 totalCount = '-100,abc2.4-123s,d-1ds-0.234as123.2s1.3bb.24' count = re.findall( ...

最新文章

  1. linxu 下安装mysql5.7.19
  2. java如何访问局域网共享文件
  3. blockchain 区块链200行代码:在JavaScript实现的一个简单的例子
  4. php上传图片限制类型,php,_使用php的图片上传类进行图片上传,总是提示:上传文件时出错 : 未允许类型 。都是默认的配置,php - phpStudy...
  5. C++中的 c_str() 函数
  6. php serialize mysql_php 序列化(serialize)格式详解
  7. 一篇文章搞定面试中的二叉树题目(java实现)
  8. arduino i2c 如何写16位寄存器_Arduino之我见
  9. 合格linux运维人员必会的30道shell编程面试题及讲解
  10. 网络延长器分为哪几类?其应用领域有哪些?
  11. mysql order by int_mysql order by是怎么工作的?
  12. linux 分卷解压
  13. SpringBoot之Bean之条件注入@Condition
  14. quartz.net隔一天执行一次_一天拉几次大便算正常?啥时候拉最好?关于便便的事,可算明白了...
  15. Croc Champ 2013 - Round 1 E. Copying Data(线段树)
  16. 下载官方 Win11、Win10 镜像 ISO 的方法
  17. 以太坊Ghost协议
  18. 课设——八皇后问题(N皇后解决)
  19. 河北大学计算机网络卷子,河北大学计算机网络试卷
  20. Mac升级node版本

热门文章

  1. PHP大文件分割上传(分片上传)
  2. eclipse 远程调试mapreduce
  3. 判断web app是否从主屏启动
  4. DMA驱动开发(6,参考资料)有用链接
  5. 程序员最常见的技术性误区
  6. 【Endnote】EndnoteX9快速上手教程
  7. vuex , 简单入(liao)门(jie)
  8. BZOJ1037 ZJOI2008生日聚会(动态规划)
  9. 软件工程作业团队作业No.5
  10. 【luogu P2764 最小路径覆盖问题】 模板