python基于BeautifulSoup实现抓取网页指定内容的方法

更新时间:2015年07月09日 10:12:50 作者:光索与诺

这篇文章主要介绍了python基于BeautifulSoup实现抓取网页指定内容的方法,涉及Python使用BeautifulSoup模块解析html网页的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了python基于BeautifulSoup实现抓取网页指定内容的方法。分享给大家供大家参考。具体实现方法如下:

# _*_ coding:utf-8 _*_

#xiaohei.python.seo.call.me:)

#win+python2.7.x

import urllib2

from bs4 import BeautifulSoup

def jd(url):

page = urllib2.urlopen(url)

html_doc = page.read()

soup = BeautifulSoup(html_doc.decode('gb2312','ignore'))

for i in soup.find_all('div', id="sortlist"):

one = i.find_all('a')

two = i.find_all('li')

print ("%s %s" % (one,two))

jd("http://channel.jd.com/computer.html")

希望本文所述对大家的Python程序设计有所帮助。

相关文章

今天小编就为大家分享一篇python 实现dict转json并保存文件,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2019-12-12

今天小编就为大家分享一篇python保存log日志,实现用log日志来画图,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2019-12-12

这篇文章主要介绍了Bottle框架中的装饰器类和描述符应用详解,具有一定参考价值,需要的朋友可以了解下。2017-10-10

这篇文章主要介绍了解决tensorflow 释放图,删除变量问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧2020-06-06

本文主要是针对Python的字典dict遍历的4种方法进行了性能测试,以便分析得出效率最高的一种方法2014-06-06

这篇文章主要介绍了Python中的分支和循环结构,本文通过实例代码给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下2020-02-02

这篇文章主要介绍了Python使用PyCrypto实现AES加密功能,结合具体实例形式分析了PyCrypto实现AES加密的操作步骤与相关实现技巧,需要的朋友可以参考下2017-05-05

这篇文章主要介绍了Python线程池模块ThreadPoolExecutor用法,结合实例形式分析了Python线程池模块ThreadPoolExecutor的导入与基本使用方法,需要的朋友可以参考下2018-12-12

这篇文章主要介绍了在Python的Flask框架下收发电子邮件的教程,主要用到了Flask中的Flask-mail工具,需要的朋友可以参考下2015-04-04

下面小编就为大家带来一篇浅谈编码,解码,乱码的问题。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧2016-12-12

最新评论

python爬虫搜特定内容的论文_python基于BeautifulSoup实现抓取网页指定内容的方法...相关推荐

  1. php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

    在数据采集与页面分析中,常需要抓取给定url页面的内容,或者第二.第三层次深度页面内容. 这里是一个测试例子的实现,仅供参考. /* 匹配给定页面链接 return:array match[link, ...

  2. PHP抓取网页指定内容(推荐用CURL效率更高)

    PHP抓取某页面指定内容 初学php研究了好几个小时最后问了同事,得以解决:下面我就以我网站的一个详情页为例子,给大家分享一下: 直接贴代码,注释写的很清楚了 [方法一] <?php //添加编 ...

  3. PHP:抓取网页指定内容

    效果图 代码 <?php $url = "http://要抓取的网页"; $contents = file_get_contents($url); //如果出现中文乱码使用下 ...

  4. Python爬虫编程思想(6):实战案例:抓取所有的网络资源

    Python爬虫编程思想(7):实战案例:抓取博客文章列表 到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...

  5. python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...

    firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...

  6. python批量下载网页文件夹_Python抓取网页批量下载文件方法初探(正则表达式+BeautifulSoup) (转)...

    最近两周都在学习Python抓取网页方法,任务是批量下载网站上的文件.对于一个刚刚入门python的人来说,在很多细节上都有需要注意的地方,以下就分享一下我在初学python过程中遇到的问题及解决方法 ...

  7. php抓取网指定内容,php获取网页内容方法总结

    抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法. 1.file_get_conte ...

  8. python爬虫搜特定内容的论文_Python 爬虫爬取指定博客的所有文章

    自上一篇文章 Z Story : Using Django with GAE Python 后台抓取多个网站的页面全文 后,大体的进度如下: 1.增加了Cron: 用来告诉程序每隔30分钟 让一个ta ...

  9. python爬虫搜特定内容的论文_python爬取指定微信公众号文章

    python怎么抓取微信阅清晨的阳光比不上你的一缕微笑那么动人,傍晚的彩霞比不上你的一声叹息那么心疼,你的一个个举动,一句句话语都给小编带来无尽的幸福. 抓取微信公众号的文章 一.思路分析 目前所知晓 ...

最新文章

  1. php开源文件管理,搭建php开源的文件管理器eXtplorer
  2. 3-2.6==0.4
  3. 计算机视觉及机器学习论文、源代码合集
  4. (转)使用 /proc 文件系统来访问 Linux 内核的内容
  5. referer htttp headers 统计信息 防盗链
  6. oracle severity,ORACLE10G如何清除OEM下的历史警告信息
  7. 在数学空间中,物理分辨率可能失去了意义(behind the paper)
  8. 要素集获取要素_OGC的网络要素服务(WFS)(持续更新。。。)
  9. 使用DataAnnotations实现数据验证
  10. html班级管理模板,班级管理建议书模板参考
  11. js实现word生成书签_javascript下用ActiveXObject控件替换word书签,将内容导出到word后打印...
  12. Android开发笔记01-TextView01
  13. AutoHotKey 例程(自用-高手勿喷)
  14. 现代计算机专业版官网,现代计算机期刊_投稿邮箱_杂志_编辑部_审稿_投稿须知...
  15. 403forbiden解决
  16. Oracle的 wm_concat 的排序问题,Oracle的 listagg 函数[转]
  17. 【Python编程】三步完成如何从视频中提取音频?
  18. Oracle 11g R2+RAC+ASM+redhat安装详解1
  19. 【资料分享】工程师必备物联网资料合集 电子书PDF
  20. 计算机系统之定量分析

热门文章

  1. ABAP:利用SAP定时器自动刷新LIST
  2. 元气森林、完美日记、泡泡玛特们的2021,竞争壁垒低,前行道路难
  3. mysql8集群的优点_介绍 MySQL 8 中值得关注的新特性和改进。
  4. mysql 代码如何导出数据_mysql导入导出.sql数据
  5. 汉语拼音+脑洞[BJDCTF 2nd]老文盲了
  6. BUUCTF-reverse3
  7. python中wraps的详解
  8. Python函数名的本质,你有了解过嘛?
  9. python基础学习中要懂的知识点:反射机制
  10. Python中的条件语句和循环语句