1 安装:
  (1)安装 resquests 
  (2)安装 BeautifulSoup4
  (3)安装jupyter

打开jupyter选择python3

以下代码是在jupyter下执行的

import requests
res = requests.get('http://news.sina.com.cn/china/')
res.encoding = "utf-8"
#print(res.text)

获取页面的内容

res3 = requests.get('http://news.sina.com.cn/c/nd/2017-03-16/doc-ifycnpit2047114.shtml')
res3.encoding = "utf-8"
html3 = res3.text
soup3 = BeautifulSoup(html3,"html.parser")
timesource = soup3.select(".time-source")[0].contents[0].strip()
print(timesource)

处理时间

from datetime import datetime
#字串转时间
dt = datetime.strptime(timesource,"%Y年%m月%d日%H:%M")
#时间转字串
#dt = dt.strftime("%Y-%m-%d")
print(dt)

链接

alink = soup3.select(".time-source span span a")[0]
print(alink)
print(alink["href"])
print(alink.text)

文章内容处理

pss = soup3.select("#artibody p")[:-1]
article=[]
for p in pss:article.append(p.text.strip())
' '.join(article)
print(article)

简化处理

' '.join([p.text.strip() for p in soup3.select("#artibody p")[:-1]])

编辑名称

editor = soup3.select(".article-editor")[0].text.lstrip("责任编辑:")
print(editor)

  

  

转载于:https://www.cnblogs.com/mneuu/p/6562292.html

python 网络爬虫 第一天相关推荐

  1. Python网络爬虫第一课----Python网络爬虫基础《http和https协议》

    Python网络爬虫第一课----Python网络爬虫基础<http和https协议> 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protoc ...

  2. 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型

    Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...

  3. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  4. python爬虫教程视频下载-利用Python网络爬虫获取电影天堂视频下载链接【详细教程】...

    相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来. [二.项目准备] ...

  5. python网络爬虫权威指南 百度云-分析《Python网络爬虫权威指南第2版》PDF及代码...

    对那些没有学过编程的人来说,计算机编程看着就像变魔术.如果编程是魔术(magic),那么网页抓取(Web scraping)就是巫术(wizardry),也就是运用"魔术"来实现精 ...

  6. python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

  7. 精通python网络爬虫-精通python网络爬虫

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...

  8. 精通python网络爬虫-精通Python网络爬虫 PDF 高清版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...

  9. python编程入门到实践 百度云-python网络爬虫从入门到实践pdf

    python网络爬虫从入门到实践pdf是一本非常热门的编程教学.这本书籍详细讲解了Python以及网络爬虫相关知识,非常适合新手阅读,需要的用户自行下载吧. Python网络爬虫从入门到实践电子书介绍 ...

最新文章

  1. 3.4.1 单表查询
  2. linux svn命令
  3. helm3添加harbor仓库:带鉴权--username --password
  4. Nokia落寞身影下 三星成为全球最大手机厂商
  5. python函数手册中文_Python中文手册-Python函数
  6. 无心剑中译柒歌《爱的回音》
  7. 唏嘘!暴风影音官网、APP挂掉,办公地人去楼空,官方心酸回应...
  8. 10、Spring Boot 2.x 集成 Log4j2
  9. 海媚服务器怎么进系统,海媚v3服务器配置
  10. 入侵服务器的一种方法
  11. 小米 win10 android 双系统,PC平板二合一 运行win10/安卓双系统
  12. 关于游戏性能优化的一些感想
  13. [战略]Fans未来战略--第3篇--以文会友
  14. C/C++ | 23-12 用指针的方法,将字符串“ABCD1234efgh”前后对调显示
  15. 芬兰Vaisala温湿度变送器HMT330
  16. 基于JAVA网上体育用品销售系统计算机毕业设计源码+系统+mysql数据库+lw文档+部署
  17. 第一章 操作系统引论之多道批处理系统
  18. linux无线鼠标右键自动选择,2020年高性价比无线鼠标推荐
  19. 什么是3D摄影机,与普通摄影机有什么不同?
  20. UltraEdit 使用技巧笔记(转)

热门文章

  1. Centos7 网络配置 设置静态Ip
  2. js延时函数_JS 函数的执行时机
  3. 如何减小电压跟随器输出电阻_补课贴 | 关于运算放大器和比较器的异同,那些你不得不知道的小知识!...
  4. 浸油式服务器散热系统,一种服务器散热系统
  5. php常用设计模式和算法,常用算法、问答、设计模式
  6. Python 柱状图 横坐标 名字_Python爬虫实例(二)——爬取新馆疫情每日新增人数
  7. 软工导论测试代码(归档):设备管理系统
  8. 【知识索引】【汇编语言】
  9. 135.001 智能合约设计-——单员工薪酬系统
  10. 一致性hash算法Consistent Hashing