Python抓取开源中国资讯(使用BeautifulSoup库)

效果

代码

#coding=utf8
import requests
import re
import xlrd
import xlwt
import time
from bs4 import BeautifulSoup
myfile=xlwt.Workbook()
table1=myfile.add_sheet(u"9.9PDD",cell_overwrite_ok=True)
table1.write(0,0,u"资讯")user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:16.0) Gecko/20120813 Firefox/16.0'
headers = { 'User-Agent' : user_agent }
#print(soup.prettify())
class sousuo():def __init__(self,url,table):self.url=urlself.table=tabledef chaxun(self):url = self.urlr=requests.get(url,headers=headers)#编码格式,应该大部分是UTF-8r.encoding = 'UTF-8' html=r.textsoup=BeautifulSoup(html, "html.parser")print(soup.title)#print(soup.prettify())#资讯i=1for tag in soup.find_all(class_="sc sc-text text-gradient wrap summary"):if tag.string is not None:print(tag.string)self.table.write(i,0,tag.string)i+=1s1=sousuo('https://www.oschina.net/news/project',table1)
s1.chaxun()filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"oschina.xlsx"
myfile.save(filename)
print(u"Python抓取开源中国资讯(使用BeautifulSoup库):%s"%time.strftime('%Y%m%d%H%M%S',time.localtime()))

Python抓取开源中国资讯(使用BeautifulSoup库)相关推荐

  1. Java数据采集--2.使用Jsoup抓取开源中国

    本节使用Jsoup获取网页源码,并且解析数据. 使用JSoup 解析网页,语法使用 JS,css,Jquery 选择器语法,方便易懂 抓取网站:http://www.oschina.net/news/ ...

  2. 使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)

    本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...

  3. 2021软科中国大学排名(Python抓取前200名)

    2021软科中国大学排名(Python抓取)   由于软科官网使用动态渲染技术,将数据封装在js文件中,导致无法直接抓取所有的排名记录.用普通的请求方式只能抓取到前30条记录.虽然也可以通过自动化测试 ...

  4. 利用Python爬虫抓取猫眼电影排行(BeautifulSoup方式初试手,欢迎改进)

    from bs4 import BeautifulSoup import requests import json import time from requests.exceptions impor ...

  5. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...

    微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...

  6. python爬取开源众包大厅多页任务信息保存到excel

    python爬取开源众包大厅多页任务信息保存到excel python版本:py3.5 希望能给大家一些帮助,欢迎加好友讨论微信:18301618273 源码走起: #!/usr/bin/env py ...

  7. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

  8. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?

    视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...

  9. 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...

    黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...

最新文章

  1. python的切片和索引是什么_NumPy 切片和索引
  2. PHP中ini_set和ini_get函数用法简介
  3. java 调用 swf 文件上传_java文件上传方法
  4. Bugku——Web——矛盾
  5. java金字塔的流程图,R中的金字塔图
  6. linux vim自动执行快捷键,Linux Vim快捷键操作命令整理
  7. gaf处理一维故障信号_【推荐文章】改进局部均值分解的齿轮箱复合故障特征提取...
  8. Dynamic Web 2021Crack版,文档扫描和图像捕获
  9. 《概率论与数理统计》——分布函数的概念及性质
  10. 【卸载双系统中的linux系统】删除引导
  11. 计算机怎么设置加密文件,电脑文件夹怎么设置密码 电脑文件夹加密的3种方法...
  12. 利用矩阵快速幂求解斐波那契数列
  13. 【文献心得】内存隔离技术
  14. shapely图形合并
  15. 黑客急于利用微软的零日漏洞
  16. 对计算机英文的感想,生活感悟的英文句子 英文感悟人生哲理说说
  17. Bzoj2300 / 洛谷P2521 [HAOI2011]防线修建
  18. 【C#】工具篇 vspd虚拟串口的安装
  19. 将excel表格数据转换为xml文本数据
  20. 5步加速时间智能分析之 Power BI 篇【附模型下载】

热门文章

  1. java和java开发工程师现状
  2. ThreeJS逐步实现室内概念图的效果(渲染,交互)
  3. python基础九 函数(中)作用域、命名空间、递归函数
  4. 社区使用人脸识别闸机有什么好处?
  5. mac系统连接服务器教程视频教程,超详细教程:手把手教你15分钟在苹果Mac上装个Windows...
  6. java循环嵌套语句示范_java的三种循环结构与循环嵌套
  7. 纯css写下拉箭头,三角,半圆。
  8. Laravel 批量注入的安全处理,通过模型的 fillable 和 guarded 解决
  9. 扫描工具X-Scan使用教程(图)
  10. 域名到期后多久释放?如何抢注到期域名?