Python抓取开源中国资讯(使用BeautifulSoup库)
Python抓取开源中国资讯(使用BeautifulSoup库)
效果
代码
#coding=utf8
import requests
import re
import xlrd
import xlwt
import time
from bs4 import BeautifulSoup
myfile=xlwt.Workbook()
table1=myfile.add_sheet(u"9.9PDD",cell_overwrite_ok=True)
table1.write(0,0,u"资讯")user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:16.0) Gecko/20120813 Firefox/16.0'
headers = { 'User-Agent' : user_agent }
#print(soup.prettify())
class sousuo():def __init__(self,url,table):self.url=urlself.table=tabledef chaxun(self):url = self.urlr=requests.get(url,headers=headers)#编码格式,应该大部分是UTF-8r.encoding = 'UTF-8' html=r.textsoup=BeautifulSoup(html, "html.parser")print(soup.title)#print(soup.prettify())#资讯i=1for tag in soup.find_all(class_="sc sc-text text-gradient wrap summary"):if tag.string is not None:print(tag.string)self.table.write(i,0,tag.string)i+=1s1=sousuo('https://www.oschina.net/news/project',table1)
s1.chaxun()filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"oschina.xlsx"
myfile.save(filename)
print(u"Python抓取开源中国资讯(使用BeautifulSoup库):%s"%time.strftime('%Y%m%d%H%M%S',time.localtime()))
Python抓取开源中国资讯(使用BeautifulSoup库)相关推荐
- Java数据采集--2.使用Jsoup抓取开源中国
本节使用Jsoup获取网页源码,并且解析数据. 使用JSoup 解析网页,语法使用 JS,css,Jquery 选择器语法,方便易懂 抓取网站:http://www.oschina.net/news/ ...
- 使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
- 2021软科中国大学排名(Python抓取前200名)
2021软科中国大学排名(Python抓取) 由于软科官网使用动态渲染技术,将数据封装在js文件中,导致无法直接抓取所有的排名记录.用普通的请求方式只能抓取到前30条记录.虽然也可以通过自动化测试 ...
- 利用Python爬虫抓取猫眼电影排行(BeautifulSoup方式初试手,欢迎改进)
from bs4 import BeautifulSoup import requests import json import time from requests.exceptions impor ...
- 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...
- python爬取开源众包大厅多页任务信息保存到excel
python爬取开源众包大厅多页任务信息保存到excel python版本:py3.5 希望能给大家一些帮助,欢迎加好友讨论微信:18301618273 源码走起: #!/usr/bin/env py ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?
视频课程链接:https://edu.csdn.net/course/detail/9348 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多 ...
- 《一出好戏》讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何?...
黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演阵容强大,相信许多观众也都是冲着明星们去的. 目前<一出好戏>在猫眼上已经获得近60万个评价,评分为 ...
最新文章
- python的切片和索引是什么_NumPy 切片和索引
- PHP中ini_set和ini_get函数用法简介
- java 调用 swf 文件上传_java文件上传方法
- Bugku——Web——矛盾
- java金字塔的流程图,R中的金字塔图
- linux vim自动执行快捷键,Linux Vim快捷键操作命令整理
- gaf处理一维故障信号_【推荐文章】改进局部均值分解的齿轮箱复合故障特征提取...
- Dynamic Web 2021Crack版,文档扫描和图像捕获
- 《概率论与数理统计》——分布函数的概念及性质
- 【卸载双系统中的linux系统】删除引导
- 计算机怎么设置加密文件,电脑文件夹怎么设置密码 电脑文件夹加密的3种方法...
- 利用矩阵快速幂求解斐波那契数列
- 【文献心得】内存隔离技术
- shapely图形合并
- 黑客急于利用微软的零日漏洞
- 对计算机英文的感想,生活感悟的英文句子 英文感悟人生哲理说说
- Bzoj2300 / 洛谷P2521 [HAOI2011]防线修建
- 【C#】工具篇 vspd虚拟串口的安装
- 将excel表格数据转换为xml文本数据
- 5步加速时间智能分析之 Power BI 篇【附模型下载】
热门文章
- java和java开发工程师现状
- ThreeJS逐步实现室内概念图的效果(渲染,交互)
- python基础九 函数(中)作用域、命名空间、递归函数
- 社区使用人脸识别闸机有什么好处?
- mac系统连接服务器教程视频教程,超详细教程:手把手教你15分钟在苹果Mac上装个Windows...
- java循环嵌套语句示范_java的三种循环结构与循环嵌套
- 纯css写下拉箭头,三角,半圆。
- Laravel 批量注入的安全处理,通过模型的 fillable 和 guarded 解决
- 扫描工具X-Scan使用教程(图)
- 域名到期后多久释放?如何抢注到期域名?