python抓取微博数据_Python爬虫实现半自动发微博
Python实现半自动发微博【用COOKIES代替模拟登录;用WAP版微博代替网页版微博;每次还要改post数据的URL。。。半半自动的感觉】
微博的内容是从糗事百科抓取的最热段子以及某网站的每日晚安。#!/usr/bin/python
#coding=utf-8
import urllib
import urllib2
import time
import requests
import re
from bs4 import BeautifulSoup
import sys
import os
import string
import info.qiubai
import info.wanan
'''
编码方式的设置,在中文使用时用到中文时的处理方式
'''
default_encoding = "utf-8"
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding("utf-8")
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36',
'Cookie':"你自己的COOKIES。。。通过浏览器自己找吧",
'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
'Referer':"http://weibo.cn/"
}
def getHtml(url):
response=urllib2.urlopen(url)
html=response.read()
return html
qiubaiurl='http://www.qiushibaike.com/text/'
request=urllib2.Request(qiubaiurl,headers=headers)
html=getHtml(request)
#可以
qiubaicontent=info.qiubai.getQiubai(html)
print qiubaicontent
wananurl='http://www.gxdxw.cn/wananxinyu/'
request=urllib2.Request(wananurl,headers=headers)
#可以
wanancontent=info.wanan.getWanan(getHtml(request))
print wanancontent
post_url='http://weibo.cn/mblog/sendmblog?st=ef5d80'
currentime=time.localtime(time.time()).tm_hour
if (currentime>21)and(currentime<24):
content=wanancontent
else:
content=qiubaicontent
post_data={'rl':'1','content':content}
r=requests.post(post_url,post_data,headers=headers)
print r
if(r.status_code==200):#....不对
print "发送微博成功"
else:
print "微博发送失败,请检查cookies是否过期"
PS:1、利用Python自带的时间函数控制哪个时间段发那些内容。。。
2、但是好多时候发送数据都不成功。。。我也不知道怎么知道我的微博发送成功了,只能一次一次试。。。有点尴尬。。知道的大神指点一下!!!
3、还有那个微博POST数据的参数,一天换一次的感觉
4、最后我把抓取糗百和晚安的程序分开了。在新建了一个info文件夹-------搞成了模块。。。貌似是这样
最后再附上糗百和晚安的程序吧。。。。。。。我也不知道格式对不对。。反正最后运行了糗百
#coding=utf-8
import sys
from bs4 import BeautifulSoup
'''
编码方式的设置,在中文使用时用到中文时的处理方式
'''
default_encoding = "utf-8"
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding("utf-8")
def getQiubai(html):
soup=BeautifulSoup(html,'html.parser')
div=soup.find_all('div',attrs={'class':'content'})
content="#每日糗事#"+div[0].text.lstrip()
return content晚安
#coding=utf-8
import sys
from bs4 import BeautifulSoup
'''
编码方式的设置,在中文使用时用到中文时的处理方式
'''
default_encoding = "utf-8"
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding("utf-8")
def getWanan(html):
soup=BeautifulSoup(html,'html.parser')
div=soup.find_all('div',attrs={'class':'listbox'})[0]
a=div.find_all('a')[1]
content=a.text.lstrip()
# print content
return content
python抓取微博数据_Python爬虫实现半自动发微博相关推荐
- python抓取数据库数据_Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储...
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
- python爬取flash数据_python爬虫: 爬取flash播放页面的信息
我们通过查看知道flash类型的网页采取文件格式是amf类型的 AMF(Action Message Format) 是Flash与服务端通信的一种常见的二进制编码模式,其传输效率高,可以在HTTP层 ...
- python抓取表格数据_Python如何实现从PDF文件中爬取表格数据(代码示例)
本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文将展示一个稍微不一样点的爬虫. 以往我们的 ...
- python抓取股票数据_Python股票处理之一_获取国内股票数据
1. 安装支持库 $ pip install panda $ pip install tushare 2. 说明 Pandas是数据分析工具包 TuShare是国内股票数据抓取工具,除了股票的实时和历 ...
- python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...
- python抓取股票数据_Python自动获取当日所有股票数据
开年以来,大盘直接从2400站上了3200,为了后续进一步分析股票数据,我想把每只股票每天的数据保存下来. import pandas as pd import tushare as ts impor ...
- python抓取疫情数据_python 爬取疫情数据
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
- python 抓取网页数据
python 抓取网页数据 此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用. 在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦.有的网页涉及个人隐私或其他敏 ...
- python 抓包解析数据_Python抓包并解析json爬虫的完整实例代码
Python抓包并解析json爬虫 在使用Python爬虫的时候,通过抓包url,打开url可能会遇见以下类似网址,打开后会出现类似这样的界面,无法继续进行爬虫: 例如: 需要爬取网页中第二页的数据时 ...
最新文章
- Django web框架学习笔记
- 在PHP当中制作隔行换色的效果以及制作上下翻页的效果!
- mybatis对mapper.xml的解析(一)
- 通过“远程桌面连接”连接到Ubuntu
- nginx+tomcat
- android 蒙版图片带拖动_黑橙修图:新手入门篇2-一句话带你认识图层蒙版
- HttpClient 实现爬取百度搜索结果(自动翻页)
- 区块链技术人才严重不足,平均薪资 2.58 万
- oracle 的用户是什么,User 用户 还是 Role 角色 - Oracle 的 Public 是什么?
- [DB2]DB2中的数值类型
- 【有利可图网】字体设计:英文字体的气质和选用详解(二)
- 【GlobalMapper精品教程】001:GlobalMapper23 Pro-x64中文安装教程(附软件包下载)
- Android透明字体画法
- C++ 算术平均数及几何平均数
- photoshop之CameraRaw
- 计算机的硬盘配额如何更改,磁盘配额怎么设置
- 【LaTeX在线编译器】
- STM8新建IAR工程
- Signal to Noise Ratio——信噪比
- 百度地图清除指定覆盖物(Overlay),保留某种覆盖物( disableMassClea),清除保留的覆盖物(enableMassClear)
热门文章
- 如何有效提升你的论证写作能力?
- 邓应海:非农数据发酵不够惨烈,难拖延美联储缩表进程!最新黄金走势分析
- 解决论文查重时参考文献被标红的方法
- 安卓4.4.4安装哪个微信版本_乐播投屏 — 安卓车机无线投屏
- PyCharm-professional-2016.2.3注册码
- 国际知名服装品牌网站整理
- android view clip,ClipView 自定义 RadiusView,包含常用的 Layout 和 View,方便扩展 @codeKK Android开源站...
- 我又双叒叕倒在了年初立下的flag里
- 微服务架构在阿里的演化
- Python-int()函数