[1].[代码] [Python]代码

#-*- coding: UTF-8 -*-

#Python UTF-8 抓取百度关键词V1.0

#key.txt是抓取文件配置

#author PHPer.yang@gmail.com

import cgi,urllib #URL读取

import re #正则匹配

import MySQLdb #MySQL

import datetime #时间

#import time,thread #多线程

"""

MySQL表结构

CREATE TABLE `baidu` (

`id` int(10) unsigned NOT NULL auto_increment,

`url` varchar(200) NOT NULL,

`title` varchar(600) NOT NULL,

`keys` varchar(100) NOT NULL,

`bdurl` varchar(200) NOT NULL,

`date` date NOT NULL,

PRIMARY KEY (`id`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

"""

def Yang_Config ():

fp = open('key.txt','r')

for line in fp.read().split('@'):

word = line.split(',') #word 是字典

#for item in word :

#print item.encode("UTF-8")

#print '------'

if len(word) > 1:

yang_u = word[0]

yang_k = word[1]

Yang_Spider(yang_u,yang_k)

#抓取页面开始

def Yang_Spider(yang_u,yang_k):

url = 'http://www.baidu.com/s?wd=%s+site:%s&&rn=100'% (yang_k,yang_u)

print url

fp = urllib.urlopen(url).read()

#print fp re.search

m = re.findall(r"

()?(.*?)\s*?.*?.*? ((\d{4}\-\d{1,2}\-\d{1,2})|(\d+小时前)|(\d+分钟前)) .*?.*?
",fp)

if m:

#print m #

for s in m:#数组抓取过来是gbk 转码成utf8.encode("UTF-8") 是汉字decode('gbk') ASNII转UTF8 入数据库操作print str(s[3]) #

print '~~~'.join(s) #切割数组

Yang_MySQL (yang_k,yang_u,s)

#入库

#for i, s in enumerate(m.group(3)):

#print i,s

else:

print 'not search'

def Yang_MySQL (k,u,s):

global cursor,d

cursor.execute("set names utf8")

key_unicode = s[3].decode('gb2312') #gb2312

key_utf8 = key_unicode.encode('utf-8')

SQL = " INSERT INTO `baidukey`.`baidu` (`url` ,`title` ,`keys` ,`bdurl` ,`date`) VALUES ('%s', '%s', '%s','%s','%s'); " % (s[2],key_utf8,k,u,d)

insert = cursor.execute(SQL)

#print SQL

#运行抓取函数

conn = MySQLdb.connect(host="localhost",user="phper",passwd="123456",db="baidukey")

cursor = conn.cursor()

t = datetime.datetime.now()

d = t.strftime('%Y-%m-%d')#%H:%M:%S

Del = " DELETE FROM `baidukey`.`baidu` WHERE date = '%s'" % (d)

cursor.execute(Del)

Yang_Config()

python关键词排名批量查排名_[代码全屏查看]-Python 批量获取Baidu关键词的排名并入库...相关推荐

  1. python刷微博关注_[代码全屏查看]-python刷新浪微博粉丝

    [1].[代码] [Python]代码 # -*- coding: utf-8 -*- import urllib, urllib2, cookielib, hashlib,threading imp ...

  2. python 代码分块_[代码全屏查看]-python多进程分块读取文件

    [1].[代码] [Python]代码 # -*- coding: GBK -*- import urlparse import datetime import os from multiproces ...

  3. python处理excel代码_[代码全屏查看]-python处理Excel文件

    [1].[代码] test_xlrd.py #coding=utf-8 ####################################################### #filenam ...

  4. python获取mac窗口坐标_[代码全屏查看]-Python3根据IP地址获取MAC地址

    [1].[代码] [Python]代码 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import os import platform import ...

  5. python手机充值代码_[代码全屏查看]-加油卡在线充值接口实例

    [1].[代码] [Python]代码 #!/usr/bin/python # -*- coding: utf-8 -*- import urllib, md5, json from urllib i ...

  6. 苹果手机查看python代码_[代码全屏查看]-基于Python的苹果序列号官网查询接口调用代码实例...

    [1].[代码] [Python]代码 #!/usr/bin/python # -*- coding: utf-8 -*- import json, urllib from urllib import ...

  7. python代码测试健康指数计算器_[代码全屏查看]-BMI指数计算器

    [2].[代码] Layout android:layout_width="match_parent" android:layout_height="match_pare ...

  8. 谁是卧底python代码_[代码全屏查看]-机器人陪你玩“谁是卧底游戏

    [2].[代码] 以下是谁是卧底游戏 //谁是卧底游戏 function UnderCover($key,$username){ $mysql = new SaeMysql(); $userid = ...

  9. python用一行代码画个迷宫_[代码全屏查看]-用turtle不断的画回字迷宫

    [2].[文件] 画个回字(最原始方法).py ~ 3KB    下载(4) #coding=UTF8 from turtle import * import turtle, time # 绘制正方形 ...

  10. python日历gui_[代码全屏查看]-Python版的农历日历Calendar,功能简单

    [1].[代码] [Python]代码 Python语言: Python版的农历日历Calendar,功能简单 #coding=utf-8 #代码修改自wangfei(wangfei@hanwang. ...

最新文章

  1. uni-app手机横屏后界面错乱解决办法
  2. textureview 缩放_用MediaPlayer+TextureView封装一个完美实现全屏、小窗口的视频播放器...
  3. c语言文本按行分配数组元素,【转】C语言中动态分配数组
  4. codeforces B. Friends and Presents(二分+容斥)
  5. java搭建聊天服务器_使用 ServerSocket 建立聊天服务器-2
  6. poi导出word模板项目实例(一个文件)
  7. LVS详解(五)——LVS NAT模式实战
  8. 盗链 防止盗链 防止图片盗链
  9. css如何让图片不平铺,css怎么设置图片不平铺
  10. 如何使用EDI系统解决对接多工厂的问题?
  11. TTL和CMOS区别RS232
  12. [转载]Core animation简介
  13. 【前端】基于layui写的一个高级搜索(筛选)功能
  14. 【ACWing】4246. 最短路径和
  15. springboot幼儿园幼儿基本信息管理系统设计与实现毕业设计源码201126
  16. centos7 nvidia显卡安装
  17. 1ppi等于多少dpi_图片知多少?
  18. 【GPU Gems 学习笔记】Rendering Water Caustics
  19. Unity中用递归删除空文件夹和文件夹下面的子文件,meta文件保留和IO的一些操作总结
  20. Oracle数据库远程连接的方法

热门文章

  1. 【CSS3】C3动画总结
  2. Extended VINS-Mono: 大规模户外环境进行绝对和相对车辆定位的系统性方法(IROS2021)...
  3. ADC噪声全面分析 -02- ADC 噪声测量方法和相关参数
  4. 5道String面试题,能全答对的人不到10%!(附答案)
  5. Clion 配置 opencv不显示图片Process finished with exit code -1073741515 (0xC0000135)
  6. 搜索引擎优化主要对网站哪些方面做优化
  7. ambari集群修改ip地址
  8. Debian修改IP地址
  9. 各种路由器接口与连接方法
  10. Web服务器是什么意思?