抓取 google 搜索结果
直接访问www.google显然是无法访问的,附上两个地址:
http://209.85.225.23/
http://173.194.14.53/
这两个地址搜索的后缀是
newwindow=1&q=
不采用这个格式,使用如下格式:
http://209.85.225.23/search?hl=zh&ie=gb2312&q=
q=后面加上搜索的内容。
这样直接访问会被google拒绝,需要仿冒浏览器去访问。
java中,如下设置参数:
URL url=new URL(path);
HttpURLConnection con = (HttpURLConnection) url.openConnection();
con.setRequestProperty("User-Agent", "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14");
注意,user-agent 后面的浏览器参数,不同的浏览器可能会导致收到的编码方式不同,所以编码出错时,替换后面的参数。
附上完整代码:
package com.search.google;import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLEncoder;import com.mysql.jdbc.Field;public class GetResult
{public static void main(String []args) throws Exception{new GetResult().process();}public void process() throws Exception{String str= getHTML("西游记 作者");System.out.println(str);parseHTML(str);}public String getHTML(String str) throws Exception{StringBuilder sb=new StringBuilder();String path="http://209.85.225.23/search?hl=zh&ie=gb2312&q="+URLEncoder.encode(str,"gb2312");//String path="http://209.85.225.23/search?hl=zh&ie=UTF-8&q="+str;URL url=new URL(path);HttpURLConnection con = (HttpURLConnection) url.openConnection(); con.setRequestProperty("User-Agent", "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14"); BufferedReader breader = new BufferedReader(new InputStreamReader(con.getInputStream())); //BufferedReader breader=new BufferedReader(new InputStreamReader(url.openStream()));String line=null;File file_out =new File("./test/google");FileWriter fw = new FileWriter(file_out);while((line=breader.readLine())!=null){sb.append(line);fw.write(line);}fw.close();return sb.toString();}public void parseHTML(String str){}
}
抓取 google 搜索结果相关推荐
- 如何用Python快速抓取Google搜索?
「免费学习 60+ 节公开课:投票页面,点击讲师头像」 作者 | linksc 译者 | 弯月,编辑 | 郭芮 来源 | CSDN(ID:CSDNnews) 自从2011年 Google Web Se ...
- python request url 转义_Python多线程抓取Google搜索链接网页
1)urllib2+BeautifulSoup抓取Goolge搜索链接 近期,参与的项目需要对Google搜索结果进行处理,之前学习了Python处理网页相关的工具.实际应用中,使用了urllib2和 ...
- 如何用 Python 快速抓取 Google 搜索?
本文是通过 requests 和 Beautiful Soup 抓取 Google 搜索的快速指南. 作者 | linksc 译者 | 弯月,责编 | 郭芮 出品 | CSDN(ID:CSDNnews ...
- python抓取google搜索结果
1. 搜索引擎的选取 选择一个好的搜索引擎意味着你能够得到更准确的搜索结果.我用过的搜索引擎有四种:Google.Bing.Baidu.Yahoo!. 作为程序员,我首选Google.但当我看见我最爱 ...
- 用rvest包来抓取Google学术搜索数据
2019独角兽企业重金招聘Python工程师标准>>> 在这篇文章,主要展示的是如何抓取Google学术网页.示例展示的是用rvest包来抓取作者博士指导老师的个人学术数据.我们可以 ...
- 【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码
[开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...
- 如何在php搜索显示数据库数据结构_PHP如何实现抓取百度搜索结果并分析数据结构...
PHP如何实现抓取百度搜索结果并分析数据结构 发布时间:2020-09-26 09:26:19 来源:亿速云 阅读:95 作者:小新 这篇文章主要介绍PHP如何实现抓取百度搜索结果并分析数据结构,文中 ...
- java抓取百度搜索结果_java实现抓取百度对某站点搜索结果
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...
- python 抓取google play 各搜索词排名
背景: 做app推广的时候需要看各 搜索词搜到的各app的排名 需要的结果: 在https://play.google.com/apps 中搜索某关键词,如browser 抓取页面返回的所有app,并 ...
最新文章
- shutdown -s -t XXX
- java前端目录_[Java教程]前端那点事儿——Tocify自动生成文档目录
- fckeditor2.63 上传图片的一个问题的解决办法
- C++开发者都应该使用的10个C++11特性
- 聊聊zxing的qrcode
- jsapi.php 参数设置,统一支付接口中,缺少必填参数openid!trade_type为JSAPI时,openid为必填参数!...
- Python面向对象编程案例:封装数据库增删改查操作
- 这是 1000 万程序员都想要的格子衫!
- 开发过程中解决各种跨域问题
- 专用集成电路设计实用教程(学习笔记一)
- 黑苹果简单驱动 MultiBeast用法基础篇
- 蓝牙Beacon室内定位全栈
- Sky光遇云野光之翼在哪获得
- linux将php停了,Linux停PHP环境的搭建
- 安装 pymysql 的方法
- citra黑屏_3ds模拟器最新版Citra下载_3ds模拟器Citra2019最新版下载_游戏堡
- asterisk、pbx、sip等基本概念
- 3D角色模型很难做?Maya、Zbrush人头建模终极秘笈
- 中国各省人力资本测算就业人员受教育程度构成(2000-2021年)
- Cannot initialize a variable of type 'Stu *' with an rvalue of type 'void *'