抓取 google 搜索结果

直接访问www.google显然是无法访问的，附上两个地址：

http://209.85.225.23/
http://173.194.14.53/

这两个地址搜索的后缀是

newwindow=1&q=

不采用这个格式，使用如下格式：

http://209.85.225.23/search?hl=zh&ie=gb2312&q=

q=后面加上搜索的内容。

这样直接访问会被google拒绝，需要仿冒浏览器去访问。

java中，如下设置参数：

URL url=new URL(path);
HttpURLConnection con = (HttpURLConnection) url.openConnection();
con.setRequestProperty("User-Agent", "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14");

注意，user-agent 后面的浏览器参数，不同的浏览器可能会导致收到的编码方式不同，所以编码出错时，替换后面的参数。

附上完整代码：

package com.search.google;import java.io.BufferedReader;
import java.io.File;
import java.io.FileWriter;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLEncoder;import com.mysql.jdbc.Field;public class GetResult
{public static void main(String []args) throws Exception{new GetResult().process();}public void process() throws Exception{String str= getHTML("西游记 作者");System.out.println(str);parseHTML(str);}public String getHTML(String str) throws Exception{StringBuilder sb=new StringBuilder();String path="http://209.85.225.23/search?hl=zh&ie=gb2312&q="+URLEncoder.encode(str,"gb2312");//String path="http://209.85.225.23/search?hl=zh&ie=UTF-8&q="+str;URL url=new URL(path);HttpURLConnection con = (HttpURLConnection) url.openConnection(); con.setRequestProperty("User-Agent", "Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14"); BufferedReader breader = new BufferedReader(new InputStreamReader(con.getInputStream())); //BufferedReader breader=new BufferedReader(new InputStreamReader(url.openStream()));String line=null;File file_out =new File("./test/google");FileWriter fw =  new FileWriter(file_out);while((line=breader.readLine())!=null){sb.append(line);fw.write(line);}fw.close();return sb.toString();}public void parseHTML(String str){}
}

抓取 google 搜索结果相关推荐

如何用Python快速抓取Google搜索？
「免费学习 60+ 节公开课:投票页面,点击讲师头像」作者 | linksc 译者 | 弯月,编辑 | 郭芮来源 | CSDN(ID:CSDNnews) 自从2011年 Google Web Se ...
python request url 转义_Python多线程抓取Google搜索链接网页
1)urllib2+BeautifulSoup抓取Goolge搜索链接近期,参与的项目需要对Google搜索结果进行处理,之前学习了Python处理网页相关的工具.实际应用中,使用了urllib2和 ...
如何用 Python 快速抓取 Google 搜索？
本文是通过 requests 和 Beautiful Soup 抓取 Google 搜索的快速指南. 作者 | linksc 译者 | 弯月,责编 | 郭芮出品 | CSDN(ID:CSDNnews ...
python抓取google搜索结果
1. 搜索引擎的选取选择一个好的搜索引擎意味着你能够得到更准确的搜索结果.我用过的搜索引擎有四种:Google.Bing.Baidu.Yahoo!. 作为程序员,我首选Google.但当我看见我最爱 ...
用rvest包来抓取Google学术搜索数据
2019独角兽企业重金招聘Python工程师标准>>> 在这篇文章,主要展示的是如何抓取Google学术网页.示例展示的是用rvest包来抓取作者博士指导老师的个人学术数据.我们可以 ...
【Python爬虫教学】百度篇·手把手教你抓取百度搜索关键词后的页面源代码
[开门见山] 最近整理了下之前做过的项目,学的东西不少,乱七八糟.打算写点关于 Python 爬虫的东西,新人一枚,还望大佬们多多担待,别把我头给打歪了. 前面我先磨叽磨叽些基础的东西,对爬虫新人友好 ...
如何在php搜索显示数据库数据结构_PHP如何实现抓取百度搜索结果并分析数据结构...
PHP如何实现抓取百度搜索结果并分析数据结构发布时间:2020-09-26 09:26:19 来源:亿速云阅读:95 作者:小新这篇文章主要介绍PHP如何实现抓取百度搜索结果并分析数据结构,文中 ...
java抓取百度搜索结果_java实现抓取百度对某站点搜索结果
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.这个没有界面的浏览器,运行速度 ...
python 抓取google play 各搜索词排名
背景: 做app推广的时候需要看各搜索词搜到的各app的排名需要的结果: 在https://play.google.com/apps 中搜索某关键词,如browser 抓取页面返回的所有app,并 ...

抓取 google 搜索结果

抓取 google 搜索结果相关推荐

最新文章

热门文章