• 微信
您当前的位置:首页  > 文章 >  python获取百度360搜索结果的真实URL链接

python获取百度360搜索结果的真实URL链接

作者:admin 时间:2020-01-09 阅读数:33人

在百度输入关键词搜索出现的列表页,大约2013年开始点击目标链接,跳转的时候是百度地址,经过百度解析,才真的跳到目标页面。360相对简单很多,利用python略微处理就可以得到搜索结果的真实URL链接。

在SEO中,经常需要排名好的网站究竟是哪家的。刚好最近做的工作需要去抓取一些数据,就遇到了这样的问题,又不想手动每天手动去点,可用以下方法去得到目标地址。

http://www.baidu.com/link?url=XyACAP-IHMK2wGbiKeQlE2uNUBqvTW25Ncog8p6irHC&wd=&eqid=b294bdf100009b3b00000005590ac8c7
http://www.so.com/link?url=http%3A%2F%2Fwww.hekaiyu.cn%2F&q=%E5%BC%80%E6%B0%B4%E7%BD%91%E7%BB%9C&ts=1493879032&t=38cfd50ae746259682fded99eda3939&src=haosou

模拟请求,得到百度真正的地址

这个速度要慢一点,就是先请求加密的链接,最后获取到真实的url。

import requests  r = requests.get(target_url)  return r.url

这个方法现在不怎么好用了,在我做项目的时候发现偶尔可以,和下面的一种方法类是,大概是只有部分或随机是302转跳(猜想),更多的返回的是200的状态。

 

根据Location获取百度真实URL

点击搜索结果加密链接之后,会向该链接发送GET,baidu这些连接大多进行了redirect(http 302),从服务器得到的回复中已经包含真实URL。

python获取百度360搜索结果的真实URL链接

 

response = urllib2.urlopen(target_url) realurl = response.geturl() print(realurl)

200的状态下获取真实链接

搜索结果的链接返回200,这个页面通过js和refresh转跳到真实的链接,对于从百度爬取的加密的url,进行requests.get()时不允许跳转(allow_redirects=False)。这时候就需要去200页面提取真实连接了。

python获取百度360搜索结果的真实URL链接

tmpPage = requests.get(tmpurl[0], allow_redirects=False) urlMatch = re.search(r'URL=/'(.*?)/'', tmpPage.text.encode('utf-8'), re.S) print urlMatch

这就可以了,更完整的判断http状态码,做对应处理。

    for tmpurl in tmpURLs:         tmpPage = requests.get(tmpurl, allow_redirects=False)         if tmpPage.status_code == 200:             urlMatch = re.search(r'URL=/'(.*?)/'', tmpPage.text.encode('utf-8'), re.S)             originalURLs.append((urlMatch.group(1), tmpurl[1]))         elif tmpPage.status_code == 302:             originalURLs.append((tmpPage.headers.get('location'), tmpurl[1]))         else:             print 'No URL found!!'

 

python解码URL得到360搜索结果的链接

url编码是一种浏览器用来打包表单输入的格式,360搜索结果中包含的网站url解释url编码后。Url的编码格式采用的是ASCII码,而不是Unicode,这也就是说你不能在Url中包含任何非ASCII字符,我们需要解码后才方便后续的使用。当我们使用正则获取到360的连接后,直接用urllib解码就可以了。

url = urllib.unquote(target_url) print url

搜狗的就不说了,搜狗的放采集做的特别到位,跑一百下左右就不能跑了,开水还没有去突破。当然百度还有更加简单的获取方法,有时间再说!


声明

源码下载不顺利,比如源码在百度网盘的有时会被无故取消等,请联系QQ:46667551
本站大部分下载资源收集于网络,但除特别说明之外,基本全部亲自测试可用!
但由于某些源码的更新迭代,比如微信小程序官方接口的变动等原因,
如时间过长,可能会造成本可以使用的代码出现问题,下载前请斟酌!
本站资源仅供学习和交流使用,版权归原作者所有,请在下载后24小时之内自觉删除。
若作商业用途,请购买正版,由于未及时购买和付费发生的侵权行为,使用者自行承担,概与本站无关。

原文链接:https://www.dnwfb.com//931.html,转载请注明出处