1. 您的位置:首页 > seo技术 >内容

[智能建站软件]通过SEO搜索包含页面中的死链接

朋友说他站着挂着,想知道死链中包含多少页,所以我想到了这个过程,从网站上获得的数量当然是不准确的,但没有更好的,真正的只包含搜索引擎数据库内智能建站软件部……

查询包含页面的状态代码,流程:获取摄入URL>解析真实URL>获取状态代码

但是实现速度很慢,不知道它是beautifulsoup还是位置来获得真正的URL地址这一步很慢。

#编码:utf-8Importurllib2,re,来自bs4importbeautifulsoup的请求为Bsdomain='www.123.com'#queryPage_num=10*10#的域名第一个数字是爬行DefgetHTML(URL)的页数:Headers={'接受':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',#'接受编码&\35;35;39;;'39;接受编码#35; 39;;&35; 39seo学院;gzip,deflate,SDCH 35;#39;,&35; 39;39;接受编码&\35;\35;##39;39;39;39;39;39;39;39;39;39;39;39;39;39;39;39;39;39;&\ා###39;39;39;39;39;39;39;39;&\#39;保持活着''饼干':'bduss=NG4UFVYUUPWU2HUR2R3B3HKAMTPAE9OCW40LTFZCGDWEDBJBXKZDE83EDJQSE5YQVFBQUFBJCQAAAAAAAAAAAAAAAADD3IYSAMFJAZE1NDUAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAVS1D2R0TXA;ispeed_l**=2;pstm=1465195705;bidupsid=2274339847bbf9b1e97da3ece6469761;H_wise_sids=102907_106764_106364_101556_100121_102478_102628_106368_103569_106502_106349_106665_106589_104341_106323_104000_104613_104638_106071_106599_106795;baiduid=d94a8de66cf701ab5c3332b1bf883ddc:fg=1;BDSFRCVID=ueusjec62m80hjroxzdhboabekal6vth6aia6ltlb9zx-72YRF7EG0PFOLQPYD-D1GYOGKK3GOTH4JP;句子太句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子777777777777句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子句子777777777771;bd_upn=12314353;sug=3;SUGSTRE=1智能建站软件;origin=1;bdime=0;bdrcvfr[fewj1vr5u3d]=I67X6TJHWWWYF0;H_PS_645EC=A5CFUIPPPKBo0UQPU%2F4QBUFVCQXU4W9G5G5G5G5GRXTNJT10%2FelveVjbbeyjwjq8qqq8quhgepjj;bd_ck_U sam=1;bdsvrtm=323;H_PS_pssid=1434_1434_20317_12896_24_12896_12896_U_12896_20076_19860_17001_15506_11866;_bsi=508055252_00_0_i_r_326_0303_c02f_n_i_i_0',#'主机': ' www.baidu.com''升级不安全请求':'1''用户代理':'mozilla/5.0(Windows NT 6.1;WOW64)applewebkit/537.36(khtml,如壁虎)铬/49.0.2623.112 safari/537.36',}req=Urllib2。请求(url=url,headers=headers)HTML=Urllib2.urlopen(Req,超时=30)。Read()returnHTMLdefStatus(URL):#Return Status CodeStatus=requests.get(URL)。Status_codeturnstatusstatus_file=Open('Url_status.txt','A+')forIinchRange(10,page_num,10):URL='Https://www.baidu.com/s?wd=站点%3A'+域+'&pn='+STR(i)HTML=gethtml(URL)汤=BS(HTML,"lxml")选择('. C-showurl'):#print i.get('href')url=i.get('href')#url_list.appent(URL)标题=Requests.head(网址)。Headers Header_url=Header['Location']#获取真实url ifInt(status(Header_url))==404:PrintStatus(Header_url),Header_url#Print status代码和真实URLsStatus_file.write(str(状态(标题url))+''+标题url+'\ n')#获取状态代码和写入文件状态的链接_file.close()#获取状态代码函数

参考的代码片段

#编码:utf-8ImportSYSImportUrllibImportUrllib2 frombrauitulsoupportbeautifulsoup问题word="Foodie程序员"URL="http://www.baidu.com/s?wd="+Urllib.quode(问题_word.decode(sys.stdin.encoding). Encode('GBK'))HtmlPage=urllib2.urlopen(URL)。读()汤=BeautifulSoup(htmlpage)PrintLen(汤("表",{"class":"result"}))forResult_Tableinchsroup.findall("表",{"类":"结果"}):A_click=结果_表("a")Print"-------title----\ n"+a_click.rendercontents()#标题打印"-----链接----\ n"+STR(a_点击("href")#links Print"-----description----\ n"+结果_表("Div",{"class":"c-abstract"})。RenderContents()##描述打印

SEO

在包含的页面中搜索死链接

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/1314.html