13518219792

python简单爬虫笔记

python模拟游览器爬取相关页面

创新互联公司2013年成立，是专业互联网技术服务公司，拥有项目网站建设、网站制作网站策划，项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命，1280元西宁做网站,已为上家服务,为西宁各地企业和个人服务,联系电话:18982081108

import urllib.request

url="https://blog.51cto.com/itstyle/2146899"

#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()

fh=open("D:/5.html","wb")
fh.write(data)
fh.close()

python爬取新闻网站并将文章下载到本地

import urllib.request
import urllib.error
import re
data=urllib.request.urlopen("http://news.sina.com.cn/").read()
data2=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(data2)
for i in range(0,len(allurl)):
    try:
        print("第"+str(i+1)+"次爬取")
        thisurl=allurl[i]
        file="D:/pac/sinanews/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
        print("-----成功-----")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

python爬取月光博客文章下载到本地

import re
import urllib.request
import urllib.error

data=urllib.request.urlopen("http://www.williamlong.info/").read()
pat='rel="bookmark">(.*?)'
pat_url='class="post-title">

            
            
                        

            标题名称：python简单爬虫笔记            

            标题网址：http://njwzjz.com/article/jodseg.html


    
        其他资讯
        
            
                    css样式写圆形 css 实现圆形按钮
                

                    css3改变文字样式 css改字体样式
                

                    css样式前面加 自定义css样式前面加
                

                    android词典源码 词典apk
                

                    linux命令广义上包括 linux常用命令解释



    
        
            
                
                    
                        ADDRESS
                          成都市青羊区锦天国际1号楼1002室 
                    
                
                
                    
                        TEL
                           18980820575  
                    
                
                
                    
                        OTHER
                         获得报价与方案 
                         付款方式 
                    
                
                
                    
                        Wechat
                            
                    
                
            
        
    
    
        
            
                
                    网站建设
                    网站制作
                    做网站
                    成都网站设计
                    营销网站建设
                    域名注册
                    服务器托管
                    虚拟主机
                    域名注册
                    成都广告设计
                    成都广告公司
                    服务器托管
                    成都网站建设
                    成都网站建设
                    成都网站设计
                
            
        
        
             ©2024 四川内江网站建设公司 ALL RIGHTS
                        RESERVED. 蜀ICP备2024060514号 
        
    


    
          
            18980820575  
          
            244261566  
          
            回到顶部  
    



    
        
            
                
                
            
        
        
            
            
            
            
            
        
    
    
        
            
            
        
        
            
                首页
                关于我们
                服务范围
                案例展示
                解决方案
                建站资讯
                联系我们
            
            
                服务热线
                18980820575