使用python爬虫怎么爬取百度音乐-创新互联

今天就跟大家聊聊有关使用python爬虫怎么爬取百度音乐，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联建站为您提适合企业的网站设计让您的网站在搜索引擎具有高度排名，让您的网站具备超强的网络竞争力！结合企业自身，进行网站设计及把握，最后结合企业文化和具体宗旨等，才能创作出一份性化解决方案。从网站策划到成都网站设计、做网站，我们的网页设计师为您提供的解决方案。

如图，笔者此次爬取的是百度音乐的页面，所爬取的类容是上面榜单下的所有内容（歌曲名，歌手，排名）。如果按照上次的爬虫的方法便要写上三个select方法，分别抓取歌曲名，歌手，排名，但笔者观察得知这三项数据皆放在一个li标签内，如图：

使用python爬虫怎么爬取百度音乐

这样我们是不是直接抓取ul标签，再分析其中的数据便可得到全部数据了？答案是，当然可以。

但Beaufulsoup不能直接提供这样的方法，但Python无所不能，python里面自带的re模块是我见过最迷人的模块之一。它能在字符串中找到我们让我们roi的区域，上述的li标签中包含了我们需要的歌曲名，歌手，排名数据，我们只需要在li标签中通过re.findall()方法，便可找到我们需要的数据。这样就能够大大提升我们爬虫的效率。

我们先来直接分析代码：

def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'(.*?)

.*?title="(.*?)".*?title="(.*?)".*?', re.S) pattern2 = re.compile(r'(.*?)

上面的代码是我分析网页数据的全部代码，这里不得不说python语言的魅力，数十行代码便能完成java100行的任务，C/C++1000行的任务。上述函数中，笔者首先通过Beautifulsoup得到该网页的源代码，再通过select()方法得到所有li标签中的数据。

到这里，这个爬虫便要进入到最重要的环节了，相信很多不懂re模块的童靴们有点慌张，在这里笔者真的是强烈推荐对python有兴趣的童靴们一定要学习这个非常重要的一环。首先，我们知道re的方法大多只针对string型数据，因此我们调用str()方法将每个list中的数据（即item）转换为string型。然后便是定义re的pattern了，这是个稍显复杂的东西，其中主要用到re.compile()函数得到要在string中配对的pattern，这里笔者便不累述了，感兴趣的童靴可以去网上查阅一下资料。

上述代码中，笔者写了两个pattern，因为百度音乐的网页里，li标签有两个结构，当用一个pattern在li中找不到数据时，便使用另一个pattern。关于re.findadd()方法，它会返回一个list，里面装着tuple，但其实我们知道我们找到的数据就是list[0]，再将每个数据添加到另一个List中，让函数返回。

相信很多看到这里的小伙伴已经云里雾里，无奈笔者对re板块也知道的不多，对python感兴趣的同学可以查阅相关资料再来看一下代码，相信能够如鱼得水。

import requests from bs4 import BeautifulSoup import re def get_one_page(url): wb_data = requests.get(url) wb_data.encoding = wb_data.apparent_encoding if wb_data.status_code == 200: return wb_data.text else: return None def parse_one_page(html): soup = BeautifulSoup(html, 'lxml') data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') pattern1 = re.compile(r'(.*?)

python可以做什么

Python是一种编程语言，内置了许多有效的工具，Python几乎无所不能，该语言通俗易懂、容易入门、功能强大，在许多领域中都有广泛的应用，例如最热门的大数据分析，人工智能，Web开发等。

看完上述内容，你们对使用python爬虫怎么爬取百度音乐有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联成都网站设计公司行业资讯频道，感谢大家的支持。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

http://njwzjz.com/article/djhdgi.html

NEWS

网站建设资讯

使用python爬虫怎么爬取百度音乐-创新互联

python可以做什么

其他资讯