利用Python爬虫怎么对列表的内容进行爬取?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
成都创新互联是一家专注于网站设计制作、网站设计与策划设计,枣强网站建设哪家好?成都创新互联做网站,专注于网站建设十余年,网设计领域的专业建站公司;建站业务涵盖:枣强等地区。枣强做网站价格咨询:18982081108import requests from bs4 import BeautifulSoup
由于很多网站定义了反爬策略,所以进行伪装一下
headers = { 'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36' }
在这里User-Agent只是其中的一种方式,而且大家的User-Agent可能不同。
爬取数据main代码
url = '/tupian/20230522/unsolved fp = open('blog', 'w', encoding='utf-8') for page in range(1,26): page = str(page) param = { 'page':page } page_text = requests.get(url=url,params=param,headers=headers).text page_soup = BeautifulSoup(page_text,'lxml') text_list = page_soup.select('.one_entity > .news_item > h3') for h3 in text_list: text = h3.a.string fp.write(text+'\n') print('第'+page+'页爬取成功!')
注意一下这里,由于我们需要的是多张页面的数据,所以在发送请求的url中我们就要针对不同的页面发送请求, 将所有的h3数组拿到,进行遍历,通过取出h3中a标签中的文本,并将每取出来的文本写入到文件中,由于要遍历多次,所以保存文件在上面的代码中。 完整代码如下: 关于利用Python爬虫怎么对列表的内容进行爬取问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注创新互联行业资讯频道了解更多相关知识。/tupian/20230522/unsolved> url = '/tupian/20230522/unsolved
for page in range(1,26):
page = str(page)
param = {
'page':page
}
page_text = requests.get(url=url,params=param,headers=headers).text
text_list = page_soup.select('.one_entity > .news_item > h3')
for h3 in text_list:
text = h3.a.string
fp.write(text+'\n')
import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
headers = {
'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36'
}
url = '/tupian/20230522/unsolved
fp = open('blog', 'w', encoding='utf-8')
for page in range(1,26):
page = str(page)
param = {
'page':page
}
page_text = requests.get(url=url,params=param,headers=headers).text
page_soup = BeautifulSoup(page_text,'lxml')
text_list = page_soup.select('.one_entity > .news_item > h3')
for h3 in text_list:
text = h3.a.string
fp.write(text+'\n')
print('第'+page+'页爬取成功!')
分享标题:利用Python爬虫怎么对列表的内容进行爬取-创新互联
标题来源:http://njwzjz.com/article/dhpidi.html