网站建设资讯

NEWS

网站建设资讯

Python采集招聘数据信息(+详情页)并实现可视化


本篇代码提供者: 青灯教育-自游老师


[环境使用]:

  • Python 3.8
  • Pycharm

[模块使用]:

  • requests >>> pip install requests
  • re
  • json
  • csv

如果安装python第三方模块:

  1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
  2. 在pycharm中点击Terminal(终端) 输入安装命令

如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)

    创新互联公司专业为企业提供梅州网站建设、梅州做网站、梅州网站设计、梅州网站制作等企业网站建设、网页设计与制作、梅州企业网站模板建站服务,10余年梅州做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

  2. 点击齿轮, 选择add

  3. 添加python安装路径


pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)

  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese

  3. 选择相应的插件点击 install(安装) 即可

  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效


基本流程思路: <可以通用>

一. 数据来源分析

网页开发者工具进行抓包分析....

  1. F12打开开发者工具, 刷新网页
  2. 通过关键字进行搜索, 找到相应的数据, 查看response响应数据
  3. 确定数据之后, 查看headers确定请求url地址 请求方式 以及 请求参数

二. 代码实现过程:

  1. 发送请求, 用python代码模拟浏览器对于url地址发送请求
  2. 获取数据, 获取服务器返回response响应数据
  3. 解析数据, 提取我们想要招聘信息数据
  4. 保存数据, 保存到表格文件里面

代码

导入模块

# 导入数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json模块
import json
# 导入格式化输出模块
import pprint
# 导入csv模块
import csv
# 导入时间模块
import time
# 导入随机模块
import random
# 有没有用utf-8保存表格数据,乱码的?
f= open('data多页_1.csv', mode='a', encoding='utf-8', newline='')  # 打开一个文件 data.csv
csv_writer= csv.DictWriter(f, fieldnames=[
'职位',
'城市',
'经验',
'学历',
'薪资',
'公司',
'福利待遇',
'公司领域',
'公司规模',
'公司类型',
'发布日期',
'职位详情页',
'公司详情页',
])
csv_writer.writeheader()

文章名称:Python采集招聘数据信息(+详情页)并实现可视化
文章出自:http://njwzjz.com/article/dsoggji.html