都说 Python 赶超 Java,爬取拉勾网数据发现它的薪资已高至 50K!

  • 时间:
  • 浏览:0
  • 来源:大发幸运飞艇APP下载_大发幸运飞艇APP官方

本文来自云栖社区媒体合作伙伴“CDA数据分析师”,了解相关信息里能 关注“CDA数据分析师”。

通过观察发现,打开具体职位的删改页面时,URL 里边的数值(类式下图的 URL 里边的 4789029)就说 职位的 positionID,该 positionID 里能 通过上一步的职位列表 JSON 返回数据获取。

info = d['industryField']

倘若薪酬为 10k-20k, 则认为在 10k-15k、15k-25k 这你这个归类里边都包含。采用正则表达式进行归类汇总:

data = re.split('[,、 ]',info[i])

原文发布时间为:2018-09-3

2、请求数据分析

公司所属行业里能 是多个,一般以逗号分隔,但趋于稳定部分是以顿号和空格分隔的情况报告,还有之后趋于稳定这么 写明相关行业的情况报告。对此,通过 Python 的 re 库里能 处理多个分隔符分隔的数据,所属行业为空,则跳过。

for j in range(len(data)):

数据可视化与解读

● 从拉勾网的数据分析可知,大部分 Python 的相关职位有的是求在本科和本科以上,工作经验要求在 1-5 年的居多。之后 Python 在大数据和人工智能领域的爆发性发展, 由于 Python 方向岗位的薪水在水涨船高,从数据分析来看,月薪在 10K-100K 不等。



人工智能的快速发展以及大数据时代的来临,使得 Python 语言不仅在人工智能领域大放异彩,在数据处理上有的是着得天独厚的优势,在 Web 开发、网络编程、自动化运维、游戏开发、金融等领域扮演着这么 重要的角色

04

数据获取 —— 爬虫

● Python 就业情况报告乐观,从 TIOBE 8 月编程语言指数排行榜以及百度指数的搜索数来看,Python 的受欢迎程度这么 高。

01

从行业情况报告和公司规模来看,移动互联网占有 40% 的需求,数据服务+大数据+人工智能占了 10% 的比例。Python 非常强大,适合的领域包括 Web 开发、网络编程、爬虫、云计算、人工智能、自动化运维等,其他不管公司规模是大还是小,融资情况报告怎样才能,都普遍时要 Python 相关的职位的人才。

前期准备



1、公司相关情况报告分析

总结

continue

03

try:

数据存储与处理

本文作者:lowelong

之后不设置相关信息,会不允许爬取,返回提示:“您操作太频繁,请稍后再访问”。其他,我们歌词 歌词 我们歌词 歌词 我们歌词 歌词 时要设置 headers 和 cookies 信息。

industryFields = []



从目前 Python 的就业前景来看,总结如下:

工作经验上,普遍要求是 1-5 年,这部分占了 84% 的比例。1年以下和经验不限的,占了约 9%,5-10 年的占了约 7% 的比例。

4、获取工作信息描述

从学历要求来看,大部分有的是求共要本科以上,这部分占了约 100% 的比例。其他太少在相信读书无用论你这个观点了,学历共就说 工作的敲门砖。

2、城市需求分析



1、CSV 数据存储

通过 Chrome 浏览器访问拉勾网,打开 Console 控制台里能 发现,当进行翻页的以前 ,是通过 xhr 的请求土方法请求的。通过观察,我们歌词 歌词 我们歌词 歌词 我们歌词 歌词 里能 发现,URL 里边的 city 代表的是城市,post 参数 kd 代表的是搜索的职位,pn 是 page number,表示页码。



return counts

2、延时设置和分页爬取

05

2、数据处理

d = pd.read_csv(csv_file, engine='python', encoding='utf-8')

从上图分析,里能 发现,需求量主要集中在中国三大经济圈:京津冀,长三角,珠三角。主要分布在北京(40%)、上海(16%)、深圳(15%)、广州(6%)、成都(6%)和杭州(6%)这 6 个城市。而北京的互联网创业气氛冠绝中国,注册在北京的互联网公司远远高于在其他城市的公司,需求量也是最大的。

3、职位列表JSON返回数据的分析获取

counts = Counter(industryFields)

def industryField_counts(csv_file):

except:

● 在中国地区,Python 相关职位的需求量,依然集中在三大经济圈,有点痛 是在北京、上海、深圳这几次城市。从行业需求来看,主要集中在移动互联网、数据服务、大数据分析等行业。

后续统计月薪的占比,之后薪酬范围是里能 自定义范围,没一一还还有一个多统一的标准。类式薪酬里能 是 10k-20k、5k-8k、11k-18k、10k-16k 等情况报告,后续利于薪酬范围的可视化,其他将薪酬归纳分类到这几种:2k 以下、2k-5k、5k-10k、10k-15k、15k-25k、25k-100k、100k 以上。

通过 JSON 库进行数据的解析,获取相关信息。时要注意的是,我们歌词 歌词 我们歌词 歌词 我们歌词 歌词 时要记得保留 positionID,用于下一步获取工作描述信息。

之后数据量不大,最多 4100 条数据,采用 CSV 的存储土方法。

4、学历要求和工作经验分析

industryFields.append(data[j])

for i in range(len(info)):

百度搜索指数表明,2017 年 7 月份现在开始了,Python 的搜索指数之后超过了 Java。Python 语言的热门由此可见一斑。

1、设置 cookies 和 headers

3、薪酬与工作经验分析

打开拉勾网网站搜索 Python,里能 发现每页有 15 条职位信息数据,最多有 100 页数据里能 查看,共 4100 条职位信息。我们歌词 歌词 我们歌词 歌词 我们歌词 歌词 时要获取的信息包括:职位、公司名称、薪酬范围、所在区域、学历要求、工作经验、公司融资情况报告、公司人数、工作要求描述。

从工作经验的要求来看,大部分集中在 3-5 年和 1-3 年你这个还还有一个区间,至于工作经验和薪酬之间的相关性,观察发现,1-3 年工作经验的薪酬普遍在 15-25K,符合正态分布的规律,3-5 年工作经验的薪酬普遍在 15k-25k 和 25k-100k 你这个还还有一个区间,以 15k-25k 你这个区间的居多。达到 5-10 年工作经验的,薪酬在 25k-100K 你这个区间的居多。

本文中,笔者决定在拉勾网(一家为互联网从业者提供工作之后的招聘网站)上爬取相关 Python 职位信息,对职位数据(薪酬、学历要求、区域信息、工作经验等)进行图形可视化分析。

02

处理爬取带宽过快被封,设置延时时间为 3-5 秒。通过 for 循环进行分页数据的爬取。

1、网页分析

通过 requests 请求页面信息,再通过 xpath 获取工作描述信息。

TIOBE 8 月编程语言指数排行榜之后宣布了,排名前三的随便说说依旧是 Java、C、C++。但 Python 非常接近 TIOBE 索引的前 3 位。Python 那我的上涨趋势,同样里能 在 TIOBE 索引排行中体现,互联网业界也现在开始了普遍采用 Python。Python 编程语言最初是 Perl 的继承者,用于编写构建脚本和各种粘合软件。但之后逐渐进入其他领域。如今,在大型嵌入式系统中运行 Python 是很常见的。之后,Python 删改有之后进入前三名,甚至在未来取代 Java 成为新的第一名。