目前,基于用户画像的标签系统已经应用于各行各业。范围广、专业知识深的互联网招聘领域,建立标签体系有哪些难点?标签制度应该如何建立?如何验证标注系统的准确性?本文就这三个问
目前,基于用户画像的标签系统已经应用于各行各业。范围广、专业知识深的互联网招聘领域,建立标签体系有哪些难点?标签制度应该如何建立?如何验证标注系统的准确性?本文就这三个问题进行分析和探讨,与大家分享。
1.在招聘领域建立标签制度的困难
电子商务客观上属于比较简单的toC领域,知识网是比较容易理解的通用知识。可以通过用户的购买习惯、喜好、商品类别来建立标签体系。医疗行业是一个高度专业化的领域,标签制度的建立需要一个懂医疗技术的专家团队。但是操作简单,只需要一个医学专家就可以完成专业标注体系的构建。
但对于招聘行业来说,行业和岗位覆盖面广,专业性强,因为各行各业的公司和求职者都会通过招聘平台建立联系,专业性强的岗位和应聘者也很多。如何评价B/C终端之间的专业技能、工作岗位、行业之间的匹配度,确实是一个很大的难点,而且理论上需要集合各个行业、岗位的所有专家来建立招聘行业的标签体系,但事实并非如此。
那么机器能自动完成招聘领域的标签系统构建吗?使用NLP对job JD中的描述进行提取和聚类,如Java、spring、Unix、Visio、Excel等工具技能,原型设计、交互设计、需求分析等工作内容技能,用户运营、产品运营、数据运营等工作方向技能。这是互联网从业者最熟悉的开发、产品、运营的工作内容和技能。如果机器能识别这些类别标签就再好不过了。
但现实看似完美和谐。招聘人员的职位描述中出现Java怎么办?用户写的是“负责招聘Java工程师”。如果Visio出现在Java工程师的描述中会怎样?如果Excel出现在运营专员的职位描述中怎么办?这些技能还不是这个岗位的核心能力吗?
首先,Java在招聘人员中的出现是可以通过硬性规定过滤掉的,比如限制职位与技能的关系。也就是说,不是所有技能都符合所有岗位,有些技能只适用于部分岗位,在其他岗位是无效信息。
其次,需求分析是不是产品经理的技能标签?有人说是,这个答案可以是对的,也可以是错的。是的,是因为需求分析确实是产品的必备能力和工作内容,不,是因为所有的产品经理都需要需求分析。这个能力或者这个产品经理的能力和其他产品经理有区别吗?
Excel最终会出现在运营专员、招聘专员、统计专员中,那么它还是核心技能标签吗?
通过以上分析,可以得出以下归纳总结:
不是所有技能都适用于所有的职位,应该定义每个职位的核心技能标签体系,因为非核心的技能有时候不仅无效还会起到反作用;不是所有该职位需要的技能或者做的工作内容都是该职位的技能标签,因为它是该岗位的通用能力没有区别度,技能标签应该是该职位工种的核心技能且是可以区别不同职位或简历的。
所以通过上面的分析可以看出,单纯的NLP机器识别并不能完成招聘领域的标签体系构建,因为机器无法在一个岗位的众多技能中筛选出哪些是重要的知识技能,哪些是不重要的知识技能。
第二,如何在招聘领域建立标签制度1.基于静态信息的通用标准化标签你首先能想到的是学历、工作年限、薪资范围等大致的职位/简历匹配维度。当然,这些显性的通用标签早已被各招聘平台做成结构化的筛选项目。
其次是一些相对较小的维度要求,如海外经历、党员、国企工作经历、籍贯、年龄等。对于一些职位,还有一些平台在平台上把一些维度做成结构化的标签。
但是,这些都不是我们研究的重点。我们主要学习各个岗位的知识和技能。
2.基于静态信息的专业知识提炼标签建立专业知识标注系统的关键是建立一支专业岗位研究专家队伍。想做某个岗位的专业知识标注研究,肯定需要熟悉岗位的人。那些选择在岗位上工作或者HR的人是不是对这类岗位有所了解?
所以通过对这两类人员的调查分析,最终发现,从事这个岗位的人虽然对自己所从事的岗位比较了解,但对其他相关岗位不一定了解,对用户在招聘过程中的感知和思考也不太了解。
HR人员虽然在专业深度上对职位了解不深,但是对职位的了解范围很广。只要在某个行业做过HR的,基本都熟悉那个行业的所有岗位和关键技能。而且HR经常使用招聘平台,有用户感知,对用户行为和逻辑了如指掌。所以HR更适合对岗位专业知识的研究,专家团队应该是不同行业的HR人员。
团队建好了,大致的研究思路有了之后,再来研究标签制度的具体制作流程和规则,总结如下图:
该系统的目的肯定是用于算法推荐和搜索。在初始阶段,标签系统的离线匹配效果可以通过离线漏斗数据转换对比(命中标签和遗漏标签的转换对比)来验证,实际的在线匹配效果可以通过灰度实验和小流量在线实验来验证。
专业知识标签只关注匹配度的准确性。最后线上使用还必须考虑用户是否活跃,B端HR是否着急,C端求职者是否找工作。如何在专业知识的准确性和用户行为的活跃度之间权衡轻重,也是一大难点。找到准确率和活跃度平衡的比例区间,在这个区间内可以实现最大的用户成就。这方面这里不分析,需要算法生多次调整模型。
3.基于动态信息的用户行为标签
基于用户行为的用户画像标签系统在电子商务领域应用广泛,在招聘领域同样适用。而电子商务领域的“核对-联系卖家-购买”行为,在招聘领域却变成了“核对-打开聊天-预约”行为。
电商平台中的协同过滤理论在招聘平台中同样适用,只是变成了基于相似职位的过滤和基于相似候选人的过滤。在过去,一些企业已经达到了大多数来自名校的候选人,所以我们知道,企业更喜欢有名校的经验;有些公司在招聘销售岗位时,更倾向于专业知识体系中有软件销售经验的候选人,所以我们知道公司更倾向于软件行业的销售候选人。
通过用户画像系统,我们可以评估用户的偏好,以便在未来的推荐中使用用户的偏好,达到更好的效果。
第三,静态和动态标签系统在招聘领域的综合应用静态标签是所有品类共有的标签特征,属于大规模标准化生产经营。通用标签制作完善,可实现原矿大步匹配。
专业知识标签是每一类岗位和专业的标签特征,是小批量的精细化生产经营。前面一大步达到一定的匹配度后,结合精细化的小步跑方法,将每个作业类别的粒度逐步划分为更精细的粒度,以达到更高的匹配度;
经过前两轮的标准化和精细化,数据已经被划分成小类,但没有特征标签来衡量个体用户的偏好,而动态用户行为标签是个体用户的个性化偏好标签。用户的喜好可能是一般学历和年限的特点,也可能是专业知识中某个技术框架或某个产品类别的特点。
最后,静态的标准化通用标签、专业化的知识精细化标签和动态的行为个性化偏好标签相互作用,相辅相成,提高招聘领域在线效果的匹配准确率。