专业成就职业
大家好,我是策略产品经理夏唬人。
在策略产品日常迭代和优化当中,经常遇到特征选择的问题。
01 怎么理解特征
其实所谓的特征是一种信息描述的维度,这个信息通常跟衡量一个目标有关系。
我举个例子:
比如在电商行业,里面经常会涉及到对一个商品热度的判断,那么你需要思考的是哪些维度的信息能表明一个商品是“热”还是“不热”。
你自然能想到商品的销量高代表这个商品很“热”,商品评价好,评价数多,也能代表这个商品很“热”。
这里商品的销量,商品的好评率,商品的评论数都可以认为是衡量商品热度的一种维度的信息(其实就是数据),其实也就是特征。
所以,策略产品里面,特征是为目标服务的。
不难想到,一个商品的不同维度的信息有很多,那么如果要衡量商品热度,选择哪些维度的信息,这个就涉及到另一个问题。
特征选择。
02 什么是特征选择
对一个要实现的既定目标来说,给定的不同维度的信息,有些信息很有用,另一些则可能没什么用。对当前目标有用的信息称为“相关特征”(relevant feature)、没什么用的信息称为“无关特征”(irrelevant feature)。从给定的特征集合中选择出相关特征子集的过程,即“特征选择”(feature selection)
为什么要做特征选择?
下面这几点我觉得总结的很好:
简化模型,使模型更易于理解:去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握;
改善性能:节省存储和计算开销,可以有效地提升策略产品的数据处理和计算性能;
改善通用性、降低过拟合风险:减轻维数灾难,特征的增多会大大增加模型的搜索空间,大多数模型所需要的训练样本随着特征数量的增加而显著增加。特征的增加虽然能更好地拟合训练数据,但也可能增加方差。
所以,可以看出来,很多情况下,我们认为知道的信息越多,那么我们就越容易做对的决策,但前提是准确的信息。
特征选择就是一个信息筛选过滤的过程,我们要遵循如下两个准则:
第一点好理解,特征是为目标服务的,因此选择出来的特征必须能够表征目标;
第二点的意思是这个特征要在不同的物品之间有相当明显的差异。比如销量,有的高,有的低;评价,有的是100%好评,有的是80%好评,这些都可以称之为特征。
但是,如果你们业务的基本上99%的物品好评率都在100%,那基本上这个特征就不用加了。
有差异才有区别,有区别才能作为一个决策的因素。
什么情况下我们需要进行特征选择?
训练数据包含许多冗余或无用的特征,移除这些特征并不会导致丢失信息。其中冗余是指一个本身很有用的特征与另外一个有用的特征强相关,或它包含的信息能从其它特征推演出来;
特征很多但样本相对较少,也就是某一个维度的信息数据量太少,覆盖度较低。
03 特征选择的4个步骤
以下是模型特征选择的4个步骤,策略产品经理以了解为主:
产生过程:产生特征或特征子集候选集合;
评价函数:衡量特征或特征子集的重要性或者好坏程度,即量化特征变量和目标变量之间的联系以及特征之间的相互联系。为了避免过拟合,可用交叉验证的方式来评估特征的好坏;
停止准则:为了减少计算复杂度,需设定一个阈值,当评价函数值达到阈值后搜索停止;
验证过程:在验证数据集上验证选出来的特征子集的有效性。
另一种特征选择
很多策略产品经理认为只有在使用模型和算法的时候才会有特征选择。其实不然,在我们使用规则逻辑的时候也需要涉及到特征选择。
很多时候我们会采用LR思路去做一个线性逻辑的公式,通常用来进行排序。以计算一个短视频综合得分为例:
视频score=浏览权重1+转发权重2+完播*权重……
这里的浏览、转发、完播都是用来表征这个信息在短视频视频综合得分当中的作用,也是需要从视频本身大量的信息当中选择出来的。
选择的规程也需要遵循特征选择的两个准则。
以上,你学会了么?
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至22018681@qq.com 举报,一经查实,本站将立刻删除。