1. 业务逻辑
数据分析遵循一定的流程,不仅可以保证数据分析每一个阶段的工作内容有章可循,而且还可以让分析最终的结果更加准确,更加有说服力。
一般情况下,数据分析分为以下几个步骤:
业务理解,确定目标、明确分析需求
数据理解,收集原始数据、描述数据、探索数据、检验数据质量
数据准备,选择数据、清洗数据、构造数据、整合数据、格式化数据
建立模型,选择建模技术、参数调优、生成测试计划、构建模型
评估模型,对模型进行较为全面的评价,评价结果、重审过程
成果部署,分析结果应用
2. 特征工程
包括特征提取、特征构建、特征选择。特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到好的结果。
3. 数据采集 / 清洗 / 采样
1. 数据采集
数据采集前需要明确采集哪些数据,一般的思路为:哪些数据对最后的结果预测有帮助?数据我们能够采集到吗?线上实时计算的时候获取是否快捷?
举例1:我现在要预测用户对商品的下单情况,或者我要给用户做商品推荐,那我需要采集什么信息呢?
店家:店铺的评分、店铺类别……
商品:商品评分、购买人数、颜色、材质、领子形状……
用户:历史信息(购买商品的最低价最高价)、消费能力、商品停留时间……
2. 数据清洗
数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何,取决于原材料的好坏。数据清洗就是要去除脏数据,比如某些商品的刷单数据。
那么如何判定脏数据呢?
简单属性判定:一个人身高3米 的人;一个人一个月买了10w的发卡。
组合或统计属性判定:你要判定一个人是否会买篮球鞋,样本中女性用户85%?
补齐可对应的缺省值:不可信的样本丢掉,缺省值极多的字段考虑不用。
数据清洗标准:
数据的完整性—-例如人的属性中缺少性别、籍贯、年龄等
数据的唯一性—-例如不同来源的数据出现重复的情况
数据的权威性—-例如同一个指标出现多个来源的数据,且数值不一样
数据的合法性—-例如获取的数据与常识不符,年龄大于150岁
数据的一致性—-例如不同来源的不同指标,实际内涵是一样的,或是同一指标内涵不一致
3. 数据采样
采集、清洗过数据以后,正负样本是不均衡的,要进行数据采样。采样的方法有随机采样和分层抽样。但是随机采样会有隐患,因为可能某次随机采样得到的数据很不均匀,更多的是根据特征采用分层抽样。
正负样本不平衡处理办法:
正样本
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/92231.html