如何使用sklearn进行数据挖掘

技术如何使用sklearn进行数据挖掘今天就跟大家聊聊有关如何使用sklearn进行数据挖掘,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.1 数据挖掘的步骤 

今天我就和大家聊聊如何用sklearn进行数据挖掘,可能很多人都不太懂。为了让大家更好地了解,边肖为大家总结了以下内容。希望你能从这篇文章中有所收获。

从10到1010的数据挖掘通常包括数据收集、数据分析、特征工程、训练模型、模型评估等步骤。借助sklearn工具,可以方便地进行特征工程和模型训练。在《使用sklearn做单机特征工程》中,我们最终留下了一些疑问:特征处理类有fit、transform和fit_transform三种方法,而fit方法与模型训练方法fit同名(不仅同名,而且参数列表也相同)是巧合。

显然,这不是巧合。这是sklearn的设计风格。我们可以更优雅地使用sklearn进行特征工程和模型训练。此时,我们不妨从一个基本的数据挖掘场景开始:

如何使用sklearn进行数据挖掘

数据挖掘过程

我们使用sklearn来完成虚线框中的工作(sklearn也可以提取文本特征)。通过分析sklearn源代码,我们可以看到,除了训练、预测和评估之外,处理其他任务的类已经实现了三种方法:fit、transform和fit_transform。从命名中,我们可以看到fit_transform方法首先调用fit,然后调用transform。我们只需要注意拟合方法和变换方法。

变换方法主要用于变换特征。从可获得的信息来看,转换可以分为非信息转换和信息转换。无信息变换是指没有任何其他信息的变换,如指数和对数函数变换。有信息的变换从是否使用目标值向量可以分为无监督变换和有监督变换。无监督变换是指只利用特征的统计信息,包括均值、标准差、边界等的变换,如标准化、PCA降维等。监督变换是指同时利用特征信息和目标值信息的变换,如模型特征选择和LDA方法降维。通过总结常用的转换类,我们得到下表:

如何使用sklearn进行数据挖掘

不难看出,只有带有信息的转换类的fit方法才是真正有用的。显然,拟合方法的主要工作是获取特征信息和目标值信息。在这方面,模型训练中的fit方法和fit方法可以联系在一起:它们都是通过分析特征和目标值来提取有价值的信息,这是对变换类的一些统计,可能是特征对模型的权重系数。此外,只有监督变换类的拟合和变换方法需要两个参数:特征和目标值。无用拟合方法并不意味着没有实现,但是除了有效性检查之外,它不处理特征和目标值。规格化器的拟合方法实现如下:

如何使用sklearn进行数据挖掘

如果没有基于这些特征处理工作的通用方法,那么想象一下它们是否可以组合在一起?在本文假设的场景中,我们可以看到这些任务有两种组合:流水线和并行。基于流水线组合的工作需要依次进行,前一个工作的输出就是下一个工作的输入;基于并行的工作可以同时进行,使用相同的输入。所有工作完成后,它们各自的输出被合并,然后输出。Sklearn提供封装流水线来完成流水线和并行工作。

00-1010不在这里,所以我们还是用IRIS数据集进行说明。为了适应提议的场景,需要对原始数据集进行轻微处理:

如何使用sklearn进行数据挖掘

1.1 数据挖掘的步骤

并行处理、流水线处理、参数自动调整和持久化是优雅地使用sklearn进行数据挖掘的核心。并行处理和流水线处理将多个特征处理任务,甚至模型训练工作组,组合成一个任务(从代码的角度来看,多个对象组合成一个对象)。在组合的前提下,自动参数调节技术帮助我们省去了手动参数调节的防抱死。训练好的模型是存储在内存中的数据,可以通过持久化的方式保存在文件系统中,然后不需要训练就可以直接从文件系统中加载。

1.2 数据初貌

并行处理允许并行执行多个特征处理作业。根据特征矩阵的不同读取方式,可分为整体并行处理和部分并行处理。整体并行处理,即并行处理中每项工作的输入都是特征矩阵的整体;部分并行处理可以定义每个作业需要输入的特征矩阵的列。

00-1010流水线包为整体并行处理提供了特性联合类:

formation/20210521/347/354403.png" alt="如何使用sklearn进行数据挖掘">

 整体并行处理有其缺陷,在一些场景下,我们只需要对特征矩阵的某些列进行转换,而不是所有列。pipeline并没有提供相应的类,需要我们在FeatureUnion的基础上进行优化。

 在本文提出的场景中,我们对特征矩阵的第1列(花的颜色)进行定性特征编码,对第2、3、4列进行对数函数转换,对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下:

如何使用sklearn进行数据挖掘

3 流水线处理

 pipeline包提供了Pipeline类来进行流水线处理。流水线上除最后一个工作以外,其他都要执行fit_transform方法,且上一个工作输出作为下一个工作的输入。最后一个工作必须实现fit方法,输入为上一个工作的输出;但是不限定一定有transform方法,因为流水线的最后一个工作可能是训练!

 根据本文提出的场景,结合并行处理,构建完整的流水线的代码如下:

如何使用sklearn进行数据挖掘

4 自动化调参

 网格搜索为自动化调参的常见技术之一,grid_search包提供了自动化调参的工具,包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下:

如何使用sklearn进行数据挖掘

5 持久化

externals.joblib包提供了dump和load方法来持久化和加载内存数据:

如何使用sklearn进行数据挖掘

6.回顾

如何使用sklearn进行数据挖掘

注意:组合和持久化都会涉及pickle技术,在sklearn的技术文档中有说明,将lambda定义的函数作为FunctionTransformer的自定义转换函数将不能pickle化。

看完上述内容,你们对如何使用sklearn进行数据挖掘有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/65921.html

(0)

相关推荐

  • C++11容器的insert怎么使用

    技术C++11容器的insert怎么使用本篇内容介绍了“C++11容器的insert怎么使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅

    攻略 2021年11月29日
  • 叶黄素对眼睛的作用,叶黄素对眼睛有什么好处

    技术叶黄素对眼睛的作用,叶黄素对眼睛有什么好处叶黄素具有保护视力、缓解视疲劳、增进视觉的功效,可用于辅助治疗和预防眼部的黄斑变性及白内障叶黄素对眼睛的作用。补充叶黄素,有助于维护视力持久度、提高视觉反应时间、减少视觉伤害

    生活 2021年10月20日
  • Mysql数据分组排名实现的示例分析

    技术Mysql数据分组排名实现的示例分析Mysql数据分组排名实现的示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1.数据源2.数据

    攻略 2021年10月31日
  • python3--文件读写

    技术python3--文件读写 python3--文件读写读写模式
    是否可读
    是否可写
    文件不存在时r


    报错r+

    是,覆盖写入
    报错w

    是,清空原内容
    创建新文件w+

    是,清空原内容

    礼包 2021年11月24日
  • c++和Python哪个好(c++)

    技术C++如何实现堆排序这篇文章主要介绍“C++如何实现堆排序”,在日常操作中,相信很多人在C++如何实现堆排序问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”C++如何实现堆排序”的疑惑有

    攻略 2021年12月22日
  • MHA高可用

    技术MHA高可用 MHA高可用目录今日内容概述今日内容详细1.MHA高可用概述2.MHA的工作原理MHA的组成MHA自动故障切换的步骤3.MHA的优点总结4.GTID主从复制什么是GTID主从复制GTI

    礼包 2021年10月20日