如何使用sklearn进行数据挖掘

技术如何使用sklearn进行数据挖掘今天就跟大家聊聊有关如何使用sklearn进行数据挖掘,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.1 数据挖掘的步骤 

今天我就和大家聊聊如何用sklearn进行数据挖掘,可能很多人都不太懂。为了让大家更好地了解,边肖为大家总结了以下内容。希望你能从这篇文章中有所收获。

从10到1010的数据挖掘通常包括数据收集、数据分析、特征工程、训练模型、模型评估等步骤。借助sklearn工具,可以方便地进行特征工程和模型训练。在《使用sklearn做单机特征工程》中,我们最终留下了一些疑问:特征处理类有fit、transform和fit_transform三种方法,而fit方法与模型训练方法fit同名(不仅同名,而且参数列表也相同)是巧合。

显然,这不是巧合。这是sklearn的设计风格。我们可以更优雅地使用sklearn进行特征工程和模型训练。此时,我们不妨从一个基本的数据挖掘场景开始:

如何使用sklearn进行数据挖掘

数据挖掘过程

我们使用sklearn来完成虚线框中的工作(sklearn也可以提取文本特征)。通过分析sklearn源代码,我们可以看到,除了训练、预测和评估之外,处理其他任务的类已经实现了三种方法:fit、transform和fit_transform。从命名中,我们可以看到fit_transform方法首先调用fit,然后调用transform。我们只需要注意拟合方法和变换方法。

变换方法主要用于变换特征。从可获得的信息来看,转换可以分为非信息转换和信息转换。无信息变换是指没有任何其他信息的变换,如指数和对数函数变换。有信息的变换从是否使用目标值向量可以分为无监督变换和有监督变换。无监督变换是指只利用特征的统计信息,包括均值、标准差、边界等的变换,如标准化、PCA降维等。监督变换是指同时利用特征信息和目标值信息的变换,如模型特征选择和LDA方法降维。通过总结常用的转换类,我们得到下表:

如何使用sklearn进行数据挖掘

不难看出,只有带有信息的转换类的fit方法才是真正有用的。显然,拟合方法的主要工作是获取特征信息和目标值信息。在这方面,模型训练中的fit方法和fit方法可以联系在一起:它们都是通过分析特征和目标值来提取有价值的信息,这是对变换类的一些统计,可能是特征对模型的权重系数。此外,只有监督变换类的拟合和变换方法需要两个参数:特征和目标值。无用拟合方法并不意味着没有实现,但是除了有效性检查之外,它不处理特征和目标值。规格化器的拟合方法实现如下:

如何使用sklearn进行数据挖掘

如果没有基于这些特征处理工作的通用方法,那么想象一下它们是否可以组合在一起?在本文假设的场景中,我们可以看到这些任务有两种组合:流水线和并行。基于流水线组合的工作需要依次进行,前一个工作的输出就是下一个工作的输入;基于并行的工作可以同时进行,使用相同的输入。所有工作完成后,它们各自的输出被合并,然后输出。Sklearn提供封装流水线来完成流水线和并行工作。

00-1010不在这里,所以我们还是用IRIS数据集进行说明。为了适应提议的场景,需要对原始数据集进行轻微处理:

如何使用sklearn进行数据挖掘

1.1 数据挖掘的步骤

并行处理、流水线处理、参数自动调整和持久化是优雅地使用sklearn进行数据挖掘的核心。并行处理和流水线处理将多个特征处理任务,甚至模型训练工作组,组合成一个任务(从代码的角度来看,多个对象组合成一个对象)。在组合的前提下,自动参数调节技术帮助我们省去了手动参数调节的防抱死。训练好的模型是存储在内存中的数据,可以通过持久化的方式保存在文件系统中,然后不需要训练就可以直接从文件系统中加载。

1.2 数据初貌

并行处理允许并行执行多个特征处理作业。根据特征矩阵的不同读取方式,可分为整体并行处理和部分并行处理。整体并行处理,即并行处理中每项工作的输入都是特征矩阵的整体;部分并行处理可以定义每个作业需要输入的特征矩阵的列。

00-1010流水线包为整体并行处理提供了特性联合类:

formation/20210521/347/354403.png" alt="如何使用sklearn进行数据挖掘">

 整体并行处理有其缺陷,在一些场景下,我们只需要对特征矩阵的某些列进行转换,而不是所有列。pipeline并没有提供相应的类,需要我们在FeatureUnion的基础上进行优化。

 在本文提出的场景中,我们对特征矩阵的第1列(花的颜色)进行定性特征编码,对第2、3、4列进行对数函数转换,对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下:

如何使用sklearn进行数据挖掘

3 流水线处理

 pipeline包提供了Pipeline类来进行流水线处理。流水线上除最后一个工作以外,其他都要执行fit_transform方法,且上一个工作输出作为下一个工作的输入。最后一个工作必须实现fit方法,输入为上一个工作的输出;但是不限定一定有transform方法,因为流水线的最后一个工作可能是训练!

 根据本文提出的场景,结合并行处理,构建完整的流水线的代码如下:

如何使用sklearn进行数据挖掘

4 自动化调参

 网格搜索为自动化调参的常见技术之一,grid_search包提供了自动化调参的工具,包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下:

如何使用sklearn进行数据挖掘

5 持久化

externals.joblib包提供了dump和load方法来持久化和加载内存数据:

如何使用sklearn进行数据挖掘

6.回顾

如何使用sklearn进行数据挖掘

注意:组合和持久化都会涉及pickle技术,在sklearn的技术文档中有说明,将lambda定义的函数作为FunctionTransformer的自定义转换函数将不能pickle化。

看完上述内容,你们对如何使用sklearn进行数据挖掘有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/65921.html

(0)

相关推荐

  • 嵌入式数据库Sqlite3之如何使用基本的命令操作

    技术嵌入式数据库Sqlite3之如何使用基本的命令操作这篇文章主要介绍“嵌入式数据库Sqlite3之如何使用基本的命令操作”,在日常操作中,相信很多人在嵌入式数据库Sqlite3之如何使用基本的命令操作问题上存在疑惑,小

    攻略 2021年10月22日
  • visualstudio调试器怎么关闭(visualstudio怎么取消实时调试器)

    技术如何浅析Visual Studio调试中断点的设置本篇文章给大家分享的是有关如何浅析Visual Studio调试中断点的设置,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟

    攻略 2021年12月19日
  • mysql怎么看哪个是字段类型(mysql一个类型分成几个字段)

    技术MySQL字段类型分为哪几类这篇文章主要介绍“MySQL字段类型分为哪几类”,在日常操作中,相信很多人在MySQL字段类型分为哪几类问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MyS

    攻略 2021年12月25日
  • 如何给SQL做个优化

    技术如何给SQL做个优化本篇内容主要讲解“如何给SQL做个优化”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何给SQL做个优化”吧!SQL 语句执行较慢的 3 个原因没有建

    攻略 2021年10月22日
  • openwrt设置远程管理(openwrt模式怎么设置)

    技术OpenWRT如何启用工作模式开关和联网小编给大家分享一下OpenWRT如何启用工作模式开关和联网,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧! 主要配置 rc.local 脚本,内容如下:r

    攻略 2021年12月18日
  • mysql中char和varchar的区别有哪些

    技术mysql中char和varchar的区别有哪些本篇内容主要讲解“mysql中char和varchar的区别有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“mysql

    攻略 2021年12月3日