如何使用sklearn进行数据挖掘

技术如何使用sklearn进行数据挖掘今天就跟大家聊聊有关如何使用sklearn进行数据挖掘,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1.1 数据挖掘的步骤 

今天我就和大家聊聊如何用sklearn进行数据挖掘,可能很多人都不太懂。为了让大家更好地了解,边肖为大家总结了以下内容。希望你能从这篇文章中有所收获。

从10到1010的数据挖掘通常包括数据收集、数据分析、特征工程、训练模型、模型评估等步骤。借助sklearn工具,可以方便地进行特征工程和模型训练。在《使用sklearn做单机特征工程》中,我们最终留下了一些疑问:特征处理类有fit、transform和fit_transform三种方法,而fit方法与模型训练方法fit同名(不仅同名,而且参数列表也相同)是巧合。

显然,这不是巧合。这是sklearn的设计风格。我们可以更优雅地使用sklearn进行特征工程和模型训练。此时,我们不妨从一个基本的数据挖掘场景开始:

如何使用sklearn进行数据挖掘

数据挖掘过程

我们使用sklearn来完成虚线框中的工作(sklearn也可以提取文本特征)。通过分析sklearn源代码,我们可以看到,除了训练、预测和评估之外,处理其他任务的类已经实现了三种方法:fit、transform和fit_transform。从命名中,我们可以看到fit_transform方法首先调用fit,然后调用transform。我们只需要注意拟合方法和变换方法。

变换方法主要用于变换特征。从可获得的信息来看,转换可以分为非信息转换和信息转换。无信息变换是指没有任何其他信息的变换,如指数和对数函数变换。有信息的变换从是否使用目标值向量可以分为无监督变换和有监督变换。无监督变换是指只利用特征的统计信息,包括均值、标准差、边界等的变换,如标准化、PCA降维等。监督变换是指同时利用特征信息和目标值信息的变换,如模型特征选择和LDA方法降维。通过总结常用的转换类,我们得到下表:

如何使用sklearn进行数据挖掘

不难看出,只有带有信息的转换类的fit方法才是真正有用的。显然,拟合方法的主要工作是获取特征信息和目标值信息。在这方面,模型训练中的fit方法和fit方法可以联系在一起:它们都是通过分析特征和目标值来提取有价值的信息,这是对变换类的一些统计,可能是特征对模型的权重系数。此外,只有监督变换类的拟合和变换方法需要两个参数:特征和目标值。无用拟合方法并不意味着没有实现,但是除了有效性检查之外,它不处理特征和目标值。规格化器的拟合方法实现如下:

如何使用sklearn进行数据挖掘

如果没有基于这些特征处理工作的通用方法,那么想象一下它们是否可以组合在一起?在本文假设的场景中,我们可以看到这些任务有两种组合:流水线和并行。基于流水线组合的工作需要依次进行,前一个工作的输出就是下一个工作的输入;基于并行的工作可以同时进行,使用相同的输入。所有工作完成后,它们各自的输出被合并,然后输出。Sklearn提供封装流水线来完成流水线和并行工作。

00-1010不在这里,所以我们还是用IRIS数据集进行说明。为了适应提议的场景,需要对原始数据集进行轻微处理:

如何使用sklearn进行数据挖掘

1.1 数据挖掘的步骤

并行处理、流水线处理、参数自动调整和持久化是优雅地使用sklearn进行数据挖掘的核心。并行处理和流水线处理将多个特征处理任务,甚至模型训练工作组,组合成一个任务(从代码的角度来看,多个对象组合成一个对象)。在组合的前提下,自动参数调节技术帮助我们省去了手动参数调节的防抱死。训练好的模型是存储在内存中的数据,可以通过持久化的方式保存在文件系统中,然后不需要训练就可以直接从文件系统中加载。

1.2 数据初貌

并行处理允许并行执行多个特征处理作业。根据特征矩阵的不同读取方式,可分为整体并行处理和部分并行处理。整体并行处理,即并行处理中每项工作的输入都是特征矩阵的整体;部分并行处理可以定义每个作业需要输入的特征矩阵的列。

00-1010流水线包为整体并行处理提供了特性联合类:

formation/20210521/347/354403.png" alt="如何使用sklearn进行数据挖掘">

 整体并行处理有其缺陷,在一些场景下,我们只需要对特征矩阵的某些列进行转换,而不是所有列。pipeline并没有提供相应的类,需要我们在FeatureUnion的基础上进行优化。

 在本文提出的场景中,我们对特征矩阵的第1列(花的颜色)进行定性特征编码,对第2、3、4列进行对数函数转换,对第5列进行定量特征二值化处理。使用FeatureUnionExt类进行部分并行处理的代码如下:

如何使用sklearn进行数据挖掘

3 流水线处理

 pipeline包提供了Pipeline类来进行流水线处理。流水线上除最后一个工作以外,其他都要执行fit_transform方法,且上一个工作输出作为下一个工作的输入。最后一个工作必须实现fit方法,输入为上一个工作的输出;但是不限定一定有transform方法,因为流水线的最后一个工作可能是训练!

 根据本文提出的场景,结合并行处理,构建完整的流水线的代码如下:

如何使用sklearn进行数据挖掘

4 自动化调参

 网格搜索为自动化调参的常见技术之一,grid_search包提供了自动化调参的工具,包括GridSearchCV类。对组合好的对象进行训练以及调参的代码如下:

如何使用sklearn进行数据挖掘

5 持久化

externals.joblib包提供了dump和load方法来持久化和加载内存数据:

如何使用sklearn进行数据挖掘

6.回顾

如何使用sklearn进行数据挖掘

注意:组合和持久化都会涉及pickle技术,在sklearn的技术文档中有说明,将lambda定义的函数作为FunctionTransformer的自定义转换函数将不能pickle化。

看完上述内容,你们对如何使用sklearn进行数据挖掘有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/65921.html

(0)

相关推荐

  • HTML5 Flash视频flv播放器有什么功能

    技术HTML5 Flash视频flv播放器有什么功能这篇文章主要介绍“HTML5 Flash视频flv播放器有什么功能”,在日常操作中,相信很多人在HTML5 Flash视频flv播放器有什么功能问题上存在疑惑,小编查阅

    攻略 2021年11月12日
  • RabbitMQ原理以及使用场景是什么

    技术RabbitMQ原理以及使用场景是什么本篇文章给大家分享的是有关RabbitMQ原理以及使用场景是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。一.

    攻略 2021年11月23日
  • 怎么理解C#中Queue的线程安全问题

    技术怎么理解C#中Queue的线程安全问题怎么理解C#中Queue的线程安全问题,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。通过集合枚举在

    攻略 2021年11月11日
  • Java中混淆技术有几种

    技术Java中混淆技术有几种这篇文章给大家分享的是有关Java中混淆技术有几种的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。到目前为止,对于Java程序的保护,混淆技术还是最基本的保护方法。J

    攻略 2021年12月8日
  • Go编程语言如何用来编写Web应用

    技术Go编程语言如何用来编写Web应用这篇文章主要为大家展示了“Go编程语言如何用来编写Web应用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Go编程语言如何用来编写Web

    攻略 2021年10月19日
  • 怎么在生产环境运行Elasticsearch

    技术怎么在生产环境运行Elasticsearch这篇文章主要讲解了“怎么在生产环境运行Elasticsearch”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么在生产环

    攻略 2021年11月4日