拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

技术拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率 拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节

End tecdat|R语言平滑算法黄土局部加权回归、三次样条、变点检测拟合电视节目《白宫风云》在线收视率。

原文链接:http://tecdat.cn/p=24067

原文出处:拓端数据部落公众号

这个例子是基于电视节目的在线收视率。我们将从获取数据开始。

#加载包。

packages - c('gplot2 ',' MASS ',' reshpe ',' sp lens ',

XML’)

分析系列是阿伦索尔金的《白宫风云》。

if(!fle . EIS(fie))

#解析HTML内容。

html - htmlPrse(lissi=17ectn=a ')

#按id选择表格。

tml - pahppl(html,//tal[@d='Tle']'[1]

#转换为数据集。

da - reHTML(hml)

#第一条数据线。

主管(da)

#保存本地副本。

write.csv(ata[,-3],fle)

#读取本地副本。

daa - red.sv(fie)

#检查结果。

字符串(dat)

Mean是每集的平均得分,所以我们有一个参数,Count是每集的票数,所以我们有一个样本量。使用标准误差方程,我们将计算每个分数的“误差幅度”。请注意,有几集收视率很高,所以收视率分布不正常。

#计算季节。

daa$saon - 1 (daX - 1)%/”

#特殊情况。

$ sasn[其中(dta$sesn 7)] - c(7,NA)

#因子变量

daa$saon - fator(aa$sesn)

我们对数据采取的最后一步是添加季节编号,这样我们以后就可以在绘图上区分它们。除了两个特例(上一季有23集,一个节目是电影特辑),《白宫风云》每一季都有22集。我们用余数除以22来计算季节,修复特殊情况,并将变量分解为绘图用途。

#计算季节。

asaon - 1 (aX - 1)%/”

#特殊情况。

dts ASON[wich(dts ASN 7)]-c(7,A)

#因子变量

dtseson - fctor(dasasn)

最后,使用95%和99%的置信区间来可视化不确定性。

qlot(dta=dat,x=X,y=mu,clr=sasn,gem='pont ')

genge(es(yin=u - 1.96*se,ymx=u 1.96*se),alpa=.5)

golie(as(yin=-2.58 * se,yax=2.58 * e),apa=.5)

这个数字对于每一季的平均收视率会更有用,这可以很容易地通过ddply()函数检索到。最小集和最大集也是计算出来的,这样就可以画出每个季节的水平线段。由于我们将上一个图形保存为ggplot2对象,添加线条只需要对附加图形元素进行编码并将其添加到保存的元素中。

#计算季度平均值。

men - dply(daa,(easn),summrs,

ma=平均值),

xmi=in(X,

xmx=ma(X)

#将平均值添加到绘图中。

g go_eme(daa=eas,

as(xmin,max,=mean,en=man))

变化点检测算法

如果您的目标是找到系列中的突然变化,请使用变化点检测算法。

  1. # PELT算法计算变化点。
  2. p - tmean(atamu, 'PELT')
  3. # 提取结果。
  4. xmin - c(0, max[-legh(xmax)])
  5. # 绘图。
  6. gem_segnt(dat = eg)

平滑算法:LOESS(局部加权回归)和三次样条

现在让我们平滑这个系列。基本图都将使用相同的数据,我们将在其上叠加一条通过不同方法计算的趋势线。

  1. # 绘图
  2. plot(data
  3. x = X,
  4. y = mu,
  5. alpa = I0.5),
  6. gom = line")

平滑数据的最简单方法是使用局部多项式,我们将其应用于每个季节的分数,然后应用于它们的去趋势值。更复杂的平滑方法使用splines。它仅用于最后一个图中。

  1. # 每一季的LOESS平滑
  2. LOESS(se = FALSE) +
  3. goln(y = tmu,neyp= dhe"+
  4. as(colo = sason)
  1. # 对去趋势的数值进行LOESS平滑处理
  2. smooth(se = FALSE) +
  3. eoin(es =memu)), itype = ") +
  1. # 立方样条
  2. g +
  3. smooth( "m", ns(x, 8)

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同:该系列有三个时期,是由于观众收视率的一次下降。

  1. # 三次样条和变化点
  2. gmoth(method = ~ ns(x, 8))

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

▍关注我们
【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。
▍咨询链接:http://y0.cn/teradat
▍联系邮箱:3025393450@qq.com

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/52947.html

(0)

相关推荐

  • 志趣的意思,你是如何理解志趣相投的

    技术志趣的意思,你是如何理解志趣相投的臭味相投的常见,比如麻将馆里的人,上了牌桌都成了相差无几的德性志趣的意思。志趣相投的人,要么是做同一样工作,就是团队精神吧。要么是经商共赢的人,就是齐心协力吧。但是越有文化知识的人越

    生活 2021年10月19日
  • Audition CC2019 安装教程(附安装包资源)

    技术Audition CC2019 安装教程(附安装包资源) Audition CC2019 安装教程(附安装包资源)原文链接:https://www.gujin.store/tools/package

    礼包 2021年10月26日
  • mysql中动态语句编写的引号怎么用

    技术mysql中动态语句编写的引号怎么用这篇文章主要为大家展示了“mysql中动态语句编写的引号怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“mysql中动态语句编写的

    攻略 2021年11月2日
  • php.ini状态设置在哪里(php.ini怎么配置)

    技术php.ini如何禁用方法这篇文章将为大家详细讲解有关php.ini如何禁用方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 php.ini禁用方法:

    攻略 2021年12月19日
  • PDF文件如何压缩

    技术PDF文件如何压缩小编给大家分享一下PDF文件如何压缩,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!  步骤一:打开压缩工具,在跳转的页面

    攻略 2021年10月26日
  • oracle rac 随笔

    技术oracle rac 随笔 oracle rac 随笔查看gi时区[+ASM1]@ht01[/u01/app/grid/crs/install]$cat s_crsconfig_ht01_env.t

    礼包 2021年12月17日