拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

技术拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率 拓端tecdat|R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节

End tecdat|R语言平滑算法黄土局部加权回归、三次样条、变点检测拟合电视节目《白宫风云》在线收视率。

原文链接:http://tecdat.cn/p=24067

原文出处:拓端数据部落公众号

这个例子是基于电视节目的在线收视率。我们将从获取数据开始。

#加载包。

packages - c('gplot2 ',' MASS ',' reshpe ',' sp lens ',

XML’)

分析系列是阿伦索尔金的《白宫风云》。

if(!fle . EIS(fie))

#解析HTML内容。

html - htmlPrse(lissi=17ectn=a ')

#按id选择表格。

tml - pahppl(html,//tal[@d='Tle']'[1]

#转换为数据集。

da - reHTML(hml)

#第一条数据线。

主管(da)

#保存本地副本。

write.csv(ata[,-3],fle)

#读取本地副本。

daa - red.sv(fie)

#检查结果。

字符串(dat)

Mean是每集的平均得分,所以我们有一个参数,Count是每集的票数,所以我们有一个样本量。使用标准误差方程,我们将计算每个分数的“误差幅度”。请注意,有几集收视率很高,所以收视率分布不正常。

#计算季节。

daa$saon - 1 (daX - 1)%/”

#特殊情况。

$ sasn[其中(dta$sesn 7)] - c(7,NA)

#因子变量

daa$saon - fator(aa$sesn)

我们对数据采取的最后一步是添加季节编号,这样我们以后就可以在绘图上区分它们。除了两个特例(上一季有23集,一个节目是电影特辑),《白宫风云》每一季都有22集。我们用余数除以22来计算季节,修复特殊情况,并将变量分解为绘图用途。

#计算季节。

asaon - 1 (aX - 1)%/”

#特殊情况。

dts ASON[wich(dts ASN 7)]-c(7,A)

#因子变量

dtseson - fctor(dasasn)

最后,使用95%和99%的置信区间来可视化不确定性。

qlot(dta=dat,x=X,y=mu,clr=sasn,gem='pont ')

genge(es(yin=u - 1.96*se,ymx=u 1.96*se),alpa=.5)

golie(as(yin=-2.58 * se,yax=2.58 * e),apa=.5)

这个数字对于每一季的平均收视率会更有用,这可以很容易地通过ddply()函数检索到。最小集和最大集也是计算出来的,这样就可以画出每个季节的水平线段。由于我们将上一个图形保存为ggplot2对象,添加线条只需要对附加图形元素进行编码并将其添加到保存的元素中。

#计算季度平均值。

men - dply(daa,(easn),summrs,

ma=平均值),

xmi=in(X,

xmx=ma(X)

#将平均值添加到绘图中。

g go_eme(daa=eas,

as(xmin,max,=mean,en=man))

变化点检测算法

如果您的目标是找到系列中的突然变化,请使用变化点检测算法。

  1. # PELT算法计算变化点。
  2. p - tmean(atamu, 'PELT')
  3. # 提取结果。
  4. xmin - c(0, max[-legh(xmax)])
  5. # 绘图。
  6. gem_segnt(dat = eg)

平滑算法:LOESS(局部加权回归)和三次样条

现在让我们平滑这个系列。基本图都将使用相同的数据,我们将在其上叠加一条通过不同方法计算的趋势线。

  1. # 绘图
  2. plot(data
  3. x = X,
  4. y = mu,
  5. alpa = I0.5),
  6. gom = line")

平滑数据的最简单方法是使用局部多项式,我们将其应用于每个季节的分数,然后应用于它们的去趋势值。更复杂的平滑方法使用splines。它仅用于最后一个图中。

  1. # 每一季的LOESS平滑
  2. LOESS(se = FALSE) +
  3. goln(y = tmu,neyp= dhe"+
  4. as(colo = sason)
  1. # 对去趋势的数值进行LOESS平滑处理
  2. smooth(se = FALSE) +
  3. eoin(es =memu)), itype = ") +
  1. # 立方样条
  2. g +
  3. smooth( "m", ns(x, 8)

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同:该系列有三个时期,是由于观众收视率的一次下降。

  1. # 三次样条和变化点
  2. gmoth(method = ~ ns(x, 8))

最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

▍关注我们
【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。
▍咨询链接:http://y0.cn/teradat
▍联系邮箱:3025393450@qq.com

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/52947.html

(0)

相关推荐

  • PHP+jQuery-ui怎么进行拖动浮动层排序并保存到数据库

    技术PHP+jQuery-ui怎么进行拖动浮动层排序并保存到数据库这篇文章将为大家详细讲解有关PHP+jQuery-ui怎么进行拖动浮动层排序并保存到数据库,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这

    攻略 2021年11月16日
  • linux如何修改系统参数

    技术linux如何修改系统参数这篇文章将为大家详细讲解有关linux如何修改系统参数,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。vi /etc/security/limits.con

    攻略 2021年11月19日
  • 网站或者APP短信验证码是如何实现的

    技术网站或者APP短信验证码是如何实现的这篇文章主要介绍了网站或者APP短信验证码是如何实现的,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。短信验证码下发

    攻略 2021年11月30日
  • http和https的区别有哪些

    技术http和https的区别有哪些这篇文章将为大家详细讲解有关http和https的区别有哪些,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。1.了解http和https

    攻略 2021年11月12日
  • 音频测试相关测试指标

    技术音频测试相关测试指标 音频测试相关测试指标音频测试常用的测试指标主要有电平(Level)、频率响应(FR,FrequenceResponse)、总谐波失真(THD+N)、信噪比(SNR,Signal

    礼包 2021年12月24日
  • blend for visual studio是什么(microsoft visual c可以删除吗)

    技术Microsoft Visual Studio 2005集成开发环境有哪些新功能这篇文章将为大家详细讲解有关Microsoft Visual Studio 2005集成开发环境有哪些新功能,小编觉得挺实用的,因此分享

    攻略 2021年12月24日