End tecdat|R语言平滑算法黄土局部加权回归、三次样条、变点检测拟合电视节目《白宫风云》在线收视率。
原文链接:http://tecdat.cn/p=24067
原文出处:拓端数据部落公众号
这个例子是基于电视节目的在线收视率。我们将从获取数据开始。
#加载包。
packages - c('gplot2 ',' MASS ',' reshpe ',' sp lens ',
XML’)
分析系列是阿伦索尔金的《白宫风云》。
if(!fle . EIS(fie))
#解析HTML内容。
html - htmlPrse(lissi=17ectn=a ')
#按id选择表格。
tml - pahppl(html,//tal[@d='Tle']'[1]
#转换为数据集。
da - reHTML(hml)
#第一条数据线。
主管(da)
#保存本地副本。
write.csv(ata[,-3],fle)
#读取本地副本。
daa - red.sv(fie)
#检查结果。
字符串(dat)
Mean是每集的平均得分,所以我们有一个参数,Count是每集的票数,所以我们有一个样本量。使用标准误差方程,我们将计算每个分数的“误差幅度”。请注意,有几集收视率很高,所以收视率分布不正常。
#计算季节。
daa$saon - 1 (daX - 1)%/”
#特殊情况。
$ sasn[其中(dta$sesn 7)] - c(7,NA)
#因子变量
daa$saon - fator(aa$sesn)
我们对数据采取的最后一步是添加季节编号,这样我们以后就可以在绘图上区分它们。除了两个特例(上一季有23集,一个节目是电影特辑),《白宫风云》每一季都有22集。我们用余数除以22来计算季节,修复特殊情况,并将变量分解为绘图用途。
#计算季节。
asaon - 1 (aX - 1)%/”
#特殊情况。
dts ASON[wich(dts ASN 7)]-c(7,A)
#因子变量
dtseson - fctor(dasasn)
最后,使用95%和99%的置信区间来可视化不确定性。
qlot(dta=dat,x=X,y=mu,clr=sasn,gem='pont ')
genge(es(yin=u - 1.96*se,ymx=u 1.96*se),alpa=.5)
golie(as(yin=-2.58 * se,yax=2.58 * e),apa=.5)
这个数字对于每一季的平均收视率会更有用,这可以很容易地通过ddply()函数检索到。最小集和最大集也是计算出来的,这样就可以画出每个季节的水平线段。由于我们将上一个图形保存为ggplot2对象,添加线条只需要对附加图形元素进行编码并将其添加到保存的元素中。
#计算季度平均值。
men - dply(daa,(easn),summrs,
ma=平均值),
xmi=in(X,
xmx=ma(X)
#将平均值添加到绘图中。
g go_eme(daa=eas,
as(xmin,max,=mean,en=man))
变化点检测算法
如果您的目标是找到系列中的突然变化,请使用变化点检测算法。
- # PELT算法计算变化点。
- p - tmean(atamu, 'PELT')
- # 提取结果。
- xmin - c(0, max[-legh(xmax)])
- # 绘图。
- gem_segnt(dat = eg)
平滑算法:LOESS(局部加权回归)和三次样条
现在让我们平滑这个系列。基本图都将使用相同的数据,我们将在其上叠加一条通过不同方法计算的趋势线。
- # 绘图
- plot(data
- x = X,
- y = mu,
- alpa = I0.5),
- gom = line")
平滑数据的最简单方法是使用局部多项式,我们将其应用于每个季节的分数,然后应用于它们的去趋势值。更复杂的平滑方法使用splines。它仅用于最后一个图中。
- # 每一季的LOESS平滑
- LOESS(se = FALSE) +
- goln(y = tmu,neyp= dhe"+
- as(colo = sason)
- # 对去趋势的数值进行LOESS平滑处理
- smooth(se = FALSE) +
- eoin(es =memu)), itype = ") +
- # 立方样条
- g +
- smooth( "m", ns(x, 8)
三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同:该系列有三个时期,是由于观众收视率的一次下降。
- # 三次样条和变化点
- gmoth(method = ~ ns(x, 8))
最受欢迎的见解
1.R语言多元Logistic逻辑回归 应用案例
2.面板平滑转移回归(PSTR)分析案例实现
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R语言泊松Poisson回归模型分析案例
5.R语言混合效应逻辑回归Logistic模型分析肺癌
6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
8.python用线性回归预测股票价格
9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
▍关注我们
【大数据部落】第三方数据服务提供商,提供全面的统计分析与数据挖掘咨询服务,为客户定制个性化的数据解决方案与行业报告等。
▍咨询链接:http://y0.cn/teradat
▍联系邮箱:3025393450@qq.com
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/52947.html