您可以使用 R 中的 quantile() 函数生成样本量子。
大家好,今天我们将看看如何使用量子()函数找到值的量子。
**量子:**在俗语中,量子只是一个分为平等群体或大小的样本,由于这种性质,量子也被称为碎片,在量子中,第25个百分比被称为下一个百分比,第50个百分比被称为中间,第75个百分比被称为上一个百分比。
在下面的部分中,让我们看看这个量子() 函数如何在 R 中工作。
量子() 函数语法
R 中量子() 函数的语法是,
1quantile(x, probs = , na.rm = FALSE)
何处,
- X = 输入矢量或值
- Probs = 0 和 1 之间的值的概率
- na.rm = 删除 NA 值
R 中量子() 函数的简单实现
好吧,希望你对量子函数的定义和解释很好,现在,让我们看看量子函数如何在R中运作,用一个简单的示例来返回输入数据的量子。
1#creates a vector having some values and the quantile function will return the percentiles for the data.
2
3df<-c(12,3,4,56,78,18,46,78,100)
4quantile(df)
出发点:**
10% 25% 50% 75% 100%
23 12 46 78 100
在上面的样本中,你可以观察到量子函数首先以上升顺序排列输入值,然后返回所需的值百分位。
**注:**量子函数将数据分为平等的半数,其中中间值作为中间值,而剩余的下方值是下方值,而上方值是上方值。
处理缺失的值 - 'NaN'
在这个数据驱动的数字世界中,您可能会更频繁地遇到这些NaN,通常被称为缺失值。
因此,为了处理这些缺失的值,我们将使用 na.rm函数,该函数将从我们的数据中删除NA值并返回真实值。
让我们看看这是如何工作的。
1#creates a vector having values along with NaN's
2
3df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
4quantile(df)
出发点:**
1Error in quantile.default(df) :
2missing values and NaN's not allowed if 'na.rm' is FALSE
如果你的猜测是关于NA值,你绝对聪明. 如果NA值存在于我们的数据中,大多数函数最终会返回NA值本身或如上所述的错误消息。
好吧,让我们使用 na.rm 函数删除这些缺失的值。
1#creates a vector having values along with NaN's
2
3df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
4
5#removes the NA values and returns the percentiles
6quantile(df,na.rm = TRUE)
出发点:**
10% 25% 50% 75% 100%
23 12 46 78 100
在上面的样本中,您可以看到 na.rm 函数及其对输出的影响. 该函数将删除 NA 以避免错误输出。
量子中的试验
论点
正如您可以在文章的第一节中展示的语法中看到的,您可能会想知道它意味着什么以及它是如何工作的? 好吧,语法被传递到量子函数中,以获得特定或自定义百分位。
看起来很复杂吗?不要担心,我会把它分成简单的词汇。
好吧,当你使用量子函数时,它会返回标准百分位,如25、50和75百分位。
然后出现试验
参数,您可以指定所需的百分比来获取这些。
在走到例子之前,你应该知道关于探测器争论的几点。
** 试验:** 试验或概率参数应在 0 和 1 之间。
以下是一个示例,说明上述陈述。
1#creates the vector of values
2
3df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
4
5#returns the quantile of 22 and 77 th percentiles.
6quantile(df,na.rm = T,probs = c(22,77))
出发点:**
1Error in quantile.default(df, na.rm = T, probs = c(22, 77)) :
2 'probs' outside [0,1]
哦,这是一个错误!
你有这个想法,发生了什么?
好吧,这里是 Probs 陈述. 虽然我们在 probs 论文中提到了正确的值,但它违反了 0-1 条件。
所以,我们必须将探测器22和77转换为0.22和0.77.现在输入值在0和1之间?我希望这有道理。
1#creates a vector of values
2df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
3
4#returns the 22 and 77th percentiles of the input values
5quantile(df,na.rm = T,probs = c(0.22,0.77))
出发点:**
122% 77%
210.08 78.00
名不名
函数及其使用
假设您希望您的代码只返回百分数并避免切割点,在这些情况下,您可以使用unname
函数。
**'unname' 函数将删除标题或切割点(0%,25%,50%,75%,100%),并只返回百分位。
让我们看看它是如何工作的!
1#creates a vector of values
2df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
3quantile(df,na.rm = T,probs = c(0.22,0.77))
4
5#avoids the cut-points and returns only the percentiles.
6unname(quantile(df,na.rm = T,probs = c(0.22,0.77)))
出发点:**
110.08 78.00
现在,您可以观察到切割点被 **unname ** 函数禁用或删除,并且只返回百分位。
圆
函数及其用途
我们在上一篇文章中详细讨论了R中的圆函数(/社区/教程/round-in-r)。
让我们看看它是如何工作的!
1#creates a vector of values
2df<-c(12,3,4,56,78,18,NA,46,78,100,NA)
3quantile(df,na.rm = T,probs = c(0.22,0.77))
4
5#returns the round off values
6unname(round(quantile(df,na.rm = T,probs = c(0.22,0.77))))
出发点:**
110 78
正如您所看到的,我们的输出值被圆到零十分点。
获取数据集中的多个组/列的量子值
到目前为止,我们已经讨论了量子函数,它的用途和应用,以及它的论点以及如何正确使用它们。
在本节中,我们将获得数据集中的多个列的量子。
我将为此使用 **'mtcars'**数据集,并为此使用 **'dplyr'**库。
1#reads the data
2data("mtcars")
3#returns the top few rows of the data
4head(mtcars)
5
6#install required paclages
7install.packages('dplyr')
8library(dplyr)
9
10#using tapply, we can apply the function to multiple groups
11do.call("rbind",tapply(mtcars$mpg, mtcars$gear, quantile))
出发点:**
10% 25% 50% 75% 100%
23 10.4 14.5 15.5 18.400 21.5
34 17.8 21.0 22.8 28.075 33.9
45 15.0 15.8 19.7 26.000 30.4
在上述过程中,我们必须安装**dplyr
包,然后我们将使用 tapply 和 rbind 函数来获取 mtcars 数据集的多个列。
在上述部分中,我们在 mtcars 数据集中采集了多个列,例如mpg
和转移
列,像这样,我们可以计算数据集中的多个组的量子。
我们能看到百分比吗?
我的答案是很大的YES! 这个最好的场景将是一个盒子场景. 让我采取 iris数据集,并将尝试可视化 [盒子场景]( / 社区 / 教程 / 创建-whisker-and-box-plots-in-r),这也将展示百分位。
让我们滚吧!
1data(iris)
2head(iris)
这是具有前六个值的虹膜数据集。
让我们用名为 - **'Summary' **的函数来探索数据。
1summary(iris)
在上面的图像中,您可以看到平均值、中位值、25 个百分位(1 st 四分位)、75 个百分位( 3 个百分位)以及min 和 max 值。
让我们做吧!
1#plots a boxplot with labels
2
3boxplot(iris$Sepal.Length,main='The boxplot showing the percentiles',col='Orange',ylab='Values',xlab='Sepal Length',border = 'brown',horizontal = T)
一个盒子插图可以显示数据的许多方面. 在下面的图中,我已经提到了盒子插图所代表的特定值. 这将为您节省一些时间,并以最好的方式促进您的理解。
在 R 中量子() 函数 - 包装
好吧,这是一篇我认为更长的文章,我尽我所能解释并通过各种示例和插图来探索R中的量子()函数,量子函数是数据分析中最有用的函数,因为它有效地揭示了有关数据的更多信息。
我希望你对 R 中的量子() 函数周围的噪音有很好的了解. 现在就这样了. 我们将在 [R 编程]( / 社区 / 教程 / r 编程)中恢复更多的功能和主题。
** 更多研究:** R 文档.