百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

附代码|详解R语言的高级数据结构

haoteby 2025-05-27 14:16 5 浏览

有时数据需要比向量更复杂的存储方式。幸运的是,R软件提供了很多的数据结构。常见的有数据框(data.frame)、矩阵(matrix)、列表(list)以及数组(array)。数据框类似于电子表格,矩阵类似于人们熟悉的矩阵数学计算,列表对于程序员比较熟悉。

1、数据框

数据框是R语言中最有用的功能之一,它也是R语言的易用性经常被提及的原因之一。直观上,数据框就像Excel电子表格一样有列和行。在统计上,每列代表一个变量,每行代表一个观测。

在数据框中,每列实际是个向量,都有相同的长度。数据框可以用来保存不同数据类型的数据。这也暗示着,每列的每个元素必须是相同数据类型的,类似向量的要求。创建数据框有很多种方式,最简单的是用data.frame函数。这里用前面介绍过的向量x、y、q创建一个基本的数据框。

这里创建了一个由3个向量组成的10行3列的数据框。注意theDF的名字也是变量。实际上,可以在创建数据框的过程中设置变量名字。

数据框是具有很多属性的复杂对象。最常检查的属性是行数和列数,用nrowncol函数分别得到数据框的行数和列数,而dim函数可以同时得到数据框的行数和列数。

数据框的列名字用names函数获取。names函数返回一个字符向量,列出所有的列名。由于是向量,可以访问它的每一个元素。

也可以获取和指定数据框的名字

有时一个数据框有太多的行,以至于不能在屏幕上全部显示出来,这时,可以用head函数显示出前几行。

像其他变量一样,用class函数获取数据框所属的类。

列表框的每列是独立的向量,因此,每列都有它自己的类,可以单独被访问。R语言有多种方法来访问每个列,比如操作符方括号。theDF$Sport得到theDF的第三列,这说明允许通过列名来指定特定的列。

与向量相似,数据框允许使用方括号通过位置访问单个元素,但是要用两个位置指定,而不是向量中的一个位置。第一个是行数,第二个是列数。用theDF[3,2]可以得到theDF的位于第三行第二列的元素。

可以用向量来索引更多的行或者列。

通过指定行而不指定任何列可以访问一整行。同样,可以指定列而不指定任何行来访问一整列。

将列参数指定为字符向量可以以列名访问多列。

访问指定列的另外一种方式是把列的名字(索引数)作为方括号里的第二个参数,或者作为单方括号或双方括号里的唯一参数。

这些方法的输出不尽相同。有些返回一个向量,有些返回一个单列的数据框。为了确保输出单列的数据框,使用单方括号,同时指定第三个参数:drop=FALSE。通过列索引数指定某列也同样适用。

factor的特殊存储形式也可以表示成数据框的形式,为此用model.matrix创建一个指示变量(或哑变量)的集合。列代表factor的水平值,每行里,对应水平值的那行为1,其他为0。

2、列表

R语言的列表是一个容器,可以存储相同类型或者不同类型的数据列表可以存储任意数量、任意类型的对象。列表可以全部包含数值型或者字符型数据,也可以包含两种数据类型的混合,以及数据框或者其他列表。

列表用list函数创建,函数的参数即为列表的元素。

注意,前面创建列表list3的代码块被括号整个括起来,使得执行的结果被打印出来。

像数据框一样,列表也可以有名字。列表中每个元素都有唯一的名字,可以使用names函数查看或设置名字。

列表元素的名字也可以在创建的过程中用名字-值成对指定。

令人惊奇的是,可以用vector创建指定长度的空列表

双方括号,通过设定元素编号元素名字,可以访问列表的单个元素。注意这种方式一次只能访问一个元素。

如果实际使用的元素在一个被访问的元素中,可以通过元素的嵌套索引来访问。

使用索引(数字或名字)可以对列表增加元素,前提是该索引事先不存在列表中。

偶尔对列表或向量或数据框增加元素都还好,但是,如果反复这样做计算代价就太高了。所以最好创建指定长度的列表,然后通过合适的索引增加元素。

3、矩阵

对统计非常重要的数学结构是矩阵。矩阵跟数据框有点相似,是一个矩形结构,具有行和列,每列的数据类型相同,每个元素的数据类型也相同一般都是数值型。矩阵跟向量相似,也可以进行元素与元素的加法、减法、乘法、除法、等式运算。nrow、ncol和dim函数的使用方法与数据框的类似。

矩阵乘法是常用的数学运算,要求左边矩阵的列数等于右边矩阵的行数。矩阵A和B都是5×2矩阵,所以为了能让矩阵B放在右边进行矩阵乘法运算,需要对矩阵B取转置

另外一个跟数据框相似的地方是,矩阵也有行和列的名字。

有两个特殊的向量,letters和LETTERS,分别由小写字母和大写字母组成。

对矩阵取转置进行矩阵乘法的时候,需要注意乘积结果。转置会置换行和列的名字。矩阵乘积的行名字取自左边矩阵的行名字,矩阵乘积的列名字取自右边矩阵的列名字。

4、数组

本质上,数组是一个多维向量,它的所有元素必须是相同类型,用方括号访问单个元素。方括号里第一个参数是行索引,第二个参数是列索引,剩下的参数是维度

数组和矩阵最主要的不同是,矩阵只能是二维,而数组可以是任意维度

数据的数据类型和结构太多的话,会对一些分析环境带来问题,但是R语言都能从容应对。R语言中最基础的数据结构是一维向量。功能最强大的数据结构是数据框(在其他语言中都没有),可以像电子表格一样处理混合数据类型。列表多用于存储数据集合,有点像Perl中的散列表。

本文摘编于《R语言:实用数据分析与可视化技术》

来源:华章计算机

相关推荐

R数据分析:双因素方差分析与交互作用检验

Two-wayANOVAtestisusedtoevaluatesimultaneouslytheeffectoftwogroupingvariables(AandB)...

R数据分析:用R语言做meta分析

这里以我的一篇meta分析为例,详细描述meta分析的一般步骤,该例子实现的是效应量β的合并...

生存分析看完这篇就够了(R语言代码+线上工具)

尔云间一个专门做科研的团队云生信学生物信息学关注我们...

用R语言画图

R语言中离群值的识别、描述、绘制与移除

摘要:统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。鉴定离群值的方法有很多种,包括基于标准差的方法和基于...

R语言、RStudio的下载、安装与使用

本文介绍R语言及其集成开发环境...

[R语言] R语言快速入门教程

本文主要是为了从零开始学习和理解R语言,简要介绍了该语言的最重要部分,以快速入门。主要参考文章:R-TutorialR语言程序的编写需要安装R或RStudio,通常是在RStudio中键入代码。但是R...

看完这个「R语言课程」合集,我发现R语言也不过如此…

小料君看到一个有趣的问答...

在R语言中使用正则表达式

有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。R语言中有一整套可以用来处理字符的函数,在之前的博文中已经有所涉及。但真正的...

附代码|详解R语言的高级数据结构

有时数据需要比向量更复杂的存储方式。幸运的是,R软件提供了很多的数据结构。常见的有数据框(data.frame)、矩阵(matrix)、列表(list)以及数组(array)。数据框类似于电子表格,矩...

R语言实战—自学笔记—向量

第2章创建数据集2.1数据集的概念数据集:由数据构成的一个矩形数组,行表示观测,列表示变量。...

R语言从入门到精通:Day7

原创小浣熊科研猫是时候关注我们一波了在向reviewer或者导师展示自己的统计分析结果时,一张图往往顶得上千言万语;在刚接触到数据时,图也能帮助我们发现数据中潜在的模式或者其中的异常值,这两个例子...

一文教你学会维恩图的绘制——R语言

背景介绍维恩图用于展示在不同的事物群组(集合)之间的数学或逻辑联系,尤其适合用来表示集合(或)类之间的“大致关系”,它也常常被用来帮助推导(或理解推导过程)关于集合运算(或类运算)的一些规律。通常每个...

R语言介绍

一、R语言介绍...

R语言的一些常见初级基本操作

基本概念:在R语言里操作和接触的所有东西都称作对象(object)。对象有很多种类可以包含各种类型的数据。R语言里所有的东西都被称为对象,R语言中常见的数据类型有几下几种,分别是字符型(cha...