모니터

dplyr


모니터
원저작자해들리 위컴
초기 릴리즈2014년 1월 7일, 8년 전(2014-01-07)
안정된 릴리스
1.0.0 / 2020년 6월 1일, 2년 전(2020-06-01)
기입처R
면허증.GPLv2
웹 사이트dplyr.tidyverse.org//

R 프로그래밍 언어에서 tidyverse의 핵심 패키지 중 하나인 dplyr는 주로 직관적이고 사용자 친화적인 방법으로 데이터 프레임을 조작할 수 있도록 설계된 함수 세트입니다.데이터 분석가는 일반적으로 기존 데이터셋을 특정 유형의 분석 또는 데이터 [1][2]시각화에 적합한 형식으로 변환하기 위해 dplyr를 사용합니다.

예를 들어, 방대한 데이터 집합을 분석하려는 사용자는 데이터의 작은 부분 집합만 보려고 할 수 있습니다.또는 사용자가 어떤 수치로 순위를 매겨진 행을 보기 위해 또는 원래 데이터 집합의 값 조합을 기준으로 데이터를 재배치할 수도 있습니다.

주로 Hadley Wickham이 집필한 dplyr는 2014년에 [3]출시되었습니다.dplyr 웹 페이지에서 패키지는 "가장 일반적인 데이터 조작 [4]문제를 해결하는 데 도움이 되는 일관된 동사 집합을 제공하는 데이터 조작 문법"으로 설명됩니다.

오심동사

dplyr에는 실제로 다양한 형태의 데이터 조작을 가능하게 하는 수십 개의 함수가 포함되어 있지만 패키지에는 5개의 주요 [5]동사가 포함되어 있습니다.

사용자가 지정한 조건에 따라 데이터 프레임에서 행을 추출하기 위해 사용되는 filter.

데이터 프레임을 컬럼별로 서브셋하기 위해 사용되는 select.

특정 열에 의해 유지되는 속성에 따라 데이터 프레임 내의 행을 정렬하기 위해 사용되는 arrange.

기존 컬럼의 값을 변경 또는 조합하여 새로운 변수를 작성하기 위해 사용되는 mutate.

summary'데이터 프레임의 값을 단일 요약으로 축소하기 위해 사용됩니다.

추가 기능

dplyr는 5개의 주요 동사 외에도 데이터 프레임의 탐색과 조작을 가능하게 하는 몇 가지 다른 기능도 포함하고 있습니다.여기에는 다음이 포함됩니다.

count'는 특정 값 또는 범주형 속성을 포함하는 고유 관측치의 수를 합산하기 위해 사용됩니다.

rename을 사용하면 사용자가 변수의 열 이름을 변경할 수 있으며 종종 데이터셋의 사용 편의성과 직관적인 이해를 향상시킬 수 있습니다.

slice_max-특정 변수의 값이 가장 많은 행을 포함하는 데이터 서브셋을 반환합니다.

slice_min" 특정 변수의 값이 가장 작은 행을 포함하는 데이터 서브셋을 반환합니다.

내장 데이터 세트

dplyr 패키지에는 5개의 데이터 세트가 포함되어 있습니다.band_instruments, band_instruments2, band_members, starwars, storms 등이 있습니다.

레퍼런스

  1. ^ Yadav, Rohit (2019-10-29). "Python's Pandas vs R's Tidyverse: Who Comes Out On Top?". Analytics India Magazine. Retrieved 2021-02-06.
  2. ^ Krill, Paul (2015-06-30). "Why R? The pros and cons of the R language". InfoWorld. Retrieved 2021-02-06.
  3. ^ "Introducing dplyr". blog.rstudio.com. Retrieved 2020-09-02.
  4. ^ "Function reference". dplyr.tidyverse.org. Retrieved 2021-02-06.
  5. ^ Grolemund, Garrett; Wickham, Hadley. 5 Data transformation R for Data Science.