확률 및 통계 용어집

Glossary of probability and statistics

통계와 확률의 이 용어집통계확률수리과학, 하위 분야 및 관련 분야에서 사용되는 용어와 개념의 정의 목록이다.추가 관련 용어는 수학 용어집실험 설계 용어집참조하십시오.

A

admissible decision rule
algebra of random variables
alternative hypothesis
analysis of variance
atomic event
기본 이벤트의 다른 이름입니다.

B

bar chart
Bayes' theorem
Bayes estimator
Bayes factor
Bayesian inference
bias
(1) 더 큰 모집단을 대표하지 않는 표본의 특징
(2) 추정기의 기대치와 참값의 차이
binary data
두 개의 값만 사용할 수 있는 데이터. 보통 이진수 0과 1로 표시됩니다.
binomial distribution
bivariate analysis
두 변수 간의 경험적 관계를 결정하기 위해 정확히 두 변수가 분석되는 정량적 통계 분석의 한 유형입니다.다변량 분석 대비.
blocking
실험 설계에서 실험 단위를 서로 유사한 그룹("블록")으로 배열하는 것입니다.블로킹은 의사 복제 문제를 관리하기 위해 자주 사용됩니다.
Box–Jenkins method
box plot

C

causal study
특정 변수가 다른 변수의 결과에 미치는 영향을 측정하는 것이 목적인 통계 연구입니다.예를 들어, 원인 연구는 다음과 같은 질문을 할 수 있다: "아스피린을 복용하면 두통이 어떻게 느껴질까, 아스피린을 복용하지 않으면 어떻게 느껴질까요?"인과 연구는 실험적이거나 [1]관측적일 수 있습니다.
central limit theorem
central moment
characteristic function
chi-squared distribution
chi-squared test
cluster analysis
cluster sampling
complementary event
completely randomized design
computational statistics
통계와 컴퓨터 과학의 인터페이스에서 계산 방법을 사용하여 가능한 통계 방법에 대한 연구.
concomitants
통계 연구에서 실험 [1]다이어트를 시작하기 전에 단위의 나이, 성별 및 콜레스테롤 수준과 같이 실험 처리의 영향을 받지 않는 모든 변수.
conditional distribution
두 개의 합동으로 분포된 랜덤 변수 X와 Y가 주어졌을 때, 주어진 X의 조건부 확률 분포("Y X")는 X가 특정 값으로 알려진 경우 Y의 확률 분포입니다.
conditional probability
사건 B의 발생을 가정한 사건 A의 확률.수학 표기법에서 조건부 확률은 P(A B)로 표기되며, "A가 주어진 B의 확률"로 읽힌다.
conditional probability distribution
confidence interval (CI)
추리 통계학에서 모집단 평균과 같은 일부 미지의 모수에 대한 타당한 값의 범위는 하한과 [2]상한을 가진 구간으로 정의됩니다.이러한 경계의 정확한 값은 연구자가 선택한 사전 결정된 신뢰 수준에서 계산됩니다.신뢰 수준은 장기적으로 알 수 없는 모수의 실제 값을 캡처하는 구간의 빈도를 나타냅니다. 즉, 95% 신뢰 수준에서 계산된 신뢰 구간의 95%가 참 값을 포함하며 다른 신뢰 수준도 마찬가지입니다.예를 들어, 100명의 무작위 표본의 수면 습관에 대한 연구를 바탕으로, 연구자는 전체 인구가 하룻밤에 5시간에서 9시간 정도 잠을 잔다고 95% 신뢰 수준에서 추정할 수 있다.동일한 모집단에서 추출한 랜덤 표본의 95%가 실제 평균을 포함하는 95% 신뢰 구간을 산출하기 때문에 실제 모집단 평균이 이 구간 내에 속할 확률은 95%입니다.
confidence level

또한 신뢰 계수입니다.

신뢰 구간(범위)이 실제 모집단 평균을 캡처할 확률을 나타내는 숫자입니다.예를 들어 신뢰 수준이 95%인 신뢰 구간은 모집단 평균을 캡처할 확률이 95%입니다.엄밀히 말하면, 실험이 여러 번 반복된다면, 이 수준에서 계산된 CI의 95%가 실제 모집단 [2]평균을 포함할 것이다.
confounder
종속 변수와 독립 변수 모두에 영향을 미쳐 유사 연관성을 일으키는 변수입니다.숨겨진 교란 변수의 존재는 상관관계가 왜 상관관계를 내포하지 않는 중요한 양적 설명입니다. 두 변수의 변화가 상관관계가 있는 것으로 보이는 경우, 하나 이상의 미확인 교란 요인이 실제로 두 변동성의 변화를 야기할 수 있기 때문에 한 변화가 다른 변수를 야기한다고 추정하는 것은 위험하다.대표적인 예가 여름철 아이스크림 소비 증가와 범죄 증가 사이의 상관관계이다.아이스크림을 더 많이 먹으면 사람들이 더 많은 범죄를 저지르게 된다고 가정하는 것은 비이성적이다; 예를 들어 따뜻한 날씨와 같은 하나 이상의 추가적인 변수가 아이스크림 소비와 범죄를 동시에 증가시킬 가능성이 더 높다.이 예에서는 따뜻한 날씨가 교란 요인입니다.
conjugate prior
continuous variable
convenience sampling
correlation

상관 계수도 있습니다.

두 랜덤 변수 사이의 선형 관계의 강도에 대한 숫자 측도입니다(예: 모집단에서 신발 크기와 키가 어떻게 상관되어 있는지를 정량화하는 데 사용할 수 있음).를 들어 Pearson 곱-모멘트 상관 계수는 두 변수의 공분산표준 편차의 곱으로 나눈 값입니다.독립 변수는 정의상 상관 관계가 0입니다.모집단 상관관계는 기호 샘플 상관관계 rr./ref>로 표시됩니다.
count data
카운팅에서 발생하는 데이터로 음수가 아닌 정수 값만 사용할 수 있습니다.
covariance
2개의 랜덤 변수 X Y에 E( {E(X) = \} Y) { (Y) = \nu}일 경우 랜덤 변수- 의 예상값(-) ( Y - ( \) ) 。 공분산은 상관 관계를 측정하는 데 사용됩니다. 두 변수가 동시에 변화하는 정도 또는 "공변수"로 해석할 수 있습니다.

D

data
data analysis
data set
샘플 및 관련 데이터 포인트.
data point
입력된 측정 - 부울 , 실수, 벡터(이 경우 데이터 벡터라고도 함) 등이 될 수 있습니다.
decision rule
decision theory
degrees of freedom
density estimation
dependence
dependent variable
descriptive statistics
design of experiments
deviation
discrete variable
dot plot
double counting

E

elementary event
표본 공간에서 하나의 결과만 포함하는 사건. 일련의 가능성에서 정확히 한 가지 방법으로 발생할 수 있는 가능성.예를 들어, 표준 카드 덱에서 카드를 꺼낼 때, '스페이드 잭 당기기'는 기본적인 이벤트(전체 덱에 스페이드 잭이 1개밖에 없기 때문)인 반면, '킹 또는 에이스 당기기'는 그렇지 않다(합산된 4개의 킹과 4개의 에이스가 있기 때문).
estimation theory
랜덤 성분을 사용하여 측정된 경험적 데이터를 기반으로 모수 값을 추정하는 것과 관련된 통계 분야입니다.매개 변수는 값이 측정된 데이터의 분포에 영향을 미치도록 기본 물리적 설정을 설명합니다. 추정기는 측정값을 사용하여 알 수 없는 매개 변수를 근사하려고 시도합니다.
estimator
수 없는 모수를 추정하는 데 사용되는 알려진 데이터의 함수. 추정치는 특정 데이터 집합에 함수를 실제로 적용한 결과입니다.예를 들어, 평균을 추정기로 사용할 수 있습니다.
expected value

기대, 수학적 기대, 첫 순간 또는 단순히 평균 또는 평균.

실험 결과의 확률에 해당하는 보상 또는 "값"을 곱한 값입니다.따라서, 같은 확률의 베팅이 여러 번 반복될 경우, 한 사람이 베팅당 "기대"하는 평균적인 금액을 나타냅니다.예를 들어, 공정한 6면 다이의 압연 기대값은 3.5입니다.이 개념은 직관적으로 특정 절차 또는 실험의 모든 가능한 결과의 가중 평균을 일반화하며, 실험의 많은 독립적 실현의 산술 평균으로 볼 수 있다.랜덤 변수 X의 예상 값은 일반적으로 예상 연산자의 경우 E(X)로, 파라미터의 경우μ \mu)로 표시됩니다.
experiment
무한히 반복할 수 있고 명확한 결과 집합을 가진 절차입니다.
exponential family
event
확률을 할당할 수 있는 절차 또는 실험 표본 공간의 부분 집합(예: 가능한 결과).예를 들어, 주사위를 굴릴 때, "3점 받기"는 이벤트입니다.주사위가 공정한 경우 16(확률 13)과 같이 "5 또는 6"을 얻습니다.

F

factor analysis
factorial experiment
frequency
frequency distribution
frequency domain
frequentist inference

G

general linear model
generalized linear model
grouped data

H

histogram
수치 데이터의 분포에 대한 대략적인 그래픽 표현입니다.히스토그램은 값의 전체 범위를 겹치지 않는 일련의 연속된 간격으로 나눈 다음 각 간격에 포함되는 데이터 집합의 인스턴스 수를 카운트하여 이 분포를 표시합니다.
식당에서 제공되는 팁의 분포를 보여주는 히스토그램

I

independence
independent variable
interquartile range (IQR)

미드 스프레드, 미들 50% 그리고 H 스프레드.

데이터의 25번째 백분위수와 75번째 백분위수 사이의 차이로 정의되는 데이터 세트의 통계적 분산 또는 확산의 척도입니다.그 IQR를 계산할 때 데이터 세트가 4rank-ordered 등분 또는 사분위 수, 간에, 25일 50번째 및 75th 백분위에서, 각각 Q{Q\displaystyle}1, Q{Q\displaystyle}2와 Q{Q\displaystyle}3, 지적되어 있습니다. 경계에 폭발했고, IQR)Q3−{\displaystyle-}{Q\displaystyle} 나뉜다. 1

J

joint distribution
두 랜덤 변수 X와 Y가 주어지면 X와 Y의 결합 분포는 X와 Y가 함께 있는 확률 분포입니다.
joint probability
사건이 동시에 발생할 확률입니다.A와 B의 결합 확률은 PB P B B P B로 표기됩니다.

K

Kalman filter
kernel
kernel density estimation
kurtosis
실수 값 랜덤 변수의 확률 분포의 "꼬리 정도"에 대한 측도입니다.첨도를 수량화, 추정 및 해석하는 방법에는 여러 가지가 있지만, 공통적인 해석은 첨도가 분포의 모양이 빈번하지 않은 극단적 관측치(외측값)에 의해 영향을 받는 정도를 나타낸다는 것이다. 이 경우, 첨도가 높을수록 분산이 빈번하지 않은 극단적 편차에 의해 더 많이 발생한다는 것이다.적당한 크기의 편차가 빈번하게 발생한다.

L

L-moment
law of large numbers (LLN)
같은 실험을 여러 번 실시하여 얻은 결과의 평균이 실험의 기대치에 가까워야 하며, 시행 횟수가 많을수록 기대치에 가까워지는 경향이 있는 정리.이 법칙은 실험 결과를 신뢰할 수 있는 것으로 간주하기 위해 충분한 수의 시행이 필요하며, 더 나아가 소수의 시행만 수행하면 실험 결과에 대한 불완전하거나 잘못된 해석을 낳을 수 있음을 시사합니다.
대수법칙을 나타내는 그래프: 공정 다이스(녹색 선)를 반복적으로 굴리는 관찰 결과는 다이스 굴림 횟수가 증가함에 따라 단일 롤(파란색 선)의 이론적 기대치에 빠르게 근접합니다.
likelihood function
조건부 확률 함수는 첫 번째 인수가 고정된 상태에서 두 번째 인수의 함수로 간주됩니다.예를 들어, 숫자 k가 붙은 볼을 n개의 볼 주머니에서 1부터 n까지 당긴다고 가정합니다. 랜덤 변수 N에 대한 우도 함수는 n개의 k보다 크거나 같을 때 k를 당길 확률로 설명 있습니다. n의 우도 함수는 k를 당길 확률로 설명할 수 있습니다.확률 분포 함수와 달리 이 우도 함수는 표본 공간에서 최대 1을 합하지 않습니다.
loss function
likelihood-ratio test

M

M-estimator
marginal distribution
랜덤 변수 X와 Y가 함께 분포되어 있을 때 X의 한계 분포는 Y에 대한 정보가 무시될 때 X의 확률 분포입니다.
marginal likelihood
marginal probability
다른 이벤트에 대한 모든 정보를 무시하고 지정된 이벤트가 발생할 확률입니다.A의 한계 확률은 P(A)라고 쓴다.조건부 확률을 대비시킵니다.
Markov chain Monte Carlo
mathematical statistics
maximum likelihood estimation
mean
1. 랜덤 변수의 기대치.
(2) 값의 합을 값의 수로 나누어 계산한 산술 평균, 즉 일련의 수치들의 수학적 평균
median
median absolute deviation
mode
moving average

이동 평균과 롤링 평균도 있습니다.

일반적으로 시간에 따른 데이터 집합의 추세를 이해하기 위해 계산되는 더 큰 데이터 집합의 서로 다른 하위 집합의 일련의 수학 평균 또는 평균입니다.
multimodal distribution
multivariate analysis
multivariate kernel density estimation
multivariate random variable
성분이 동일한 확률 공간에서 랜덤 변수인 벡터입니다.
mutual exclusivity
mutual independence
집합의 어떤 부분 집합에서 발생하는 모든 사건의 공동 확률이 개별 사건의 공동 확률의 곱과 같을 경우, 사건의 집합은 상호 독립적이라고 한다.일련의 동전 던지기 결과를 생각해 보세요.이것은 쌍방향 독립성보다 더 강한 조건입니다.

N

nonparametric regression
nonparametric statistics
non-sampling error
normal distribution
normal probability plot
null hypothesis (H0)
통계적 유의성 테스트에서 테스트되는 진술로, 일반적으로 '효과 없음' 또는 '차이 없음'[3]의 진술이다.예를 들어 빛이 수면에 영향을 미치는지의 테스트에서 귀무 가설은 빛이 수면에 영향을 미치지 않는다는 것이다(즉, 수면 패턴은 조명 조건에 관계없이 동일).귀무 가설은 독립 변수가 수정될 때 종속 변수가 유의하게 변하지 않을 것이라는 예상의 표현입니다. 통계적 유의성은 이 예상이 충족되는 정도에 따라 측정되고 보고됩니다.대립 가설과 대조됩니다.

O

opinion poll
optimal decision
optimal design
outlier

P

p-value
pairwise independence
랜덤 변수 집합으로, 두 변수 모두 독립적입니다.
parameter
모집단의 한 측면을 요약하거나 설명하는 통계 모집단의 측정된 수량(예: 평균 또는 표준 편차). 종종 모집단에서 무작위로 표본을 추출하여 계산한 해당 수량에 기초하여 추정해야 합니다.모집단 모수, 분포 모수 또는 관측되지 않은 모수일 수 있습니다.
particle filter
percentile
pie chart
point estimation
power
prior probability
베이지안 추론에서는 새로운 데이터나 관측치를 고려하기 전에 이용할 수 있는 이전 신념이나 기타 정보가 고려된다.
population parameter
'파라미터'
posterior probability
이전의 신념 또는 정보(이전 확률)와 관측 데이터의 조합을 캡슐화하는 베이지안 분석의 결과입니다.
principal component analysis (PCA)
probability
probability density
연속 확률 분포에서의 확률입니다.예를 들어 키가 6피트일 확률은 20%라고는 할 수 없지만 키가 5피트에서 6피트 사이일 확률은 20%라고 할 수 있습니다.확률 밀도는 확률 밀도 함수에 의해 주어진다.대비 확률 질량.
probability density function
연속형 랜덤 변수에 대한 확률 분포입니다.
probability distribution
주어진 공간에 있는 모든 원소의 확률을 제공하는 함수입니다. 확률 분포 목록을 참조하십시오.
probability measure
확률 공간에서의 사건 확률입니다.
probability plot
probability space
확률 측도가 정의된 표본 공간입니다.

Q

quantile
확률 분포의 범위가 동일한 확률을 가진 연속 구간으로 분할되거나 표본의 관측치가 동일한 방식으로 분할되는 특정 점 또는 값입니다.범위가 분할된 그룹의 수는 항상 그룹을 분할하는 백분위수보다 1개 큽니다.일반적으로 사용되는 분위수에는 사분위수(4개의 그룹으로 구분), 십분위수(10개의 그룹) 및 백분위수(100개의 그룹)가 포함됩니다.그룹 자체는 halfs, third, quarters 등으로 불리지만, 경우에 따라서는 분위수를 절단점이 아닌 그룹으로 지칭할 때도 있습니다.
quartile
데이터 점의 범위를 같은 크기의 4개의 그룹(분기라고 함)으로 나누는 일종의 분위수입니다.사분위수 분할 데이터 집합의 경우 4개의 그룹을 만드는 사분위수 또는 절단점이 정확히 3개 있습니다.첫 번째 사분위수( Q1는 데이터의 25%가 이 사분위수 아래에 위치하도록 데이터 세트의 가장 작은 값(최소값)과 중앙값 사이의 중간 데이터 포인트 또는 값으로 정의됩니다.두 번째 사분위수( Q2는 중위수이며 데이터의 50%가 이 지점보다 낮습니다.세 번째 사분위수 Q3는 데이터 집합의 중앙값과 최대값(최대값) 사이의 중간값으로 정의되므로 데이터의 75%가 이 사분위수 아래에 있습니다.데이터를 계산하려면 데이터가 가장 작은 것부터 가장 큰 것 순으로 정렬되어야 하므로 사분위수는 순서 통계량의 한 유형입니다.
사분위수로 나눈 정규 분포입니다.각 분기는 곡선 아래의 동일한 총 면적을 차지하므로 분포의 25%에 해당합니다.
quota sampling

R

random variable
확률 공간에서 측정할 수 있는 함수이며, 종종 실제 값입니다.랜덤 변수의 분포 함수는 변수의 다른 값에 대한 확률을 제공합니다.랜덤 변수의 평균과 분산도 도출할 수 있습니다.자세한 내용은 이산 랜덤 변수 및 연속형 랜덤 변수를 참조하십시오.
randomized block design
range
모든 데이터를 포함하는 가장 작은 간격의 길이입니다.
recursive Bayesian estimation
regression analysis
repeated measures design
response variable
실험 치료 또는 하나 이상의 다른 변수의 변화에 의해 영향을 받는 값 또는 영향을 받을 것으로 예상되는 변수. 예를 들어, 특정 식단을 6개월 동안 수행한 후 콜레스테롤 수치.반응 변수는 연구 중인 일부 현상을 변경하거나 반응하는 변수입니다.이 용어는 종종 [1]종속 변수와 상호 호환되게 사용됩니다.
restricted randomization
robust statistics
round-off error

S

sample
실제로 관찰되는 개체군의 그 부분.
sample covariance
sample mean
모집단에서 추출한 값 샘플산술 평균(으로 x { { ) 。예를 들어 학급 학생 10명의 서브셋의 평균 테스트 점수입니다.표본 평균은 모집단 평균의 추정치로 사용되며, 이 예제에서는 학급 내 모든 학생의 평균 검정 점수가 됩니다.
sample space
실험의 가능한 결과 집합입니다.예를 들어, 6면 다이를 굴리기 위한 샘플 공간은 {1, 2, 3, 4, 5, 6}입니다.
sampling
모집단에 대한 지식을 얻기 위해 관측치를 선택하는 과정입니다.관측치를 수행할 표본을 선택하는 방법은 여러 가지가 있습니다.
sampling bias
sampling distribution
모집단의 반복 표본 추출에서 주어진 통계량의 확률 분포입니다.
sampling error
scatter plot
scale parameter
significance level
simple random sample
Simpson's paradox
skewness
평균에 대한 실제 값 랜덤 변수의 확률 분포의 비대칭성에 대한 측도입니다.대략적으로 말하면, 분포는 높은 꼬리가 길면 양의 스큐(오른쪽 스큐)를 가지며, 낮은 꼬리가 길면 음의 스큐(왼쪽 스큐)를 가집니다.완벽하게 대칭된 분포의 왜도는 항상 0이지만, 왜도가 0이라고 해서 반드시 대칭 분포가 되는 것은 아닙니다.
치우친 분포(좌우)의 평균과 중위수는 치우침이 0인 대칭 분포(중앙)의 평균과 크게 다를 수 있습니다.
spaghetti plot
spectrum bias
standard deviation
가장 일반적으로 사용되는 통계적 분산의 척도입니다.이는 분산제곱근이며 일반적으로 그리스 소문자 (시그마)로 표시됩니다.
standard error
standard score
statistic
데이터 세트에 통계 알고리즘을 적용한 결과입니다.관측 가능한 랜덤 변수로 설명할 수도 있습니다.
statistical dispersion
statistical graphics
statistical hypothesis testing
statistical independence
한 사건의 결과가 다른 사건의 결과에 영향을 미치지 않는 경우(예: 단일 다이 롤에서 1을 얻는 것은 두 번째 롤에서 1을 얻는 확률에 영향을 미치지 않음) 두 사건은 독립적입니다.마찬가지로, 우리가 두 개의 랜덤 변수가 독립적이라고 주장할 때, 우리는 직관적으로 그들 중 하나의 값에 대해 아는 것이 다른 하나의 값에 대한 정보를 산출하지 않는다는 것을 의미한다.
statistical inference
해당 모집단에서 추출한 랜덤 샘플에 기초한 모집단에 대한 추론 또는 보다 일반적으로 유한 기간 동안의 관찰된 행동에서 랜덤 프로세스에 대한 추론.
statistical model
statistical population
통계적 추론이 도출되는 엔티티 세트. 종종 랜덤 표본 추출에 기초합니다.또한 측정값 또는 값의 모집단에 대해서도 말할 수 있습니다.
statistical dispersion
통계적 변동성은 일부 데이터가 얼마나 다양한지를 나타내는 척도입니다.분산 또는 표준 편차로 나타낼 수 있습니다.
statistical parameter
확률 분포 패밀리를 색인화하는 모수입니다.
statistical significance
statistics
Student's t-test
stem-and-leaf display
stratified sampling
survey methodology
survival function
survivorship bias
symmetric probability distribution
systematic sampling

T

test statistic
time domain
time series
time series analysis
time series forecasting
treatments
통계 연구에서 개념적으로 조작 가능한 변수입니다.예를 들어, 건강 연구에서, 특정 식단을 따르는 것은 치료법이지만, 나이는 그렇지 않다.[1]
trial
일정한 수의 반복으로 구성된 실험에 대해 이야기할 때 각각의 개별 반복을 참조할 수 있습니다.예를 들어, 동전 던지기 1에서 n까지의 숫자(예: 17)로 실험을 생각할 수 있습니다.이 경우 전체 실험이 17개로 구성되어 있으므로 혼란을 피하기 위해 한 번의 토스를 시행이라고 할 수 있습니다.
trimmed estimator
type I and type II errors

U

unimodal probability distribution
units
통계 스터디에서 처리가 할당되는 개체입니다.예를 들어, 흡연의 효과를 조사하는 연구에서 단위는 사람이 [1]될 것이다.

V

variance
랜덤 변수의 통계적 분산에 대한 측도로, 값이 일반적으로 예상 값에서 얼마나 떨어져 있는지를 나타냅니다.랜덤 변수 X의 분산은 var( X {}( \_ { 또는 ^{로 지정됩니다.

W

weighted arithmetic mean
weighted median

X

XOR, exclusive disjunction

Y

Yates's correction for continuity

Z

z-test

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c d e Reiter, Jerome (January 24, 2000). "Using Statistics to Determine Causal Relationships". American Mathematical Monthly. 107 (1): 24–32. doi:10.2307/2589374. JSTOR 2589374.
  2. ^ a b 파브 칼리노스키.신뢰 구간(CI) 및 효과 크기 추정 이해.심리학 관찰자 협회 2010년 4월 10일http://www.psychologicalscience.org/index.php/publications/observer/2010/april-10/understanding-confidence-intervals-cis-and-effect-size-estimation.html
  3. ^ Moore, David; McCabe, George (2003). Introduction to the Practice of Statistics (4 ed.). New York: W.H. Freeman and Co. p. 438. ISBN 9780716796572.

외부 링크