부트스트랩(통계정보)

부트스트랩은 랜덤샘플링을 치환과 함께 사용하는 테스트 또는 메트릭(샘플링 프로세스 모방 등)으로 광범위한 재샘플링 방법에 속합니다.부트스트래핑은 표본 ^[1]^[2]추정치에 정확도 측도(바이어스, 분산, 신뢰 구간, 예측 오차 등)를 할당합니다.이 기술을 사용하면 랜덤 표본 ^[3]^[4]추출 방법을 사용하여 거의 모든 통계량의 표본 분포를 추정할 수 있습니다.

부트스트래핑은 근사 분포에서 표본을 추출할 때 이러한 속성을 측정하여 추정기의 속성(분산 등)을 추정합니다.근사 분포에 대한 한 가지 표준 선택은 관측된 데이터의 경험적 분포 함수입니다.관측치 집합이 독립적이고 동일한 분포 모집단에서 왔다고 가정할 수 있는 경우, 관측된 데이터 집합(및 관측된 데이터 집합과 동일한 크기)의 치환으로 다수의 재샘플을 구성함으로써 이를 구현할 수 있다.

가설 검정 구성에도 사용할 수 있습니다.이는 파라메트릭 모델의 가정이 불확실하거나 파라메트릭 추론이 불가능하거나 표준 오차 계산에 복잡한 공식이 필요할 때 파라메트릭 모델의 가정에 기초한 통계 추론의 대안으로 종종 사용된다.

역사

부트스트랩은 브래들리 에프론에 의해 ^[8]^[9]^[10]"부트스트랩 방법: 잭나이프에 대한 또 다른 시선"(1979)^[5]^[6]^[7]에서 출판되었다.나중에 ^[11]^[12]개선된 분산 추정치가 개발되었습니다.베이지안 확장은 ^[13]1981년에 개발되었습니다.바이어스 보정 및 가속(BCA) 부트스트랩은 1987년에 ^[14]Efron에 의해 개발되었으며 ^[15]1992년에 ABC 프로시저가 개발되었습니다.

접근

부트스트래핑의 기본 개념은 표본 데이터(샘플 → 모집단)에서 모집단에 대한 추론은 표본 데이터를 다시 샘플링하고 다시 샘플링된 데이터(재샘플 → 표본)에서 표본에 대한 추론을 수행하여 모델링할 수 있다는 것이다.모집단을 알 수 없기 때문에 모집단 값에 대한 표본 통계량의 실제 오차는 알 수 없습니다.부트스트랩 재샘플에서 '인구'는 사실상 표본이며, 이는 알려져 있다. 따라서 재샘플링된 데이터(재샘플링 → 표본)에서 '참' 표본의 추론 품질을 측정할 수 있다.

보다 형식적으로 부트스트랩은 원래 데이터가 주어졌을 때 실제 확률분포 J의 추론을 재샘플링된 데이터가 주어졌을 때 경험분포 δ의 추론과 유사한 것으로 처리함으로써 작동한다.우리는 pled를 알고 있기 때문에 재샘플링된 데이터를 사용하여 ĵ에 대한 추론의 정확성을 평가할 수 있다.만약 δ가 J에 대한 합리적인 근사치라면, J에 대한 추론의 품질은 유추될 수 있다.

예를 들어, 우리가 전 세계 사람들의 평균(또는 평균) 키에 관심이 있다고 가정해 봅시다.전 세계 인구를 모두 측정할 수는 없습니다.대신 극히 일부만 표본을 추출하여 측정합니다.표본의 크기가 N이라고 가정합니다. 즉, N개 개인의 키를 측정합니다.이 단일 표본에서 평균의 추정치를 하나만 얻을 수 있습니다.모집단에 대해 추론하려면 계산한 평균의 변동성에 대한 감각이 필요합니다.가장 간단한 부트스트랩 방법은 높이의 원래 데이터 세트를 가져다가 컴퓨터를 사용하여 샘플링하여 크기 N의 새로운 샘플('리샘플' 또는 부트스트랩 샘플이라고 함)을 형성하는 것입니다.부트스트랩 샘플은 원래 샘플에서 추출됩니다(예를 들어 [1,2,3,4,5]에서 5번 '재샘플링'하여 [2,5,4,1]을 얻을 수 있습니다). 따라서 N이 충분히 크다고 가정할 때, 실제 모든 목적에서 원래의 "실제" 샘플과 동일할 확률은 사실상 없습니다.이 프로세스는 많은 횟수(일반적으로 1,000회 또는 10,000회) 반복되며, 이러한 부트스트랩 샘플 각각에 대해 평균을 계산합니다(이것을 부트스트랩 추정치라고 부릅니다).이제 부트스트랩 평균 히스토그램을 만들 수 있습니다.이 히스토그램은 표본 평균 분포의 모양에 대한 추정치를 제공하며, 이 분포에서 평균이 표본에 따라 얼마나 달라지는지에 대한 질문에 답할 수 있습니다.(평균에 대해 설명된 이 방법은 거의 모든 다른 통계량 또는 추정치에 적용할 수 있습니다.)

논의

이점

부트스트랩의 큰 장점은 심플하다는 것입니다.백분위수 점, 비율, 승산비 및 상관 계수와 같은 분포의 복잡한 추정치에 대한 표준 오차 및 신뢰 구간의 추정치를 도출하는 간단한 방법입니다.그러나 단순함에도 불구하고 부트스트래핑은 복잡한 샘플링 설계에 적용할 수 있다(예: 계층당 n개의 관측치를 가진_s s 계층으로 분할된 모집단의 경우 각 ^[16]계층에 부트스트래핑을 적용할 수 있다).또한 부트스트랩은 결과의 안정성을 제어하고 확인하는 적절한 방법입니다.대부분의 문제에서 진정한 신뢰 구간을 알 수 없지만 부트스트랩은 샘플 분산 및 ^[17]정규성 가정을 사용하여 얻은 표준 간격보다 점근적으로 더 정확합니다.또한 부트스트랩은 다른 샘플 데이터 그룹을 얻기 위해 실험을 반복하는 비용을 피할 수 있는 편리한 방법입니다.

단점들

부트스트래핑은 사용되는 추정치에 크게 의존하며, 단순하지만 부트스트래핑을 무지하게 사용한다고 해서 항상 점근적으로 유효한 결과가 나오는 것은 아니며 ^[18]불일치가 발생할 수 있습니다.부트스트래핑은 (상황에 따라) 점근적으로 일관되지만 일반적인 유한 샘플 보증을 제공하지 않습니다.결과는 대표 표본에 따라 달라질 수 있습니다.명백한 단순성에는 부트스트랩 분석(샘플의 독립성 또는 샘플 크기의 충분한 크기)을 수행할 때 중요한 가정이 이루어지고 있다는 사실이 숨겨져 있을 수 있다.또한 부트스트래핑은 시간이 많이 걸리고 기존 통계 컴퓨터 ^[16]패키지를 사용하여 자동화하는 것이 어려웠기 때문에 부트스트래핑에 사용할 수 있는 소프트웨어가 많지 않습니다.

부트스트랩 방식의 유형

일변량 문제에서는 일반적으로 서브샘플링과 달리 개별 관측치를 치환("소문자 재샘플링")으로 재샘플링하는 것이 허용됩니다. 서브샘플링은 치환 없이 부트스트랩에 비해 훨씬 약한 조건에서 유효합니다.소규모 샘플에서는 파라미터 부트스트랩접근법이 선호될 수 있습니다.그 외의 문제에서는 부드러운 부트스트랩이 바람직할 수 있습니다.

회귀 문제에 대해서는 다른 다양한 대안을 사용할 ^[1]수 있습니다.

케이스 리샘플링

부트스트랩은 일반적으로 정규 이론(예: z-statistic, t-statistic)을 사용하지 않고 통계량의 분포(예: 평균, 분산)를 추정하는 데 유용합니다.부트스트랩 방법은 대부분의 랜덤 수량(예: 분산 및 평균 비율)에 적용할 수 있으므로 관심 통계의 분포를 추정하는 데 도움이 되는 분석 형식이나 정규 이론이 없을 때 부트스트랩이 유용합니다.사례 재샘플링을 수행하는 방법은 적어도 두 가지가 있습니다.

사례 재샘플링을 위한 몬테카를로 알고리즘은 매우 간단합니다.먼저 데이터를 치환하여 재샘플링합니다.재샘플링의 크기는 원래 데이터 세트의 크기와 같아야 합니다.그런 다음 첫 번째 단계의 재표본에서 관심 통계량을 계산합니다.통계의 부트스트랩 분포를 보다 정확하게 ^[1]추정하기 위해 이 루틴을 여러 번 반복합니다.
대소문자 재샘플링을 위한 '정확한' 버전은 유사하지만 데이터 세트의 가능한 모든 재샘플링을 열거합니다.합계 ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ( ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ n - ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ) $=$ ( ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ - ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ 1 ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ( ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ - ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ ( n - 1 $)!\$ $displaystyle$ {\ $binom$ { $2n-1}{n$ }= $flac$ {( $2n-1)!$ 이 있으므로 계산 비용이 많이 들 수 있습니다. $}{n!(n-1)!$ $}}}$ 개의 ${\binom {2n-1}{n}}={\frac {(2n-1)!}{n!(n-1)!}}$ 서로 다른 샘플입니다. 여기서 n은 데이터 세트의 크기입니다.따라서 n = 5, 10, 20, 30의 경우 각각 ^[23]126, 92378, 6.89 × 10¹⁰ 및 5.91 × 10의¹⁶ 다른 재샘플이 있다.

표본 평균 분포 추정

동전 던지기 실험을 생각해 보세요.동전을 뒤집어서 앞면이 닿는지 뒷면이 닿는지 기록합니다.X = x₁, x₂, …, x를₁₀ 10개의 실험 관측치라고 합니다.x_i = i번째 플립이 헤드를 착지하면 1, 그렇지 않으면 0입니다.정규 이론에서 t-통계량을 사용하여 표본 평균의 분포를 추정할 수 있습니다.

({displaystyle {x}}=parfrac {1}{10})(x_{1}+x_{2}+\cdots +x_{10}).}

$대신$ 부트스트랩, 특히 대소문자 재샘플링을 사용하여 x의 분포를 ${\bar {x}}$ 합니다 ${\bar {x}}$ 먼저 $데이터$ 를 재샘플링하여 부트스트랩 재샘플링을 얻습니다.첫 번째 재샘플의 예는 X₁* = x₂, x₁, x₁₀₁₀, x₃, x₄, x, x₆, x, x₇, x₁₉, x와 같습니다. 부트스트랩 재샘플은 데이터로부터의 치환에 의한 샘플링에서 나오기 때문에 몇 가지 중복이 있습니다.또한 부트스트랩 재샘플의 데이터 포인트 수는 원래 관측치의 데이터 포인트 수와 동일합니다.그런 다음 이 재샘플의 평균을 계산하여 첫 번째 부트스트랩 평균인₁ μ*를 구합니다.이 과정을 반복하여 두 번째 리샘플₂ X*를 얻고 두 번째 부트스트랩 평균₂ μ*을 계산합니다.이를 100회 반복하면 μ₂*, μ*, ..., μ₁₀₀*. 이는₁ 샘플 평균의 경험적 부트스트랩 분포를 나타냅니다.이 경험적 분포로부터 가설 테스트를 위해 부트스트랩 신뢰 구간을 도출할 수 있다.

회귀

회귀 문제에서 사례 재샘플링은 개별 사례를 재샘플링하는 단순한 체계(대부분 데이터 세트의 행)를 말합니다.회귀 문제의 경우 데이터 집합이 상당히 큰 경우 이 간단한 방법을 사용할 ^[24]^[25]^[26]수 있는 경우가 많습니다.그러나 이 방법은 ^[16]비판의^{[citation needed]} 여지가 있다.

회귀 분석 문제에서 설명 변수는 종종 고정되거나 최소한 반응 변수보다 더 많은 제어력을 사용하여 관측됩니다.또한 설명 변수의 범위는 변수에서 사용할 수 있는 정보를 정의합니다.따라서 케이스를 재샘플링하는 것은 각 부트스트랩샘플이 일부 정보를 잃는 것을 의미합니다.따라서 대체 부트스트랩 절차를 고려해야 합니다.

베이지안 부트스트랩

부트스트래핑은 초기 데이터의 가중치를 다시 부여하여 새로운 데이터 세트를 생성하는 방식을 사용하여 베이지안 프레임워크에서 해석할 수 있습니다.N개의 $데이터$ 포인트 세트가 있는 경우, ${\mathcal {D}}^{J}$ ${\mathcal {D}}^{J}$ 세트 D ${\mathcal {D}}^{J}$ $i$ 의 $데이터$ 포인트 $i$ i에 $할당$ 된 가중치는 $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ $=$ ${\mathcal {D}}^{J}$ $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ i $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ - $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ i - $w_{i}^{J}=x_{i}^{J}-x_{i-1}^{J}$ J - 1 J { display $style$ ${\mathcal {D}}^{J}$ $w_{i$ }^{ $i}^{$ $j-i}^{$ $i$ }^{i $}^$ $}$ 입니다 ${\mathcal {D}}^{J}$ .J $}}$ 은 $\mathbf {x} ^{J}$ $N-1$ 는) 0 $[0,1]$ $1$ 에서 $[0,1]$ N - $N-1$ (표시 $스타일$ N-1 $N-1$ $)$ 로 균등하게 분포된 난수 $N-1$ 으로, 앞에 $0$ 이 있고 뒤에 1이 나옵니다.그러한 데이터 세트 ${\mathcal {D}}^{J}$ $(\$ 를 ${\mathcal {D}}^{J}$ 고려하여 추론된 모수의 분포는 해당 ^[27]모수에 대한 사후 분포로 해석할 수 있다.

부드러운 부트스트랩

이 체계에서 소량의 (일반적으로 정규 분포) 0 중심 랜덤 노이즈가 각 재샘플링된 관측치에 추가된다.이는 데이터의 커널 밀도 추정치에서 샘플링하는 것과 동일합니다.K를 단위 분산을 갖는 대칭 커널 밀도 함수라고 가정합니다.f $f(x)$ ( x $f(x)$ )의 표준 커널 ${\hat {f\,}}_{h}(x)$ ${\hat {f\,}}_{h}(x)$ ( x $){$ $displaystyle$ {f , $}_{h}($ $x)}$ 는 ${\hat {f\,}}_{h}(x)$ 다음과 같습니다 $f(x)$ .

{\displaystyle{\hat{f\,}}_ᆫ())={1\over nh}\sum _ᆭ^ᆮK\left({x-X_{나는}\over h}\right),}.

^[28]

어디 h{h\displaystyle}은 개입 변수이다.그리고 해당 분포 함수 추정자 F^ h({\displaystyle{\hat{F\,}}_ᆫ())}이다.

{\displaystyle{\hat{F\,}}_ᆫ())=\int _{-\infty}^{)}{\hat{f}}_ᆯ(t)\,dt.}.

^[28]

파라미터 부트스트랩

가정이 이번 사건에 한 매개 변수 모델 매개 변수 θ에 의해, 최대 가능성에 의해 흔히와 난수의 샘플이 본 장착 모델로부터 얻는다 장착된 특정 매개 변수 형식의 유통에서 무작위로 표본의 원본 데이터 설정된 인식을 토대로.보통 샘플 drawn 원본 데이터와 같은 표본 크기고 있다.그리고 원래 기능 F의 측정치가 F^)Fθ ^{\displaystyle{\hat{F}}=F_{\hat{\theta}}로}. 쓸 수 있는 추출 법 다른 부트 스트랩 방식으로 여러번 반복한다.이 사건에서 솟구치샘플 평균을 고려할 때, 무작위로 원래 분포 함수 F({\displaystyle F_{\theta}}함수 Fθ ^{\displaystyle F_{\hat{\theta}과 부트 스트랩 무작위 표본에 의해}}이 바뀌고 Xn의 확률 분포−μ θ{\displaystyle{\bar{X_ ¯.어디μ ∗)μθ ^{\displaystyle\mu ^{*}=\mu _{\hat{\theta}{n}}}-\mu}_{\theta}그 X¯ n∗의},}}이 기대 F에 해당하는 θ ^{\displaystyle F_{\hat{\theta}}}.[29]−μ ∗{\displaystyle{\bar{X}}_{n}^{*}-\mu ^{*}는다.는 파라메트릭 모델의 초기 적재 방법론의 샘플링 단계에서 그 사용하는 것은 그 추론에 같은 모델에 대해 기본적인 통계 이론을 적용하는 통해 획득한 다르다 절차로 이어진다.

잔차 재샘플링

회귀 문제에서 부트스트래핑에 대한 또 다른 접근법은 잔차를 다시 표본화하는 것입니다.방법은 다음과 같이 진행됩니다.

모델을 적합시키고 ${\widehat {y\,}}_{i}$ y ${\widehat {y\,}}_{i}$ ^ ${\widehat {y\,}}_{i}$ {\ $displaystyle$ { $y,}_$ } 및 ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ - ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ^ ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ , ( ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ $=$ , ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ , n ${\widehat {\varepsilon \,}}_{i}=y_{i}-{\widehat {y\,}}_{i},(i=1,\dots ,n)$ ) { $displaystyle$ { $varepsilon$ } , ... , {i $}$ = $y_{i}-{\wide$ hat { $y}$ {i} {n},n},n $}을(으)$ 로 유지합니다.
각 쌍의 경우에 자이는(아마 multivariate)설명 변수(자이, yi),,,ε ^ j{\displaystyle{\widehat{\varepsilon),}}_{j}}, 장착된 값에 y 나는{\displaystyle{\widehat{y\,}}_{나는}}. ^ 즉, i.하는 스페인의 합성 반응 변수를 만들무작위로 기능 잔류 추가 ∗ $=$ $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$ $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$ $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$ + $^$ $j$ {\ $display y_$ {i}^{*}= $widehat {y,}+{\widehat$ {\ $varepsilon {\}}_$ {j $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$ }. 여기서 j는 모든 i에 대해 목록(1, ..., n)에서 무작위로 선택됩니다 $y_{i}^{*}={\widehat {y\,}}_{i}+{\widehat {\varepsilon \,}}_{j}$
가상 응답 $y_{i}^{*}$ $yi {\$ { $displaystyle$ y _ { i ${\widehat {\mu }}_{i}^{*}$ $y_{i}^{*}$ 를 사용하여 모델을 다시 장착하고 관심 수량을 유지합니다( $종종 파라미터$ 는 $y_{i}^{*}$ ${\widehat {\mu }}_{i}^{*}$ $y_{i}^{*}$ ${\$ { $displaystyle$ $y$ $_$ { $i$ $}$ { $i$ } ${\widehat {\mu }}_{i}^{*}$ ） ${\widehat {\mu }}_{i}^{*}$ $y_{i}^{*}$ ${\widehat {\mu }}_{i}^{*}$
순서 2와 3을 여러 번 반복합니다.

이 스킴은 설명 변수의 정보를 유지할 수 있다는 장점이 있습니다.그러나 어떤 잔차를 다시 표본으로 추출할지에 대한 문제가 발생합니다.원시 잔차는 한 가지 옵션이고, 다른 옵션은 학생화 잔차(선형 회귀 분석)입니다.학생화된 잔차를 사용하는 것에 찬성하는 주장도 있지만, 실제로는 거의 차이가 없으며 두 방법의 결과를 비교하는 것이 쉽습니다.

가우스 프로세스 회귀 부트스트랩

데이터가 시간적으로 관련지어져 있는 경우, 직접적인 부트스트래핑은 고유의 상관관계를 파괴합니다.이 방법은 가우스 프로세스 회귀(GPR)를 사용하여 복제를 추출할 수 있는 확률론적 모델을 적합시킵니다.GPR은 베이지안 비선형 회귀법이다.가우스 프로세스(GP)는 임의의 유한 개수의 랜덤 변수의 집합으로, 공동 가우스(정규) 분포를 가집니다.GP는 평균 함수와 공분산 함수에 의해 정의되며, 이 함수는 랜덤 ^[30]변수의 각 유한 집합의 평균 벡터 및 공분산 행렬을 지정합니다.

회귀 모형:

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

(

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

)

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

(

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

x

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

) +

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

,

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

~

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

(

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

,

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

2

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

)

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

, \

display

y ( x )

= f

( x ) + \

varepsilon ,

\ varepsilon \ sim

\ sim \

mathcal

{

N

} (

0

, \

sigma

^ {

2

\varepsilon

} )

\varepsilon

}

y(x)=f(x)+\varepsilon ,\ \ \varepsilon \sim {\mathcal {N}}(0,\sigma ^{2}),

\varepsilon

term

\varepsilon

term term term term term term term 、 \

display

style

\

varepsilon

。

이전 가우스 프로세스:

변수, x1,..., xn의 어떤 한정된 수집을 위한 함수 f()n){\displaystyle f(x_{1}),\ldots ,f(x_{n})}이 공동으로 다변량 가우스에 따르면 평균 m와 함께 분산되는 것이다.}과 사 f(x1),…,[m(x1컵, …, m(x의 nx]⊺{\displaystyle m=[m(x_{1}),\ldots ,m(x_{n})]^{\intercal}출력하잘 지내니리언스 매트릭스 $(K)_{ij}=k(x_{i},x_{j}).$ ) $(K)_{ij}=k(x_{i},x_{j}).$ j $(K)_{ij}=k(x_{i},x_{j}).$ ( x $(K)_{ij}=k(x_{i},x_{j}).$ , $(K)_{ij}=k(x_{i},x_{j}).$ ) $(K)_{ij}=k(x_{i},x_{j}).$ . { $displaystyle ( K$ ) $_$ { $ij$ } $= k$ ( $x$ _ { $i$ , x $_$ { $j$ } ) 。 $}$

$f(x)\sim {\mathcal {GP}}(m,k).$ ( $f(x)\sim {\mathcal {GP}}(m,k).$ $f(x)\sim {\mathcal {GP}}(m,k).$ $f(x)\sim {\mathcal {GP}}(m,k).$ P ( $f(x)\sim {\mathcal {GP}}(m,k).$ , $f(x)\sim {\mathcal {GP}}(m,k).$ ) $f(x)\sim {\mathcal {GP}}(m,k).$ . { $displaystyle$ f ( $x$ )\ $sim {GP}$ ( m , $f(x)\sim {\mathcal {GP}}(m,k).$ ) 。} $y(x)\sim {\mathcal {GP}}(m,l)$ ( $y(x)\sim {\mathcal {GP}}(m,l)$ )~ $y(x)\sim {\mathcal {GP}}(m,l)$ P $y(x)\sim {\mathcal {GP}}(m,l)$ ( $m$ , l $){$ $displaystyle y$ ( $x )\sim$ { $mathcal$ {GP} ( $m$ , $y(x)\sim {\mathcal {GP}}(m,l)$ l $y(x)\sim {\mathcal {GP}}(m,l)$ ) } $y(x)\sim {\mathcal {GP}}(m,l)$

$여기$ 서 $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ l ( $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ i , x $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ ) $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ ( $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ i , $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ j $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ ) + $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ 2 $δδ$ （ $x$ i , $x$ j ) $=$ k ( $x$ _ { i , $x$ _ { j } )+ \ $scaps ^$ {2} \ $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ $scaps$ ( x $_$ { i , $\delta (x_{i},x_{j})$ $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ _ { $j$ } ) $l(x_{i},x_{j})=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j})$ 、、 $displaydisplaydisplaydisplaydisplaydisplay$ （ x $\delta (x_{i},x_{j})$ j $）$ 。

후방 가우스 프로세스:

아까 GP에 의하면

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

(

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

) ,

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

,

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

y (

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

r

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

)

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

(

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

,

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

0

){

displaystyle [ y

(

x

_ {

1

} ,

\ldots

,

y

( x { r ) } \

sim

{

mathcal

{

N

} （

m _

0 ,

K

_ 0

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

}

[y(x_{1}),\ldots ,y(x_{r})]\sim {\mathcal {N}}(m_{0},K_{0})

,

$m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ 서 m 0 $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ [ $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ ( $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ 1 $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ ) $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ ... $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ , m ( $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ r ) $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ ] $display$ { \ $display style$ m _ { $0$ $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ $}$ 、 m ( $x$ _ { $r$ } } 、 \ $ldots$ , m ( x _ { r } $m_{0}=[m(x_{1}),\ldots ,m(x_{r})]^{\intercal }$ } $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ 、、 $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ 、 K $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ ) $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ ( $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ i , $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ , $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ , $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ j ) $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ + $(K_{0})_{ij}=k(x_{i},x_{j})+\sigma ^{2}\delta (x_{i},x_{j}).$ 、 0 ) $display$ { $0 。$ $}$

x,...x가_s^* 또 다른 유한 변수 집합이라고 하자₁^*.

[y(x1컵, …, 그건()r), f(x1∗), …, f()s∗)]⊺번 국도 N((m0m∗)(K 0K∗ K∗ ⊺ K∗ ∗)){\displaystyle[y(x_{1}),\ldots ,y(x_{r}),f(x_{1}^{*}),\ldots ,f(x_{s}^{*})]^{\intercal}\sim{{N\mathcal}}({\binom{m_{0}}{m_{*}}}{\begin{pmatrix}K_{0}&.앰프.

K_{*}\K_{*}^{\intercal}&K_{*}\end{pmatrix

$m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ 서 m $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ [ $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ ( $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ 1 $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ display ) $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ , $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ m ( $x$ s $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ ) ] $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ 、 { m ( $x _$ {1}^{*} 、 \ $ldots$ $,$ $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ ( x _ { $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ $}^{*}$ } $m_{*}=[m(x_{1}^{*}),\ldots ,m(x_{s}^{*})]^{\intercal }$ 、 $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ （ $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ $k$ $(K_{**})_{ij}=k(x_{i}^{*},x_{j}^{*})$ $}=k(x_{i},x_{j}^{*}).$ $}$

상기 식에 따르면 출력 y도 다변량 가우스별로 공분포된다.따라서,

({displaystyle [f(x_{1}^*}),\ldots,f(x_{s}^{*})]^{\intercal}\mid([y(x)]^{\intercal}=y)\sim {n}(m_{\text{post}}),K_{\text{post}}}}}}}},\ldotsim

$y=[y_{1},...,y_{r}]^{\intercal }$ 서 y $y=[y_{1},...,y_{r}]^{\intercal }$ [ $y=[y_{1},...,y_{r}]^{\intercal }$ 1 $y=[y_{1},...,y_{r}]^{\intercal }$ , . . , $y=[y_{1},...,y_{r}]^{\intercal }$ r ] $y=[y_{1},...,y_{r}]^{\intercal }$ { $displaystyle$ y = [ $y$ _ {1} , ... $y$ _ { $r$ }^{ \ $intercal$ $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ 포스트 $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ $m$ $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ + $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ （ $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ + $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ I $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ r $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ - $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ ( $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ - $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ ) - $m_{\text{post}}=m_{*}+K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}(y-m_{0})$ （ $displaystyle m$ _ { \ $text$ { \ text } } } = { r } { k _ { r } $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ ${r}^{-1}(y-m_{0$ $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ 포스트 $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ - K $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ （ K $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ + $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ 2 $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ r ） - $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ K $∗$ { $display style$ K _ { \ $text$ { $post$ } = $K_{\text{post}}=K_{**}-K_{*}^{\intercal }(K_{O}+\sigma ^{2}I_{r})^{-1}K_{*}$ K _ { * * } - $K$ _ { \ $intercal$ } （ $K ）$ （ K } $I_{r}^{-1}K_$ $I_{r}$ 는 $I_r$ $r\times r$ r × $r\times r$ { $displaystyle$ r\ $times$ r} 아이덴티티 $r\times r$ ^[30]매트릭스입니다.

와일드 부트스트랩

Wu(1986)^[31]가 원래 제안한 와일드 부트스트랩은 모델이 이질성을 나타낼 때 적합하다.즉, 회귀 분석기를 표본 값으로 유지하되 잔차 값을 기반으로 반응 변수를 다시 표본화하는 것이 좋습니다.즉, 각 리플리케이트에 대해 새로운 $y$ 를 계산합니다 $y$ .

y_{i}^{*}=와이드햇 {y}}_{i}+{\widehat {varepsilon}_{i}v_{i}

따라서 잔차에 평균이 0이고 분산이 1인 랜덤 $v_{i}$ $({$ 를 $v_{i}$ 임의로 곱한다. $대부분의$ ( $Mamen$ 은 제외 $)$ 분포에서 이 방법은 '참' 잔차 분포가 대칭이며 샘플 크기가 작은 단순한 잔차 표본 추출에 비해 이점을 제공할 수 있다고 가정합니다.랜덤 $v_{i}$ 과 같은 다양한 형식이 사용됩니다 $v_{i}$

표준 정규 분포

Mamen(1993)^[32]이 제안한 분포.

({displaystyle v_{i}=syslog{case}-({\syslogrt {5}-1)/2&{syslogrt {5}+1}),\({\syslogrt {5}+1}),\(\syslogrt {5}-1})

Mamen의 분포는 대략 다음과 같습니다.

v_{i}=param{case}-0.6180\param{\text{(유닛 위치에 0이 있음)}}&{\text{확률 }}0.7236,\+1.6180\text{\text}(유닛의 위치에 1이 있음)}}&{\text{확률 }}0.2764.\end {case}

또는 Rademacher 분포에 링크된 간단한 분포:

v_{i}=param {case}-1&{\text{확률 }}1/2\+1&{\text{확률 }}1/2.\end {case}

블록 부트스트랩

블록 부트스트랩은 데이터 또는 모델의 오류가 상관되어 있을 때 사용됩니다.이 경우 데이터의 상관 관계를 재현할 수 없기 때문에 단순 사례 또는 잔차 재표본 추출이 실패합니다.블럭 부트스트랩은 데이터 블럭 내부의 재샘플링을 통해 상관 관계를 복제하려고 합니다(블록화(통계량) 참조).블록 부트스트랩은 주로 시간(즉, 시계열)에 상관된 데이터와 함께 사용되었지만 공간 또는 그룹(이른바 클러스터 데이터) 간에 상관된 데이터와 함께 사용할 수도 있습니다.

시계열:단순 블록 부트스트랩

(단순한) 블록 부트스트랩에서는 대상 변수가 겹치지 않는 블록으로 분할됩니다.

시계열:이동 블록 부트스트랩

쿤쉬(1989년)^[33]가 도입한 이동 블록 부트스트랩에서는 데이터는 길이 b의 n - b + 1 블록으로 분할된다: 관측치 1 ~ b는 블록 1, 관측치 2 ~ b + 1은 블록 2 등이다.그런 다음 이러한 n - b + 1 블럭에서 n/b 블럭이 교체되어 랜덤하게 그려집니다.그런 다음 이들 n/b 블록을 선택된 순서대로 정렬하면 부트스트랩 관찰이 이루어집니다.

이 부트스트랩은 종속 데이터에 대해 작동하지만, 부트스트랩된 관찰은 구조에 의해 더 이상 고정되지 않습니다.그러나 블록 길이를 랜덤으로 변경하면 이 ^[34]문제를 피할 수 있는 것으로 나타났습니다.이 방법은 고정 부트스트랩이라고 불립니다이동 블록 부트스트랩의 다른 관련 변경으로는 마르코프 부트스트랩과 표준 편차 매칭에 기초하여 후속 블록을 매칭하는 고정 부트스트랩 방법이 있습니다.

시계열: 최대 엔트로피 부트스트랩

비노드(2006)^[35]는 평균 보존 및 질량 보존 제약 조건으로 에르고딕 정리를 만족시키는 최대 엔트로피 원리를 사용하여 시계열 데이터를 부트스트랩하는 방법을 제시한다.이 방법을 이용한 R패키지 메부트가 ^[36]있는데, 이는 계량경제학 및 컴퓨터 공학에 응용된다.

클러스터 데이터: 블록 부트스트랩

군집 데이터는 단위당 관측치가 많이 관측되는 데이터를 나타냅니다.이것은 많은 주에 있는 많은 회사들을 관찰하거나 많은 수업의 학생들을 관찰하는 것일 수 있다.이러한 경우 상관구조는 단순화되며, 일반적으로 데이터는 그룹/클러스터 내에서 상관관계가 있지만 그룹/클러스터 간에 독립적이라고 가정합니다.블록 부트스트랩의 구조는 쉽게 얻을 수 있으며(블록이 그룹에 대응하는 경우), 보통 그룹만 재샘플링되고 그룹 내 관찰은 변경되지 않습니다.카메론 등(2008)에서는 선형 ^[37]회귀 분석의 클러스터 오류에 대해 설명합니다.

계산 효율을 향상시키는 방법

부트스트랩은 강력한 기술이지만 시간과 메모리 모두에서 상당한 컴퓨팅 리소스가 필요할 수 있습니다.이러한 부담을 줄이기 위해 몇 가지 기술이 개발되었습니다.이들은 일반적으로 다양한 유형의 부트스트랩 방식 및 다양한 통계 정보와 조합할 수 있습니다.

포아송 부트스트랩

이항 모수가 n*p=1이고 n이 증가함에 따라 포아송에 대한 이항 분포의 수렴을 보여주는 그래프

일반 부트스트랩에서는 리스트에서n개의 요소를 랜덤으로 선택해야 합니다.이것은 다항 분포에서 끌어내는 것과 같습니다.이 경우 대량의 데이터 전송이 필요할 수 있으며 이러한 계산을 병렬로 실행하는 것은 어렵습니다.값이 큰 n의 경우 포아송 부트스트랩은 부트스트랩된 데이터 ^[38]세트를 생성하는 효율적인 방법입니다.단일 부트스트랩 샘플을 생성할 때, 치환된 샘플 데이터에서 무작위로 추출하는 대신, 각 데이터 포인트에 $\lambda =1$ $=$ 1(\ $displaystyle \displayda =1$ 의 포아송 분포에 따라 랜덤 가중치가 할당됩니다. 큰 샘플 데이터의 경우, 이는 치환된 랜덤 샘플링에 가깝습니다.그 이유는 다음과 같습니다.

{\displaystyle \lim _{n\to \infty}\operatorname {Binotal}(n,1/n)=\operatorname {Poisson}(1)

부트스트랩샘플 채취를 시작하기 전에 샘플의 총수를 알 필요가 없기 때문에 이 방법은 스트리밍 데이터 및 데이터 세트의 증가에 적합합니다.

충분히 큰n의 경우 결과는 원래의 부트스트랩 ^[39]추정과 비교적 유사합니다.

포아송 부트스트랩(시퀀셜 부트스트랩)을 개선하는 방법은 첫 번째 샘플을 추출하여 고유한 값의 비율이 원래 샘플 크기 n의 0.632가 되도록 하는 것입니다.이것은 O $O(n^{3/4})$ ( $O(n^{3/4})$ 3 $O(n^{3/4})$ / $O(n^{3/4})$ ) { $displaystyle$ O ( n $^$ 3 / $4$ ) $O(n^{3/4})$ ^[40]의 $O(n^{3/4})$ 에 있는 주요 경험적 특성을 갖는 분포를 제공하며, 경험적 조사 결과 이 방법이 좋은 ^[41]결과를 얻을 수 있는 것으로 나타났다.이는 감소된 부트스트랩 ^[42]방식과 관련이 있습니다.

작은 부츠스트랩 봉지

대용량 데이터 세트의 경우, 모든 샘플 데이터를 메모리에 보관하고 샘플 데이터에서 다시 샘플링을 수행하는 것이 종종 계산상 불가능합니다.BLB(^[43]Bag of Little Bootstraps)는 부트스트랩 전에 데이터를 미리 집약하여 계산상의 제약을 줄이는 방법을 제공합니다.이는 데이터 세트를 b $\displaystyle$ b $}$ 개의 $b$ 동일한 크기의 $b$ 으로 분할하고 각 버킷 내에서 데이터를 집계하는 방식으로 작동합니다.이 사전 집계된 데이터 세트가 새로운 샘플 데이터가 되고 여기에 샘플을 그려서 치환합니다.이 방법은 블록 부트스트랩과 비슷하지만 블록의 동기와 정의는 매우 다릅니다.특정 전제 하에 샘플 분포는 완전한 부트스트랩 시나리오에 가깝습니다.한 가지 제약사항은 $b=n^{\gamma }$ 수 $b=n^{\gamma }$ $b=n^{\gamma }$ n ${\$ {\ $displaystyle$ b= $n^{\display }$ 입니다 $b=n^{\gamma }$ . $여기$ 서 $\gamma \in [0.5,1]$ .5 $\gamma \in [0.5,1]$ , $]$ { $displaystyle \in$ [ 0.5 , $1$ ] { \ displaystyle \ in $[ 0$ . 5 , 1 ]는 $\gamma \in [0.5,1]$ 일반적인 솔루션으로서 b $b=n^{0.7}$ $b=n^{0.7}$ $b=n^{0.7}$ 7 $b=n^{0.7}$ { $display b= n^$ 0. $7}$ 의 사용을 $b=n^{0.7}$ 합니다 $b=n^{0.7}$ .

통계 선택

모집단 모수의 점 추정기의 부트스트랩 분포는 모수가 모집단 분포의 함수로 기록될 수 있는 경우 모수의 참 값에 대한 부트스트랩 신뢰 구간을 생성하는 데 사용되었습니다.

모집단 모수는 여러 점 추정기를 사용하여 추정됩니다.일반적인 점 추정치 제품군에는 평균-편향 최소 분산 추정기, 중위-편향 추정기, 베이지안 추정기(예: 후방 분포의 모드, 중위수, 평균 및 최대우도 추정기)가 포함된다.

점근 이론에 따르면 베이지안 점 추정기 및 최대우도 추정기는 샘플 크기가 무한할 때 성능이 좋다.유한 표본의 실제 문제에는 다른 추정치가 더 나을 수 있습니다.점근 이론은 종종 부트스트랩 추정기의 성능을 향상시키는 기술을 제안합니다. 최대우도 추정기의 부트스트랩은 종종 중추 수량과 ^[44]관련된 변환을 사용하여 개선될 수 있습니다.

부트스트랩 배포에서 신뢰 구간 도출

파라미터 추정치의 부트스트랩 분포는 모집단 ^[1]파라미터의 신뢰구간을 계산하기 위해 사용되고 있습니다.

치우침, 비대칭 및 신뢰 구간

바이어스: 부트스트랩 분포와 샘플이 체계적으로 일치하지 않을 수 있으며, 이 경우 바이어스가 발생할 수 있습니다.
추정기의 부트스트랩 분포가 대칭인 경우 백분위수 신뢰 구간이 자주 사용됩니다. 이러한 구간은 특히 (절대 손실 함수와 관련하여) 최소 위험의 중앙값 비편향 추정기에 적합합니다.부트스트랩 분포의 바이어스는 신뢰구간에서의 바이어스로 이어집니다.

그렇지 않으면 부트스트랩 분포가 비대칭일 경우 백분위수 신뢰 구간이 적절하지 않은 경우가 많습니다.

부트스트랩 신뢰구간 방법

실제 파라미터의 부트스트랩 분포에서 신뢰 구간을 설정하는 방법은 다음과 같습니다.

기본 부트스트랩(^[44]Reverse Percentile ^[45]Interval이라고도 함).기본 부트스트랩은 신뢰구간을 구성하는 간단한 체계입니다. 즉, 단순히 모수의 부트스트랩 분포에서 경험적 분위수를 취합니다(Davison and Hinkley 1997, 등가 5.6 페이지 194 참조).

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

- ^ -

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

（

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

-

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

/

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

）、

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

-

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

（

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

/

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

）

(2{\widehat {\theta \,}}-\theta _{(1-\alpha /2)}^{*},2{\widehat {\theta \,}}-\theta _{(\alpha /2)}^{*})

display

style

）

（

2 ）

。{ (

1

\theta _{(1-\alpha /2)}^{*}

- \

alpha

/ 2 ) }^{ * } 、

2 、

2 、 \

theta

_ { （ \

\theta _{(1-\alpha /2)}^{*}

/

\theta _{(1-\alpha /2)}^{*}

）

（

\theta _{(1-\alpha /2)}^{*}

））

\theta _{(1-\alpha /2)}^{*}

( ( / ( ( / ( ( ( ( ( ( ( ( ( ( ( ( ( ( ( (

。

부트스트랩계수의

pha /

2}

\theta ^{*}

{

\theta ^{*}

（ \

displaystyle \theta ^

{ * }

\theta ^{*}

）。

백분위수 부트스트랩백분위수 부트스트랩은 기본 부트스트랩과 유사한 방식으로 진행되며 부트스트랩 분포의 백분위수를 사용하지만 다른 공식(좌측과 우측의 분위수 반전 주의)을 사용합니다.

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

/

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

)

1-\alpha /2

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

1 -

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

/ 2

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

）

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

{

displaystyle

（ \

theta _

{ \

alpha

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

/

1-\alpha /2

}^*}

、

\theta _{(1-\alpha /2)}^{*}

\theta _{(1-\alpha /2)}^{*}

- \

alpha

/

2

1-\alpha /2

\theta _{(1-\alpha /2)}^{*}

、

\

display style

_ { (

1-\alpha /2

- \

alpha

/

1-\alpha /2

)^*

(\theta _{(\alpha /2)}^{*},\theta _{(1-\alpha /2)}^{*})

} } 。

\theta

데이비슨과 힝클리(1997, 등 5.18 페이지 203)와 에프론과 티브쉬라니(1993, 등 13.5 페이지 171)를 참조한다.

이 방법은 모든 통계에 적용할 수 있습니다.부트스트랩 분포가 대칭이고 관찰된^[46] 통계량에 중심을 두고 샘플 통계량이 중위수 비편향이고 최대 농도(또는 절대값 손실 함수에 대한 최소 위험)인 경우에 잘 작동합니다.작은 표본 크기(예: 50보다 작음)로 작업할 경우 분산 통계량에 대한 기본/반전 백분위수 및 백분위수 신뢰 구간이 너무 좁아집니다.따라서 점 표본이 20개인 경우 90% 신뢰 구간에 78%의 ^[47]시간만 실제 분산을 포함합니다.기본/역백분위수 신뢰 구간은 수학적으로^[48]^[45] 정당화하기가 쉽지만 일반적으로 백분위수 신뢰 구간보다 정확도가 낮으며 일부 저자는 이러한 ^[45]구간의 사용을 권장하지 않습니다.

학생화된 부트스트랩bootstrap-t라고도 불리는 학생화 부트스트랩은 표준 신뢰 구간과 유사하게 계산되지만 정규 또는 학생 근사에서 얻은 분위수를 학생 t-테스트의 부트스트랩 분포에서 얻은 분위수로 대체합니다(Davison and Hinkley 1997, equ.5.7 p.194 및 Efron and Tibshirani 1993 12, 160 참조).:

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

-

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

(

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

-

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

/

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

)

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

(

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

/ 2 )

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

/ 2

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

）

({\widehat {\theta \,}}-t_{(1-\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta },{\widehat {\theta \,}}-t_{(\alpha /2)}^{*}\cdot {\widehat {\text{se}}}_{\theta })

。{

style

（ \

wide

hat \

teta

; ; ） }{ - t

_ *

} \

cdot

{

wide

hat {

text

{

se }

_ ta } _ { \

ta

} } } 。

{\displaystyle t_{(1-

\alpha

/

2

)^{*}:

부트스트랩된 학생의

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

t

1-\alpha /2

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

-

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

1-\alpha /2

/

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

}%

=

( ^ ^ ^ ^

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

^ ^

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

^

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

\

displaystyle

t^ { * }

와이드

햇{

twide hat

{

1-\alpha /2

} } }

1-\alpha /2

）

1-\alpha /2

heta \,}}

t^{*}=({\widehat {\theta \,}}^{*}-{\widehat {\theta \,}})/{\widehat {\text{se}}}_{{\widehat {\theta \,}}^{*}}

{\widehat {\text{se}}}_{\theta }

se

{\widehat {\text{se}}}_{\theta }

^

{\

（ \

displaystyle

\

text

{

se

}

_

{ \ theta

}

）는

{\widehat {\text{se}}}_{\theta }

원래 모델의 계수의 추정 표준 오차입니다.

학생화 테스트는 백분위수 부트스트랩과 달리 부트스트랩된 통계가 중추적이기 때문에(즉, t-테스트가 점근적으로 N(0,1) 분포를 따르기 때문에 불필요한 파라미터에 의존하지 않음) 최적의 속성을 누린다.

바이어스 보정 부트스트랩– 부트스트랩 배포의 바이어스를 조정합니다.
가속 부트스트랩– Efron(1987년)^[14]에 의한 BCA 부트스트랩은 부트스트랩 배포의 바이어스와 왜곡을 모두 조정합니다.이 접근방식은 다양한 설정에서 정확하고 합리적인 계산 요건이 있으며 상당히 좁은 ^[14]간격을 생성합니다.

부트스트랩 가설 테스트

Efron과 Tibshirani는^[1] 두 개의 독립적인 검체의 평균을 비교하기 위해 다음과 같은 알고리즘을 제안합니다. $x_{1},\ldots ,x_{n}$ 1, $x_{1},\ldots ,x_{n}$ $x_{1},\ldots ,x_{n}$ n { $style x_{1},\ldots,x_{n}$ 을 $x_{1},\ldots ,x_{n}$ (를) 샘플 ${\bar {x}}$ x ${\bar {x}}$ 및 ${\bar {x}}$ 샘플 분산 $\sigma _{x}^{2}$ $\sigma _{x}^{2}$ 2(\ $displaystyle \sigma$ _ ${x}^2$ 의 분포 F로부터의 랜덤 샘플로 $x_{1},\ldots ,x_{n}$ . $y_{1},\ldots ,y_{m}$ 1, $y_{1},\ldots ,y_{m}$ {\ $style$ y\styldisplay $y_{1$ }, {\ $dots$ }, { $n}}},$ {\dots $},$ {\styldisplay $y_{1},\ldots ,y_{m}$ {\styldots}}}, {x}}, $평균$ ${\bar {y}}$ ${\$ { $displaystyle$ { $y$ } $\sigma _{y}^{2}$ variance variance variance y $\sigma _{y}^{2}$ ${\$ { $displaystyle$ \ $sigma$ _ { $y$ }^ $2}$ 의 분포 G로부터의 le

$t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ t $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ - $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ 2 / $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ + $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ 2 / $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ m { $display$ style t = $flac$ { \ $bar$ { \ bar { $x$ } - { \ $bar$ { y } } { \ $bar$ { \ bar { y $}$ } { \ $bar$ rt { \ $brt _$ { { { { $x$ } } } / n + $n }$ } } } } } } } } } } } } } } } calculate $t={\frac {{\bar {x}}-{\bar {y}}}{\sqrt {\sigma _{x}^{2}/n+\sigma _{y}^{2}/m}}}$ calculate $calculate calculate$ _
$x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ 이 x i $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ - $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ + $x_{i}'=x_{i}-{\bar {x}}+{\bar {z}}$ $¯$ { $display$ x $_$ { i } = $x$ _ { i } - { \ bar { $x$ } + { \ $bar$ { z $}$ $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ y y $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ y $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ - $y_{i}'=y_{i}-{\bar {y}}+{\bar {z}},$ y , + z $、$ { $display style$ y _ { i } = $y$ _ i _ { i } } y { \ $bar$ } } + { \ bar } { \ bar $}$ } } 、 { \ bar } x $new$ x new { \ bar } } x new new new
$x_{i}'$ $n$ 의 랜덤 샘플( $x$ i ${\$ { $display$ $style$ $x$ $x_{i}'$ _ { $i$ } { * } $x_{i}^{*}$ )과 $x_{i}'$ $크기$ m의 다른 랜덤 $샘플$ $($ y $n$ $x_{i}'$ $y_{i}^{*}$ { $display style$ $y$ _ { $i$ } { *} )을 $y_{i}'$ { $display$ style y $_$ { i $y_{i}'$ { * } )에서 $m$ 교체합니다.
테스트 $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ t $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ - y $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ 2 / $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ + $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ y $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ / $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ m { $displaystyle$ t^ { * * } = $specfrac$ { \ bar { x { * } } } - {\ $bar$ { y^ { * 2 $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ } } } {\ $barrt _$ { { { x } { x } { n } { n } { n } { n } / n } } } { - $t^{*}={\frac {{\bar {x^{*}}}-{\bar {y^{*}}}}{\sqrt {\sigma _{x}^{*2}/n+\sigma _{y}^{*2}/m}}}$ } { - n } } } } } $}$ } }
$테스트$ 통계의 B $(표시 스타일$ B $)$ 값을 $B$ $B$ 하려면 3,4B( $B=1000$ : $= 1000(표시 스타일$ B $B=1000$ = 1000 $B=1000$ 를 $B$ 반복합니다.
p-값은 p $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ B $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ { $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ t $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ t $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ B $({$ $displaystyle$ p= $fr$ frac ${$ i = $1$ }^{ $B})$ 로 추정합니다. $I\{t_{i}^{*}\geq$ t $\}{B}}.$ $I({\text{condition}})=1$ 서 $p={\frac {\sum _{i=1}^{B}I\{t_{i}^{*}\geq t\}}{B}}$ I $I({\text{condition}})=1$ $=$ $(조건$ 이 참일 경우 ${\text$ {condition})= $1$ 그렇지 않을 경우 0).

응용 프로그램 예시

부드러운 부트스트랩

1878년, 사이먼 뉴콤은 ^[49]빛의 속도에 대해 관찰했다.데이터 집합에는 표본 평균에 큰 영향을 미치는 특이치가 두 개 포함되어 있습니다(꼬리 굵기 분포에는 평균이 존재하지 않으므로 표본 평균이 모집단 평균에 대해 일관된 추정기일 필요는 없습니다).중심 경향에 대한 잘 정의되고 견고한 통계량은 표본 중위수이며, 모집단 중위수에 대해 일관되고 중위수가 치우치지 않습니다.

Newcomb 데이터의 부트스트랩 분포는 다음과 같습니다.각 부트스트랩샘플에 소량의 랜덤노이즈를 추가함으로써 부트스트랩 분포의 불연속성을 줄일 수 있습니다.일반적인 선택은 샘플 크기 n에 표준 편차가 $\sigma /{\sqrt {n}}$ / $\sigma /{\sqrt {n}}$ n {\ $displaystyle \sigma /{\sqrt {n}}}$ 인 $\sigma /{\sqrt {n}}$ 노이즈를 추가하는 것입니다. 이 노이즈는 종종 n-1 ^[50]자유도의 Student-t 분포에서 도출됩니다.따라서 표본 평균의 분산에 대한 추정치가 근사적으로 치우치지 않습니다.즉, 부트스트랩 분포에서 추출된 샘플의 분산은 평균적으로 전체 모집단의 분산과 동일합니다.

부트스트랩 전달 및 원활한 부트스트랩 전달 히스토그램을 다음에 나타냅니다.sample-median의 부트스트랩 분포에는 소수의 값만 있습니다.원활한 부트스트랩 배포는 보다 풍부한 지원을 제공합니다.단, 스무드한 부트스트랩프로시저와 표준 부트스트랩프로시저가 어느 쪽이 좋은지는 케이스 바이 케이스이며, 기초가 되는 분산함수와 ^[51]추정되는 양에 따라 달라집니다.

이 예에서는 모집단 중앙값의 부트스트랩 95%(백분위수) 신뢰구간은 (26, 28.5)로 스무딩 부트스트랩의 (25.98, 28.46) 간격에 가깝습니다.

추론에 대한 다른 접근법과의 관계

다른 재샘플링 방법과의 관계

부트스트랩은 다음과 구별됩니다.

표본 통계의 편향을 추정하고 분산을 추정하는 데 사용되는 잭나이프 절차
교차 검증 - 한 하위 표본에서 추정된 모수(예: 회귀 가중치, 인자 적재)가 다른 하위 표본에 적용됩니다.

자세한 내용은 재샘플링을 참조하십시오.

부트스트랩 집약(배깅)은 여러 부트스트랩샘플에 대해 트레이닝된 모델로부터 얻은 평균적인 모델 예측에 근거한 메타 알고리즘입니다.

U 통계

데이터 항목의 소수 r만을 사용하여 필요한 특성을 측정하기 위해 명백한 통계량을 고안할 수 있는 상황에서는 표본 전체에 기초한 대응 통계량을 공식화할 수 있다.r-표본 통계량을 지정하면 부트스트래핑과 유사한 방법으로 n-표본 통계량을 생성할 수 있습니다(크기 r의 모든 하위표본에 대한 통계량의 평균을 구함).이 절차는 특정 양호한 속성을 갖는 것으로 알려져 있으며 결과는 U-통계입니다.표본 평균 및 표본 분산은 r = 1 및 r = 2에 대해 이 형식입니다.

「」를 참조해 주세요.

레퍼런스

^ ^a ^b ^c ^d ^e Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2.소프트웨어아카이브에서 2012-07-12를 아카이브했습니다.
^ 부트스트랩에 대한 두 번째 생각– Bradley Efron, 2003
^ 바리안, H. (2005)"부트스트랩 튜토리얼"매스매티카 저널, 9, 768–775.
^ Weisstein, Eric W. "부트스트랩 방법"MathWorld에서 울프램 웹 리소스.http://mathworld.wolfram.com/BootstrapMethods.html
^ 일부 수학 단어의 최초 사용 주: 부트스트랩(John Aldrich
^ 일부 수학 단어의 가장 오래된 사용법(B) (제프 밀러)
^ Efron, B. (1979). "Bootstrap methods: Another look at the jackknife". The Annals of Statistics. 7 (1): 1–26. doi:10.1214/aos/1176344552.
^ Quenouille M(1949) 시계열의 상관 관계에 대한 근사 검정.JROY SOC B 11 68-84
^ Tukey J(1958) 크기가 크지 않은 표본에 대한 편견과 신뢰(추상).앤 수학 통계 29 614
^ Jaeckel L(1972) 아주 작은 잭나이프.메모 MM72-1215-11, 벨랩
^ Bickel P, Freeman D(1981) 부트스트랩에 대한 점근 이론.Ann Statistics 9 1196
^ Singh K(1981) 에프론의 부트스트랩의 점근적 정확성에 대하여.앤 통계 9 1187–1195
^ 루빈 D(1981)베이지안 부트스트랩Ann Statistics 9 130 ~134
^ ^a ^b ^c Efron, B. (1987). "Better Bootstrap Confidence Intervals". Journal of the American Statistical Association. Journal of the American Statistical Association, Vol. 82, No. 397. 82 (397): 171–185. doi:10.2307/2289144. JSTOR 2289144.
^ Diccio T, Efron B(1992) 지수군에서 신뢰 구간이 더 정확합니다.바이오메트리카 79 231~245
^ ^a ^b ^c "21 Bootstrapping Regression Models" (PDF). Archived (PDF) from the original on 2015-07-24.
^ DiCiccio TJ, Efron B(1996) 부트스트랩 신뢰 구간(토론 포함).통계과학 11: 189~228
^ Hinkley, David (1994-08-01). "[Bootstrap: More than a Stab in the Dark?]: Comment". Statistical Science. 9 (3). doi:10.1214/ss/1177010387. ISSN 0883-4237.
^ Goodhue, D.L., Lewis, W. & Thompson, R. (2012년)PLS는 표본 크기가 작거나 정규적이지 않은 데이터에 장점이 있습니까?MIS 분기, 36(3), 981~1001.
^ Efron, B., R., R. (2004년)추정 방법을 다시 샘플링합니다.N.J. 스멜서 & P.B.에 있습니다.발츠(Ed.사회행동과학 국제백과사전 (13216–13220페이지).뉴욕, 뉴욕: 엘세비어.
^ Adér, H. J., Mellenbergh G. J., & Hand, D. J. (2008)조사 방법에 대한 조언: 컨설턴트의 동반자.네덜란드, Huizen: 요하네스 반 케셀 출판사.ISBN 978-90-79418-01-5.
^ 무한 분산 사례 Athreya, K.B. Ann Stats vol 15 (2) 1987 724–731에서의 평균 부트스트랩
^ 부트스트랩 샘플은 몇 개 있습니까?Statweb.stanford.edu
^ Jenkins, David G.; Quintana-Ascencio, Pedro F. (2020-02-21). "A solution to minimum sample size for regressions". PLOS ONE. 15 (2): e0229345. Bibcode:2020PLoSO..1529345J. doi:10.1371/journal.pone.0229345. ISSN 1932-6203. PMC 7034864. PMID 32084211.
^ Lumley, Thomas (2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23: 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. PMID 11910059.
^ Li, Xiang; Wong, Wanling; Lamoureux, Ecosse L.; Wong, Tien Y. (2012-05-01). "Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed?". Investigative Ophthalmology & Visual Science. 53 (6): 3082–3083. doi:10.1167/iovs.12-9967. ISSN 1552-5783. PMID 22618757.
^ 루빈, D. B. (1981)"베이지안 부트스트랩"통계연보, 9, 130
^ ^a ^b WANG, SUOJIN (1995). "Optimizing the smoothed bootstrap". Ann. Inst. Statist. Math. 47: 65–80. doi:10.1007/BF00773412. S2CID 122041565.
^ A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 유지보수: 기타 (링크)
^ ^a ^b ^c Kirk, Paul (2009). "Gaussian process regression bootstrapping: exploring the effects of uncertainty in time course data". Bioinformatics. 25 (10): 1300–1306. doi:10.1093/bioinformatics/btp139. PMC 2677737. PMID 19289448.
^ Wu, C.F.J. (1986). "Jackknife, bootstrap and other resampling methods in regression analysis (with discussions)" (PDF). Annals of Statistics. 14: 1261–1350. doi:10.1214/aos/1176350142.
^ Mammen, E. (Mar 1993). "Bootstrap and wild bootstrap for high dimensional linear models". Annals of Statistics. 21 (1): 255–285. doi:10.1214/aos/1176349025.
^ Künsch, H. R. (1989). "The Jackknife and the Bootstrap for General Stationary Observations". Annals of Statistics. 17 (3): 1217–1241. doi:10.1214/aos/1176347265.
^ Politis, D. N.; Romano, J. P. (1994). "The Stationary Bootstrap". Journal of the American Statistical Association. 89 (428): 1303–1313. doi:10.1080/01621459.1994.10476870. hdl:10983/25607.
^ Vinod, HD (2006). "Maximum entropy ensembles for time series inference in economics". Journal of Asian Economics. 17 (6): 955–978. doi:10.1016/j.asieco.2006.09.001.
^ Vinod, Hrishikesh; López-de-Lacalle, Javier (2009). "Maximum entropy bootstrap for time series: The meboot R package". Journal of Statistical Software. 29 (5): 1–19. doi:10.18637/jss.v029.i05.
^ Cameron, A. C.; Gelbach, J. B.; Miller, D. L. (2008). "Bootstrap-based improvements for inference with clustered errors" (PDF). Review of Economics and Statistics. 90 (3): 414–427. doi:10.1162/rest.90.3.414.
^ Chamandy, N; Muralidharan, O; Najmi, A; Naidu, S (2012). "Estimating Uncertainty for Massive Data Streams".
^ 헨리, 제임스 A, 브렌다 맥기본입니다"Poisson 주파수를 사용하여 비파라미터 부트스트랩 샘플 생성." 생물의학 83.1(2006) 컴퓨터 방법 및 프로그램: 57-62.pdf.
^ Babu, G. Jogesh, P. K. Pathak 및 C. Rao. "푸아송 부트스트랩의 2차 정확성"통계연보 27.5(1999년): 1666-1683.링크
^ 슈메이커, 오웬 J, 그리고 P. K. 파탁."시퀀셜 부트스트랩: 일반 부트스트랩과의 비교"통계이론 및 방법 30.8-9(2001)에서의 통신: 1661-1674.링크
^ 히메네스-가메로, 마리아 돌로레스, 호아킨 무뇨즈-가리아, 라파엘 피노-메히아스."중앙값 부트스트랩 감소"Statistica Sinica (2004) : 1179-1198.링크
^ Kleiner, A; Talwalkar, A; Sarkar, P; Jordan, M. I. (2014). "A scalable bootstrap for massive data". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 76 (4): 795–816. arXiv:1112.5016. doi:10.1111/rssb.12050. ISSN 1369-7412. S2CID 3064206.
^ ^a ^b Davison, A. C.; Hinkley, D. V. (1997). Bootstrap methods and their application. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press. ISBN 0-521-57391-2. software.
^ ^a ^b ^c Hesterberg, Tim C (2014). "What Teachers Should Know about the Bootstrap: Resampling in the Undergraduate Statistics Curriculum". arXiv:1411.5279 [stat.OT].
^ Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans. Vol. 38. Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7.
^ Scheiner, S. (1998). Design and Analysis of Ecological Experiments. CRC Press. ISBN 0412035618.
^ Rice, John. Mathematical Statistics and Data Analysis (2 ed.). p. 272. "신뢰 한계를 가진 부트스트랩 샘플링 분포의 분위수에 대한 이 직접 방정식이 처음에는 매력적으로 보일 수 있지만, 그 근거는 다소 모호합니다."
^ 베이지안 데이터 분석 예시의 데이터
^ Chihara, Laura; Hesterberg, Tim (3 August 2018). Mathematical Statistics with Resampling and R (2nd ed.). John Wiley & Sons, Inc. ISBN 9781119416548.
^ Young, G. A. (July 1990). "Alternative Smoothed Bootstraps". Journal of the Royal Statistical Society, Series B (Methodological). 52 (3): 477–484. doi:10.1111/j.2517-6161.1990.tb01801.x. ISSN 0035-9246.

추가 정보

Diaconis, P.; Efron, B. (May 1983). "Computer-intensive methods in statistics" (PDF). Scientific American. 248 (5): 116–130. Bibcode:1983SciAm.248e.116D. doi:10.1038/scientificamerican0583-116. 대중과학의
Efron, B. (1981). "Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods". Biometrika. 68 (3): 589–599. doi:10.1093/biomet/68.3.589.
Hesterberg, T. C.; D. S. Moore; S. Monaghan; A. Clipson & R. Epstein (2005). "Bootstrap methods and permutation tests" (PDF). In David S. Moore & George McCabe (eds.). Introduction to the Practice of Statistics. software. Archived from the original (PDF) on 2006-02-15. Retrieved 2007-03-23.
Efron, Bradley (1979). "Bootstrap methods: Another look at the jackknife". The Annals of Statistics. 7: 1–26. doi:10.1214/aos/1176344552.
Efron, Bradley (1981). "Nonparametric estimates of standard error: The jackknife, the bootstrap and other methods". Biometrika. 68 (3): 589–599. doi:10.2307/2335441. JSTOR 2335441.
에프론, 브래들리(1982)잭나이프, 부트스트랩 및 기타 재샘플링 계획, In Society of Industrial and Applied Mathemics CBMS-NSF Monograps, 38.
Diaconis, P.; Efron, Bradley(1983), "통계의 컴퓨터 집약적 방법", Scientific American, May, 116–130.
Efron, Bradley, Tibshirani, Robert J.(1993)부트스트랩 소개(뉴욕): 채프먼 & 홀, 소프트웨어.소프트웨어.
데이비슨, A.C. 및 힝클리, D.V.(1997):부트스트랩 메서드 및 그 응용 프로그램, 소프트웨어.
Mooney, C Z & Duval, R D(1993)부트스트랩통계적 추론에 대한 비모수적 접근법.Sage University의 사회과학의 정량적 응용에 관한 논문 시리즈, 07-095.뉴베리 파크, 캘리포니아: 세이지.
사이먼, J. L.(1997):재샘플링: [새로운 통계(New Statistics 。
Wright, D.B., London, K., Field, A.P. 임상심리학 데이터에 대한 부트스트랩 추정과 플러그인 원리 사용.2011 Textrum Ltd.온라인: https://www.researchgate.net/publication/236647074_Using_Bootstrap_Estimation_and_the_Plug-in_Principle_for_Clinical_Psychology_Data2016년 4월 25일에 취득.
도입은 Bootstrap.Monographs 통계학과 지원 가능성 57.Chapman&.Hall/CHC. 1998년.온라인https://books.google.it/books?id=gLlpIUxRntoC&pg=PA35&lpg=PA35&dq=plug+in+principle&source=bl&ots=A8AsW5K6E2&sig=7WQVzL3ujAnWC8HDNyOzKlKVX0k&hl=en&sa=X&sqi=2&ved=0ahUKEwiU5c-Ho6XMAhUaOsAKHS_PDJMQ6AEIPDAG#v=onepage&q=plug%20in%20principle&f=false.25042016년에 Retrieved.

외부 링크

소프트웨어

Statistics101:Resampling, Bootstrap, 몬테 카를로 시뮬레이션 프로그램이다.자유 프로그램 자바에 운영 체제에 출마할 일을 쓴 것이다.

[:0-1] Efron, B.; Tibshirani, R. (1993). An Introduction to the Bootstrap. Boca Raton, FL: Chapman & Hall/CRC. ISBN 0-412-04231-2.소프트웨어아카이브에서 2012-07-12를 아카이브했습니다.

[2] 부트스트랩에 대한 두 번째 생각– Bradley Efron, 2003

[Varian-3] 바리안, H. (2005)"부트스트랩 튜토리얼"매스매티카 저널, 9, 768–775.

[4] Weisstein, Eric W. "부트스트랩 방법"MathWorld에서 울프램 웹 리소스.http://mathworld.wolfram.com/BootstrapMethods.html

[5] 일부 수학 단어의 최초 사용 주: 부트스트랩(John Aldrich

[6] 일부 수학 단어의 가장 오래된 사용법(B) (제프 밀러)

[7] Efron, B. (1979). "Bootstrap methods: Another look at the jackknife". The Annals of Statistics. 7 (1): 1–26. doi:10.1214/aos/1176344552.

[Quenouille1949-8] Quenouille M(1949) 시계열의 상관 관계에 대한 근사 검정.JROY SOC B 11 68-84

[Tukey1958-9] Tukey J(1958) 크기가 크지 않은 표본에 대한 편견과 신뢰(추상).앤 수학 통계 29 614

[Jaeckel1972-10] Jaeckel L(1972) 아주 작은 잭나이프.메모 MM72-1215-11, 벨랩

[Bickel1981-11] Bickel P, Freeman D(1981) 부트스트랩에 대한 점근 이론.Ann Statistics 9 1196

[Singh1981-12] Singh K(1981) 에프론의 부트스트랩의 점근적 정확성에 대하여.앤 통계 9 1187–1195

[Rubin1981-13] 루빈 D(1981)베이지안 부트스트랩Ann Statistics 9 130 ~134

[BCa-14] Efron, B. (1987). "Better Bootstrap Confidence Intervals". Journal of the American Statistical Association. Journal of the American Statistical Association, Vol. 82, No. 397. 82 (397): 171–185. doi:10.2307/2289144. JSTOR 2289144.

[Diciccio1992-15] Diccio T, Efron B(1992) 지수군에서 신뢰 구간이 더 정확합니다.바이오메트리카 79 231~245

[:4-16] "21 Bootstrapping Regression Models" (PDF). Archived (PDF) from the original on 2015-07-24.

[DiCiccio1996-17] DiCiccio TJ, Efron B(1996) 부트스트랩 신뢰 구간(토론 포함).통계과학 11: 189~228

[18] Hinkley, David (1994-08-01). "[Bootstrap: More than a Stab in the Dark?]: Comment". Statistical Science. 9 (3). doi:10.1214/ss/1177010387. ISSN 0883-4237.

[19] Goodhue, D.L., Lewis, W. & Thompson, R. (2012년)PLS는 표본 크기가 작거나 정규적이지 않은 데이터에 장점이 있습니까?MIS 분기, 36(3), 981~1001.

[20] Efron, B., R., R. (2004년)추정 방법을 다시 샘플링합니다.N.J. 스멜서 & P.B.에 있습니다.발츠(Ed.사회행동과학 국제백과사전 (13216–13220페이지).뉴욕, 뉴욕: 엘세비어.

[Ader-21] Adér, H. J., Mellenbergh G. J., & Hand, D. J. (2008)조사 방법에 대한 조언: 컨설턴트의 동반자.네덜란드, Huizen: 요하네스 반 케셀 출판사.ISBN 978-90-79418-01-5.

[22] 무한 분산 사례 Athreya, K.B. Ann Stats vol 15 (2) 1987 724–731에서의 평균 부트스트랩

[23] 부트스트랩 샘플은 몇 개 있습니까?Statweb.stanford.edu

[24] Jenkins, David G.; Quintana-Ascencio, Pedro F. (2020-02-21). "A solution to minimum sample size for regressions". PLOS ONE. 15 (2): e0229345. Bibcode:2020PLoSO..1529345J. doi:10.1371/journal.pone.0229345. ISSN 1932-6203. PMC 7034864. PMID 32084211.

[25] Lumley, Thomas (2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23: 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. PMID 11910059.

[26] Li, Xiang; Wong, Wanling; Lamoureux, Ecosse L.; Wong, Tien Y. (2012-05-01). "Are Linear Regression Techniques Appropriate for Analysis When the Dependent (Outcome) Variable Is Not Normally Distributed?". Investigative Ophthalmology & Visual Science. 53 (6): 3082–3083. doi:10.1167/iovs.12-9967. ISSN 1552-5783. PMID 22618757.

[27] 루빈, D. B. (1981)"베이지안 부트스트랩"통계연보, 9, 130

[:1-28] WANG, SUOJIN (1995). "Optimizing the smoothed bootstrap". Ann. Inst. Statist. Math. 47: 65–80. doi:10.1007/BF00773412. S2CID 122041565.

[:3-29] A modern introduction to probability and statistics : understanding why and how. Dekking, Michel, 1946-. London: Springer. 2005. ISBN 978-1-85233-896-1. OCLC 262680588.{{cite book}}: CS1 유지보수: 기타 (링크)

[:2-30] Kirk, Paul (2009). "Gaussian process regression bootstrapping: exploring the effects of uncertainty in time course data". Bioinformatics. 25 (10): 1300–1306. doi:10.1093/bioinformatics/btp139. PMC 2677737. PMID 19289448.

[31] Wu, C.F.J. (1986). "Jackknife, bootstrap and other resampling methods in regression analysis (with discussions)" (PDF). Annals of Statistics. 14: 1261–1350. doi:10.1214/aos/1176350142.

[32] Mammen, E. (Mar 1993). "Bootstrap and wild bootstrap for high dimensional linear models". Annals of Statistics. 21 (1): 255–285. doi:10.1214/aos/1176349025.

[33] Künsch, H. R. (1989). "The Jackknife and the Bootstrap for General Stationary Observations". Annals of Statistics. 17 (3): 1217–1241. doi:10.1214/aos/1176347265.

[34] Politis, D. N.; Romano, J. P. (1994). "The Stationary Bootstrap". Journal of the American Statistical Association. 89 (428): 1303–1313. doi:10.1080/01621459.1994.10476870. hdl:10983/25607.

[35] Vinod, HD (2006). "Maximum entropy ensembles for time series inference in economics". Journal of Asian Economics. 17 (6): 955–978. doi:10.1016/j.asieco.2006.09.001.

[36] Vinod, Hrishikesh; López-de-Lacalle, Javier (2009). "Maximum entropy bootstrap for time series: The meboot R package". Journal of Statistical Software. 29 (5): 1–19. doi:10.18637/jss.v029.i05.

[37] Cameron, A. C.; Gelbach, J. B.; Miller, D. L. (2008). "Bootstrap-based improvements for inference with clustered errors" (PDF). Review of Economics and Statistics. 90 (3): 414–427. doi:10.1162/rest.90.3.414.

[38] Chamandy, N; Muralidharan, O; Najmi, A; Naidu, S (2012). "Estimating Uncertainty for Massive Data Streams".

[39] 헨리, 제임스 A, 브렌다 맥기본입니다"Poisson 주파수를 사용하여 비파라미터 부트스트랩 샘플 생성." 생물의학 83.1(2006) 컴퓨터 방법 및 프로그램: 57-62.pdf.

[40] Babu, G. Jogesh, P. K. Pathak 및 C. Rao. "푸아송 부트스트랩의 2차 정확성"통계연보 27.5(1999년): 1666-1683.링크

[41] 슈메이커, 오웬 J, 그리고 P. K. 파탁."시퀀셜 부트스트랩: 일반 부트스트랩과의 비교"통계이론 및 방법 30.8-9(2001)에서의 통신: 1661-1674.링크

[42] 히메네스-가메로, 마리아 돌로레스, 호아킨 무뇨즈-가리아, 라파엘 피노-메히아스."중앙값 부트스트랩 감소"Statistica Sinica (2004) : 1179-1198.링크

[43] Kleiner, A; Talwalkar, A; Sarkar, P; Jordan, M. I. (2014). "A scalable bootstrap for massive data". Journal of the Royal Statistical Society, Series B (Statistical Methodology). 76 (4): 795–816. arXiv:1112.5016. doi:10.1111/rssb.12050. ISSN 1369-7412. S2CID 3064206.

[BMA-44] Davison, A. C.; Hinkley, D. V. (1997). Bootstrap methods and their application. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press. ISBN 0-521-57391-2. software.

[hesterberg2014teachers-45] Hesterberg, Tim C (2014). "What Teachers Should Know about the Bootstrap: Resampling in the Undergraduate Statistics Curriculum". arXiv:1411.5279 [stat.OT].

[46] Efron, B. (1982). The jackknife, the bootstrap, and other resampling plans. Vol. 38. Society of Industrial and Applied Mathematics CBMS-NSF Monographs. ISBN 0-89871-179-7.

[DAEE-47] Scheiner, S. (1998). Design and Analysis of Ecological Experiments. CRC Press. ISBN 0412035618.

[48] Rice, John. Mathematical Statistics and Data Analysis (2 ed.). p. 272. "신뢰 한계를 가진 부트스트랩 샘플링 분포의 분위수에 대한 이 직접 방정식이 처음에는 매력적으로 보일 수 있지만, 그 근거는 다소 모호합니다."

[49] 베이지안 데이터 분석 예시의 데이터

[50] Chihara, Laura; Hesterberg, Tim (3 August 2018). Mathematical Statistics with Resampling and R (2nd ed.). John Wiley & Sons, Inc. ISBN 9781119416548.

[51] Young, G. A. (July 1990). "Alternative Smoothed Bootstraps". Journal of the Royal Statistical Society, Series B (Methodological). 52 (3): 477–484. doi:10.1111/j.2517-6161.1990.tb01801.x. ISSN 0035-9246.

[1]

[2]

[3]

[4]

[8]

[9]

[10]

[5]

[6]

[7]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

Search

부트스트랩(통계정보)

역사

접근

논의

이점

단점들

추천 사항

부트스트랩 방식의 유형

케이스 리샘플링

표본 평균 분포 추정

회귀

베이지안 부트스트랩

부드러운 부트스트랩

파라미터 부트스트랩

잔차 재샘플링

가우스 프로세스 회귀 부트스트랩

와일드 부트스트랩

블록 부트스트랩

시계열:단순 블록 부트스트랩

시계열:이동 블록 부트스트랩

시계열: 최대 엔트로피 부트스트랩

클러스터 데이터: 블록 부트스트랩

계산 효율을 향상시키는 방법

포아송 부트스트랩

작은 부츠스트랩 봉지

통계 선택

부트스트랩 배포에서 신뢰 구간 도출

치우침, 비대칭 및 신뢰 구간

부트스트랩 신뢰구간 방법

부트스트랩 가설 테스트

응용 프로그램 예시

부드러운 부트스트랩

추론에 대한 다른 접근법과의 관계

다른 재샘플링 방법과의 관계

U 통계

「 」를 참조해 주세요.

레퍼런스

추가 정보

외부 링크

소프트웨어

「」를 참조해 주세요.