퀀텀 정규화
Quantile normalization통계에서 분량 정규화는 통계 속성에서 두 분포를 동일하게 만드는 기법이다.동일한 길이의 기준 분포로 검정 분포를 정량화하려면 검정 분포를 정렬하고 기준 분포를 정렬하십시오.시험 분포에서 가장 높은 입력값은 시험 분포가 기준 분포의 동요가 될 때까지 기준 분포에서 가장 높은 입력값, 기준 분포에서 다음으로 높은 입력값 등을 취한다.
기준 분포 없이 둘 이상의 분포를 서로 정규화하려면 이전과 같이 정렬하고 분포의 평균(일반적으로 산술 평균)으로 설정하십시오.따라서 모든 경우에 가장 높은 값은 가장 높은 값의 평균이 되고, 두 번째로 높은 값은 두 번째 가장 높은 값의 평균이 되는 등의 문제가 있다.
일반적으로 기준 분포는 가우스 분포 또는 포아송 분포와 같은 표준 통계 분포 중 하나가 될 것이다.기준 분포는 랜덤하게 생성되거나 분포의 누적 분포함수에서 정규 표본을 추출하여 생성할 수 있다.그러나 모든 기준 분포를 사용할 수 있다.
마이크로 어레이 데이터 분석에는 퀀텀 정규화가 자주 사용된다.그것은 정량적[1] 표준화로 도입되었다가 정량적 표준화로 개칭되었다.[2]
예
매우 작은 데이터 집합에서 이러한 정규화에 대한 간단한 예:
배열 1~3, 유전자 A~D
A 5 4 3 B 2 1 4 C 3 4 6 D 4 2 8
각 열에 대해 가장 낮은 값에서 가장 높은 값까지의 순위를 결정하고 숫자 i-iv를 할당한다.
A ivii i B iii Ciii Diii iv
이 순위 값은 나중에 사용하기 위해 따로 설정된다.첫 번째 데이터 집합으로 돌아가십시오.첫 번째 열 값 집합을 다시 정렬하여 각 열이 가장 낮은 값에서 가장 높은 값으로 오도록 하십시오. (첫 번째 열은 5,2,3,4로 구성됨).이것은 2,3,4,5로 재배열된다.제2열 4,1,4,2열은 1,2,4,4열로 재배열하고, 3,4,6,8열로 구성된 3열은 이미 최저치에서 최고치로 순서가 잡혔기 때문에 그대로 유지)결과는 다음과 같다.
A 5 4 3이 A 2 1 3 B 2 1 4가 B 3 2 4 C 3 4 6이 C 4 4 6 D 4 2 8이 D 5 4 8이 된다.
이제 각 행의 평균을 찾아 순위를 결정하십시오.
A(2 + 1 + 3)/3 = 2.00 = B 등급(3 + 2 + 4)/3 = 3.00 = C 등급(4 + 4 + 6)/3 = 4.67 = III 등급(5 + 4 + 8)/3 = 5.67 = IV 등급
이제 랭킹 순서를 선택하고 새 값을 대체하십시오.
A ivii i B iii Ciii Diii iv
다음이 됨:
A 5.67 4.67 2.00 B 2.00 3.00 C 3.00 4.67 D 4.67 D 4.67 3.00 5.67
이것들은 새로운 정규화된 값들이다.
단, 2열에서와 같이 값이 순위별로 묶인 경우, 값이 다를 경우 일반적으로 나타내는 순위에 해당하는 값의 평균을 대신 할당해야 한다는 점에 유의한다.2열의 경우 3등급과 4등급이다.그래서 우리는 2개의 동점 순위 III 항목을 3등급의 평균 4.67과 4등급의 평균 5.67로 지정했는데, 5.17이다.그래서 우리는 다음과 같은 정규화된 값들의 집합에 도달한다.
A 5.67 5.17 2.00 B 2.00 C 3.00 5.17 D 4.67 3.00 5.00 5.67
새로운 값들은 같은 분포를 가지고 있고 이제 쉽게 비교할 수 있다.다음은 세 열 각각에 대한 요약 통계량이다.
Min. :2.000 Min. :2.000 Min. :2.000 1st Qu.:2.750 1st Qu.:2.750 1st Qu.:2.750 Median :3.833 Median :4.083 Median :3.833 Mean :3.833 Mean :3.833 Mean :3.833 3rd Qu.:4.917 3rd Qu.:5.167 3rd Qu.:4.917 Max. :5.667 Max. :5.167 Max. :5.667
참조
- ^ Amaratunga, D.; Cabrera, J. (2001). "Analysis of Data from Viral DNA Microchips". Journal of the American Statistical Association. 96 (456): 1161. doi:10.1198/016214501753381814.
- ^ Bolstad, B. M.; Irizarry, R. A.; Astrand, M.; Speed, T. P. (2003). "A comparison of normalization methods for high density oligonucleotide array data based on variance and bias". Bioinformatics. 19 (2): 185–193. doi:10.1093/bioinformatics/19.2.185. PMID 12538238.