위키백과:개방형 정부 데이터의 신뢰성

Wikipedia:

위키피디아는 기본적으로 우리가 믿을있는 출처라고 부르는 것의 사용에 의존한다.우리는 COVID-19 대유행에서 보듯이 정부 출처의 공개 데이터를 점점 더 많이 사용하기 시작하고 있다.그러나 '신뢰할 수 있는' 자료와 '공식적인' 자료를 명확히 구분해야 하지 않을까.언제 정부 기관이 신뢰할 수 있는 데이터를 제공할 수 있는가?COVID-19 대유행성 일일 감염 건수는 전 세계 여러 나라에 대한 신뢰도가 부족하다: 위키백과 독자들은 어떻게 경고를 받아야 하는가?[1]

2021년 9월: 에세이의 건설적인 편집환영하지만, 그것은 지지/반대 조사의도된 것은 아니다. 가능한 경우 출처를 사용하여 인수 및 반론을 편집하거나 산문 및/또는 목록에 삽입하십시오. 토론 페이지의 개별 섹션은 지지/반대 유형 토론사용할 수 있으며, 요약은 나중에 에세이 자체에 삽입될 수 있다.

COVID-19 전염병 환자

2020년부터 세계 뉴스를 지배한 COVID-19 대유행 기간 동안 독자들이 찾고 편집자들이 제공해 온 지식의 핵심 요소들 중 일부는 전 세계 국가에서 얼마나 많은 사람들이 감염되거나 죽었는지를 매일 집계하는 것이다.특정 국가의 수많은 미디어 출처는 여러 나라의 자료에 대한 특별한 우려를 지적하고 있으며, 위키백과 편집은 일반적으로 정부 기관의 진술에만 의존하기보다는 특정 미디어 출처, 의사 진술, 시민 단체 진술의 신뢰성을 판단하는 일반적인 패턴을 따른다.그러나, 주요 도표와 대유행의 세계적 숫자에 영향을 미치는 숫자는 일부 데이터의 비신뢰성 때문에 뉘앙스가 되지 않는다.

위키프로젝트 COVID-19/사례집계 태스크포스(WP C19CCTF)는 2021년 1월 18일 현재 "COVID-19 확진 환자, 사망자, 회복 횟수" 데이터는 신뢰할 수 있는 출처를 기반으로 한다.그러나 이러한 "신뢰할 수 있는 출처"는 사실 세계 각국의 정부 보건 기관이[2] 제공하는 공개 데이터로, 이들은 동료 검토 연구와 저널리즘의 정보 제공 방법이 근본적으로 다르다.일부 기사 섹션(벨라루스, 러시아, 니카라과, 베네수엘라)에서 다룬 데이터 제작에 대한 국가 차원의 주장 외에도, 정부 기관에서 발표한 숫자의 통계적 속성은 위키백과에서 알려진 체계적 인구통계학적 편향과 같은 정치적 편견 없이 신뢰성을 위해 조사될 수 있다.벤포드의 법칙[3] 공식적으로 명시된 COVID-19 일일 데이터에서[1] 소음의 부족은 여러 국가의 데이터를 신뢰할 수 없음을 가리킨다.놀랄 것도 없이, 국경 없는 기자들언론 자유 지수는 더 나쁠수록, 공식적인 COVID-19 일일 감염 수치에서 매일의 무작위 변동(스토크성 소음)이 부족할 가능성이 더 높다.아마도 언론 비판의 위험이 적은 정부 기관들은 공식적인 공개 자료를 조작하는 것에 대해 덜 걱정하고 있다.[1]

이 특별한 경우에 WHO 또는 John Hopkins University CSSE(JHU CSE) 데이터로의 전환은 WHO가 공식 국가 데이터 제공에 제한되어 있고, JHU CSE 데이터는 WP C19CCTF의 데이터와 사실적으로 저소음 일일 카운트가 대체로 유사한 결과를 나타내기 때문에 검증되지 않은 데이터를 찾기 위한 해결책이 될 수 없을 것이다.JHU CSE 버전의 데이터에서는 프레스 자유도 지수와 저소음 사이의 관계가 더 강력하다. 소스 데이터와 소스 코드에서 완전히 재현되는 것을 목표로 하는 분석의 부록을 참조하십시오.[1]

위키백과 정책은 어떻게 해야 하는가?

용어: 신뢰도 vs 공식

우리가 정말 '공식'을 뜻하는 '신뢰할 수 있다'(2021년 1월 18일)는 말을 계속 사용하는 것이 받아들여질 수 있는가, 그리고 많은 경우에 '공식'이 상당히 위조한 것을 의미할 수도 있다는 것을 알고 있다.만약 우리가 독자들에게 "공식적인" 정보가 허구일 수도 있다는 것을 분명하게 경고하지 못한다면, 우리는 왜곡에 기여하고 있는가?공식 공개된 정부 자료를 디폴트로 신뢰해야 하는가, 아니면 디폴트로 불신해야 하는가.

COVID-19 대유행은 위키피디아에서 사용되는 정부 공개 데이터의 유일한 예일 가능성이 낮기 때문에, 이러한 질문들이 관련성이 없을 것 같다.

공식 출처 알림판

우리는 WP:RSP와 같은 공식적인 소스 평가 목록을 개발하기 위한 게시판을 가져야 하는가?이것은 특정 정부 기관, 또는 특정 정부 또는 국가를 평가하려는 충분한 자원봉사자들이 필요하며, 위키피디아인들에게 그들의 정부가 데이터를 조작했다고 비난하는데 관련된 잠재적인 개인 및 법적 보안 위험에 대해 경고하기에 충분한 정보를 필요로 할 것이다.토론은 극도로 논란이 될 위험이 있고 논란이 많은 위키백과 주제의 일반적인 위험에 노출될 수 있다.

사용법

선거

정치관료 선거의 총·세부 투표수는 선거사기가 잘 알려진 공개정부 자료의 일종으로 선거 포렌식은 작지만 새롭게 등장하는 연구분야다.현재 영어 위키백과의 관례는 이란 2009년, 벨로루시 2015 2020년, 투르크메니스탄 2017년 등 결과가 의심스러울 때도 인포박스가 공식 결과를 보여주는 것이다.암묵적 정책은 인포박스가 선거 결과에 대한 정부의 관점을 거짓 자료라 하더라도 신뢰성 있게 보고하고, 공개 자료의 타당성이나 무효성은 정부와 무관한 믿을 만한 출처를 바탕으로 주도적으로 산문으로 기술하는 것으로 보인다.

기계 판독이 가능한 위키백과 인포박스를 처리하는 로봇과 검색 엔진, 웹사이트는 인포박스 수치 데이터를 처리하고 전파하지만 2021년 현재 산문 정보를 전파하지 않는다.산문 정보는 (어떤 경우에는) 매우 신뢰할 수 없는 정보에 대한 경고를 포함하고 있다(정보가 데이터에 대한 정부 기관의 주장에 대한 신뢰할 수 있는 보고서라는 점에서 제외).

COVID-19 전염병

위키피디아의 COVID-19 전염병 데이터(Sep 2021년 9월)는 그들의 전염병 통계에 대한 정부의 관점을 나타낸다는 점에서 신뢰할 수 있다고 합리적으로 주장할 수 있다.그러나, 더 나은 용어나 일부 좋은 템플릿의 사용은 어떤 경우에는 데이터가 터무니없는 것일 수 있으므로, 우리가 공식적인 정부 기만에 기여하지 않는다고 사용자에게 경고하기에 충분할까?

만약 우리가 자료가 가장 의심스러운 국가들로부터 COVID-19 전염병 데이터를 제외해야 한다면, 비록 그 결정이 정부 공식 자료의 순전히 통계적 특성에 기초한다 하더라도, 친서방 편향에 대한 비난을 감수해야 한다면 심미적으로 화가 날 것이다.[3][1][4]

베이시안 옵션

A가능성의 접근이 개별 확률bayesian 확률과 관련된(과 동료 평가 research,[4][1]예고 연구(자체가 합당해 지은 베이지안 확률론과)[3]과 언론 기사로부터 생성된다 공개 정부 데이터의 각 소스의 신뢰성에 대한 베이지안 확률론 연결할 것이다. WP:RSP?음.다양한 배경과 편집 능력과 이러한 데이터를 위키다타에 가져올 열정을 가진 사람들이 충분히 있을까?현재 (2021년 9월) 위키다타 요소는 위키백과 기사보다 훨씬 적은 편집 논쟁의 대상이 되고 있다.

선거, 유행병 데이터 또는 기타 열린 정부 데이터에 대한 infobox는 매개변수 신뢰도_% = 3 신뢰도_refs = <ref name="를 가질 수 있다.JStats_Bloggs2017" /> 0~1 범위의 백분율(이 경우 3%) 또는 소수점(이 경우 3%)으로 확률을 표시하고, 하나 이상의 참조를 바탕으로 중위수(평균보다 더 견고한) 신뢰도 추정치를 제공한다.일반적인 위키백과 편집에서와 같이, 매개변수는 개별 공개 정부 데이터 기사의 출처의 질에 따라 소스 신뢰도, 전체적인 가치를 표현하는 방법 등에 대한 치열한 논쟁의 대상이 될 가능성이 높다.

정책

"신뢰할 수 있는" 것과 "공식적인" 데이터를 구분하는 구체적인 위키백과 지침이나 정책이 있어야 하는가?구별을 명확히 하기 위한 일종의 텍스트 라벨인가?

신뢰성 있는 소싱 대 인구통계학적 편향 딜레마

COVID-19 데이터는 일반적으로 언론의 자유가 더 나쁜 나라에서는 더 의심스럽고,[1] 선거 데이터는 덜 발달된 민주주의 구조와 인권 문화와 제도를 가진 나라에서는 일반적으로 더 의심스럽다.위키백과에서 신뢰도가 낮은 공개 정부 데이터를 체계적으로 제거한다면, 우리는 정보 신뢰성을 향상시키지만 영어 위키백과의 알려진 인구통계학적 편견을 강화시킬 위험이 있다.만약 우리가 그것을 제거하지 않는다면, 우리는 덜 편향된 백과사전적 커버리지를 제공하는 것처럼 보이면서도 신뢰할 수 없는 데이터를 제공하는 위험을 무릅쓴다.이 딜레마는 이러한 편견과 관련하여 일반적인 소싱 딜레마와 유사하며, 숫자가 말보다는 숫자이기 때문에 신뢰할 수 있다는 잘못된 환상을 줄 수 있다는 차이와 유사하다.

대화 페이지의 사례별 또는 주제별로 시간별로 표준이 진화하는 가운데 어느 부분을 타협할 것인지에 대한 다른 편집자들과의 협상은 이러한 딜레마를 해결할 수 있는 한 가지 방법이다.

참고 항목

참조

  1. ^ a b c d e f g Roukema, Boudewijn F. (2021-08-27). "Anti-clustering in the national SARS-CoV-2 daily infection counts". PeerJ. 9: e11856. arXiv:2007.11779. doi:10.7717/peerj.11856. ISSN 2167-8359. PMC 8404575. PMID 34532156. Zenodo: 5262698. Archived from the original on 2021-08-27.
  2. ^ Ruijer, Erna; Françoise, Détienne; Baker, Michael; Groff, Jonathan; Meijer, Albert J. (2019). "The Politics of Open Government Data: Understanding Organizational Responses to Pressure for More Transparency". Amer. Rev. Publ. Admin. SAGE Publishing. 50: 260–274. doi:10.1177/0275074019888065. Archived from the original on 2021-09-16. Retrieved 2021-09-16.
  3. ^ a b c Balashov, Vadim S.; Yuxing, Yan; Zhu, Xiaodi (2021). "Using the Newcomb–Benford law to study the association between a country's COVID-19 reporting accuracy and its development". Scientific Reports. Springer Nature. 11: 22914. arXiv:2007.14841. doi:10.1038/s41598-021-02367-z. Archived from the original on 2021-11-27. Retrieved 2022-02-12.
  4. ^ a b Robertson, M.P.; Hinde, R.L.; Lavee, J. (14 November 2019). "Analysis of official deceased organ donation data casts doubt on the credibility of China's organ transplant reform". BMC Med Ethics. 20 (79): 79. doi:10.1186/s12910-019-0406-6. PMC 6854896. PMID 31722695.