빅데이터

Big data
디지털 글로벌 정보 저장 용량의 비선형 증가와 아날로그 스토리지의 감소[1]

빅 데이터는 주로 기존의 데이터 처리 애플리케이션 소프트웨어가 다루기에는 너무 크거나 복잡한 데이터 집합을 말합니다.항목(행)이 많은 데이터는 더 큰 통계적 검정력을 제공하는 반면, 복잡성이 높은 데이터(더 많은 특성 또는 열)는 더 높은 거짓 발견률을 초래할 수 있습니다.[2]형식적인 정의의 부족으로 인해 때때로 느슨하게 사용되지만, 가장 좋은 해석은 그것이 단지 적은 양으로만 사용될 때 이해될 수 없는 많은 양의 정보라는 것입니다.[3]

빅 데이터 분석 과제에는 데이터 캡처, 데이터 저장, 데이터 분석, 검색, 공유, 전송, 시각화, 쿼리, 업데이트, 정보 프라이버시, 데이터 소스 등이 포함됩니다.빅 데이터는 원래 볼륨, 다양성, 속도의 세 가지 핵심 개념과 관련이 있었습니다.[4]빅 데이터 분석은 샘플링에 어려움을 초래하므로 이전에는 관측치와 샘플링만 허용했습니다.따라서 네 번째 개념인 진실성은 데이터의 품질 또는 통찰력을 의미합니다.빅 데이터의 정확성을 위해 전문 지식에 대한 충분한 투자가 없다면, 데이터의 양과 다양성은 빅 데이터로부터 가치를 창출하고 포착하는 조직의 역량을 넘어서는 비용과 위험을 초래할 수 있습니다.[5]

빅 데이터라는 용어의 현재 사용법은 예측 분석, 사용자 행동 분석 또는 빅 데이터에서 가치를 추출하는 기타 고급 데이터 분석 방법을 사용하는 경향이 있으며 특정 크기의 데이터 집합을 지칭하는 경우는 거의 없습니다."현재 사용 가능한 데이터의 양이 정말 많은 것은 의심의 여지가 없지만, 그것이 이 새로운 데이터 생태계의 가장 큰 특징은 아닙니다."[6]데이터 세트를 분석하면 "비즈니스 동향 파악, 질병 예방, 범죄 퇴치 등"과의 새로운 상관 관계를 찾을 수 있습니다.[7]과학자, 기업 경영진, 의료 종사자, 광고 및 정부 모두 인터넷 검색, 핀테크, 의료 분석, 지리 정보 시스템, 도시 정보학비즈니스 정보학을 포함한 분야에서 대규모 데이터 세트에 대해 정기적으로 어려움을 겪고 있습니다.과학자들은 기상학, 유전체학,[8] 커넥트노믹스, 복잡한 물리학 시뮬레이션, 생물학, 환경 연구 등 e-Science 연구의 한계에 봉착합니다.[9]

모바일 장치, 값싸고 많은 정보를 감지하는 사물 인터넷 장치, 항공(원격 감지), 소프트웨어 로그, 카메라, 마이크, RFID(Radio-Frequency Identification) 리더 및 무선 센서 네트워크와 같은 장치에서 데이터를 수집함에 따라 사용 가능한 데이터 세트의 크기와 수가 급격히 증가했습니다.[10][11]1980년대 이후 40개월마다 세계의 정보 저장 기술 용량은 약 두 배씩 증가했습니다. 2012년 현재 매일 2.5엑사바이트(2.5×2바이트60)의 데이터가 생성되고 있습니다.[12][13]IDC 보고서 예측에 따르면 2013년과 2020년 사이에 전 세계 데이터 볼륨은 4.4 제타바이트에서 44 제타바이트로 기하급수적으로 증가할 것으로 예측되었습니다.IDC는 2025년까지 163제타바이트의 데이터가 발생할 것으로 예측하고 있습니다.[14]IDC에 따르면 2021년 빅데이터 및 비즈니스 분석(BDA) 솔루션에 대한 전 세계 지출은 2,157억 달러에 이를 것으로 추정됩니다.[15][16]Statista 보고서에 따르면, 전세계 빅 데이터 시장은 2027년까지 1030억 달러로 성장할 것으로 예상됩니다.[17]2011년 McKinsey & Company는 미국 의료 기관이 빅 데이터를 창의적이고 효과적으로 사용하여 효율성과 품질을 높인다면 이 분야는 매년 3,000억 달러 이상의 가치를 창출할 수 있을 것이라고 보고했습니다.[18]유럽의 선진 경제권에서 정부 관리자는 빅 데이터를 사용함으로써 운영 효율성 개선 비용만 1,000억 유로(1,490억 달러) 이상 절감할 수 있었습니다.[18]또한 개인 위치 데이터를 통해 지원되는 서비스 사용자는 6,000억 달러의 소비자 흑자를 달성할 수 있습니다.[18]대기업의 한 가지 문제는 조직 전체에 영향을 미치는 빅데이터 이니셔티브를 소유해야 하는 주체를 결정하는 것입니다.[19]

데이터를 시각화하는 데 사용되는 관계형 데이터베이스 관리 시스템 및 데스크톱 통계 소프트웨어 패키지는 빅데이터 처리 및 분석에 어려움을 겪는 경우가 많습니다.빅데이터를 처리하고 분석하려면 "수십 대, 수백 대, 심지어 수천 대의 서버에서 실행되는 대규모 병렬 소프트웨어"가 필요할 수 있습니다.[20]"빅 데이터"로 분류되는 것은 분석하는 사람들의 능력과 도구에 따라 다릅니다.또한 확장된 기능은 빅 데이터를 움직이는 대상으로 만듭니다."일부 조직의 경우 수백 기가바이트의 데이터를 처음으로 직면하게 되면 데이터 관리 옵션을 재고해야 할 필요성이 제기될 수 있습니다.다른 사람들의 경우, 데이터 크기가 중요한 고려 사항이 되기까지 수십 또는 수백 테라바이트가 걸릴 수 있습니다."[21]

정의.

빅 데이터라는 용어는 1990년대부터 사용되어 왔으며, 일부는 존 매시(John Mashey)가 이 용어를 대중화한 공로를 인정하고 있습니다.[22][23]빅 데이터는 일반적으로 일반적으로 사용되는 소프트웨어 도구가 견딜 수 있는 경과 시간 데이터를 캡처, 큐레이션, 관리 및 처리할 수 없는 크기의 데이터 세트를 포함합니다.[24]빅 데이터 철학은 비정형, 반정형, 정형 데이터를 포함하지만, 비정형 데이터에 중점을 두고 있습니다.[25]빅 데이터 "크기"는 2012년 현재 수십 테라바이트에서 수십 제타바이트에 이르는 데이터를 끊임없이 변화시키는 목표입니다.[26]빅 데이터는 다양하고 복잡하며 대규모인 데이터 집합에서 통찰력을 얻기 위해 새로운 형태의 통합 기술과 기술이 필요합니다.[27]

일부 단체는 '버라이어티', '버라이어티', '버라이어티' 등 다양한 'V'[28]를 추가해 설명하고 있는데, 업계 관계자들은 이를 거부하고 있습니다.빅 데이터의 V는 종종 "3 V", "4 V" 및 "5 V"로 불렸습니다.이들은 빅데이터의 특성을 볼륨, 다양성, 속도, 정확성, 가치 등으로 대변했습니다.[4]가변성은 종종 빅 데이터의 추가적인 품질로 포함됩니다.

2018년 정의는 "빅 데이터는 데이터를 처리하기 위해 병렬 컴퓨팅 도구가 필요한 곳"이며, "이것은 병렬 프로그래밍 이론을 통해 사용되는 컴퓨터 과학의 뚜렷하고 명확하게 정의된 변화와 Codd의 관계형 모델에 의해 만들어진 일부 보장과 기능의 손실을 나타냅니다."[29]라고 언급합니다.

빅 데이터 세트를 비교 연구한 결과, Kitchin과 McArdle은 일반적으로 고려되는 빅 데이터의 특성 중 어떤 것도 분석된 모든 사례에서 일관성 있게 나타나지 않는다는 사실을 발견했습니다.[30]이러한 이유로 다른 연구들은 지식발견에서 힘의 역학에 대한 재정의를 정의적 특성으로 파악했습니다.[31]이러한 대안적 관점은 빅 데이터의 본질적인 특성에 초점을 맞추는 대신 중요한 것은 데이터를 수집, 저장, 가용화 및 분석하는 방식이라고 주장하는 대상에 대한 관계적 이해를 추진합니다.

빅 데이터 대 비즈니스 인텔리전스

이 개념의 성숙도는 "빅 데이터"와 "비즈니스 인텔리전스"[32]의 차이를 더욱 극명하게 보여줍니다.

  • 비즈니스 인텔리전스는 정보 밀도가 높은 데이터와 함께 응용 수학 도구와 기술 통계를 사용하여 사물을 측정하고 트렌드를 감지하는 등의 작업을 수행합니다.
  • 빅데이터는 비선형 시스템 식별[33] 수학적 분석, 최적화, 귀납적 통계, 개념을 활용해 정보 밀도가[34] 낮은 대규모 데이터 집합에서 법칙(회귀, 비선형 관계, 인과 효과)을 추론해 관계와 의존 관계를 밝히거나 결과와 행동을 예측하는 작업을 수행합니다.[33][35][promotional source?]

특성.

빅데이터의 주요 특성인 볼륨, 속도, 다양성의 성장을 보여줍니다.

빅 데이터는 다음과 같은 특성으로 설명할 수 있습니다.

용량
생성 및 저장된 데이터의 양입니다.데이터의 크기에 따라 가치와 잠재적 통찰력, 빅데이터로 간주될 수 있는지 여부가 결정됩니다.빅 데이터의 크기는 보통 테라바이트와 페타바이트보다 큽니다.[36]
다양성
데이터의 유형 및 특성.RDBMS와 같은 이전의 기술은 구조화된 데이터를 효율적이고 효과적으로 처리할 수 있었습니다.그러나 구조화된 것에서 반 구조화된 것 또는 비 구조화된 것으로의 유형과 성격의 변화는 기존의 도구와 기술에 도전장을 던졌습니다.빅 데이터 기술은 빠른 속도(속도)와 거대한 크기(볼륨)로 생성된 반구조화 및 비정형(다양성) 데이터를 캡처, 저장 및 처리하는 것을 주된 목적으로 하여 발전했습니다.나중에 이러한 도구와 기술은 구조화된 데이터를 처리하는 데에도 사용되지만 저장하는 데에도 적합합니다.결국 구조화된 데이터의 처리는 빅데이터 또는 기존 RDBMS를 사용하여 선택사항으로 유지되었습니다.이를 통해 소셜 미디어, 로그 파일, 센서 등을 통해 수집된 데이터에서 숨겨진 통찰력을 효과적으로 활용할 수 있도록 데이터를 분석하는 데 도움이 됩니다.빅 데이터는 텍스트, 이미지, 오디오, 비디오에서 추출합니다. 또한 데이터 융합을 통해 누락된 조각을 완성합니다.
속도
데이터를 생성하고 처리하는 속도로 성장 및 발전 경로에 있는 요구사항과 과제를 충족합니다.빅 데이터는 종종 실시간으로 이용할 수 있습니다.작은 데이터에 비해 빅 데이터는 지속적으로 생산됩니다.빅데이터와 관련된 속도는 생성 빈도와 취급, 기록, 출판의 빈도 두 가지입니다.[37]
베라시티
데이터의 진실성 또는 신뢰성, 즉 데이터 품질과 데이터 값을 말합니다.[38]빅데이터의 분석에서 가치를 얻기 위해서는 빅데이터의 크기가 클 뿐만 아니라 신뢰성이 있어야 합니다.캡처된 데이터의 데이터 품질이 크게 달라져 정확한 분석에 영향을 미칠 수 있습니다.[39]
가치
대규모 데이터셋의 처리 및 분석을 통해 달성할 수 있는 정보의 가치.빅 데이터의 다른 특성에 대한 평가를 통해 가치를 측정할 수도 있습니다.[40]또한 가치는 빅 데이터 분석에서 가져온 정보의 수익성을 나타낼 수도 있습니다.
변동성
빅데이터의 형식, 구조 또는 출처가 바뀌는 특성.빅 데이터에는 정형 데이터, 비정형 데이터 또는 정형 데이터와 비정형 데이터의 조합이 포함될 수 있습니다.빅 데이터 분석은 여러 출처의 원시 데이터를 통합할 수 있습니다.원시 데이터 처리에는 비정형 데이터를 정형 데이터로 변환하는 작업도 수반될 수 있습니다.

빅 데이터의 다른 가능한 특성은 다음과 같습니다.[41]

철저한
전체 시스템(, n = all)을 캡처 또는 기록할지 여부입니다.빅 데이터는 소스에서 사용 가능한 모든 데이터를 포함할 수도 있고 포함하지 않을 수도 있습니다.
세분화되고 고유한 어휘
각각 수집된 요소당 각 요소의 특정 데이터의 비율과 요소 및 요소의 특성이 적절하게 색인화되거나 식별되는지 여부.
관계형
수집된 데이터에 서로 다른 데이터 집합의 연결 또는 메타 분석을 가능하게 하는 공통 필드가 포함된 경우.
익스텐션
수집된 데이터의 각 요소의 새 필드를 쉽게 추가하거나 변경할 수 있는 경우.
확장성
빅 데이터 스토리지 시스템의 규모가 빠르게 확장될 수 있다면 말입니다.

건축학

빅 데이터 저장소는 다양한 형태로 존재해 왔으며, 종종 특별한 필요가 있는 기업에 의해 구축됩니다.상업용 공급업체들은 1990년대부터 빅데이터를 위한 병렬 데이터베이스 관리 시스템을 제공해 왔습니다.여러 해 동안 윈터코프는 가장 큰 데이터베이스 보고서를 발표했습니다.[42][promotional source?]

Teradata Corporation은 1984년 병렬 처리 DBC 1012 시스템을 출시했습니다.테라데이터 시스템은 1992년 1테라바이트의 데이터를 최초로 저장하고 분석했습니다.1991년 하드 디스크 드라이브는 2.5GB였으므로 빅 데이터의 정의는 계속해서 진화하고 있습니다.테라데이터는 2007년 페타바이트급 RDBMS 기반 시스템을 최초로 설치했습니다.2017년 현재 수십 페타바이트급 Teradata 관계형 데이터베이스가 설치되어 있으며, 그 중 가장 큰 데이터베이스는 50PB를 초과합니다.2008년까지의 시스템은 100% 구조화된 관계형 데이터였습니다.이후 Teradata는 XML, JSON, Avro 등 비정형 데이터 유형을 추가했습니다.

Seisint Inc.(현재 LexisNexis Risk Solutions)는 2000년 HPCC Systems 플랫폼으로 알려진 데이터 처리 및 쿼리를 위한 C++ 기반 분산 플랫폼을 개발했습니다.이 시스템은 여러 상용 서버에 걸쳐 정형, 반정형 및 비정형 데이터를 자동으로 파티션화, 배포, 저장 및 전달합니다.사용자는 ECL이라는 선언적 데이터 흐름 프로그래밍 언어로 데이터 처리 파이프라인과 쿼리를 작성할 수 있습니다.ECL에서 일하는 데이터 분석가들은 데이터 스키마를 미리 정의할 필요가 없으며, 당면한 특정 문제에 초점을 맞출 수 있으며, 솔루션을 개발할 때 최상의 방식으로 데이터를 재구성할 수 있습니다.2004년 LexisNexis는 Seisint Inc.[43]와 고속 병렬 처리 플랫폼을 인수했으며 2008년 Choicepoint Inc.의 데이터 시스템을 통합하는 데 이 플랫폼을 성공적으로 사용했습니다.[44]2011년 HPCC 시스템 플랫폼은 Apache v2.0 라이센스로 오픈 소스화되었습니다.

CERN 및 기타 물리학 실험은 수십 년 동안 빅 데이터 세트를 수집해 왔으며, 일반적으로 현재의 "빅 데이터" 움직임에 의해 의미되는 맵 축소 아키텍처가 아니라 고 처리량 컴퓨팅을 통해 분석되었습니다.

2004년, 구글은 비슷한 구조를 사용하는 MapReduce라고 불리는 과정에 대한 논문을 발표했습니다.맵리듀스(MapReduce) 개념은 병렬 처리 모델을 제공하며, 방대한 양의 데이터를 처리하기 위해 관련 구현이 공개되었습니다.MapReduce를 사용하면 쿼리가 병렬 노드로 분할되고 분산되며 병렬로 처리됩니다("맵" 단계).그런 다음 결과를 취합하여 제공합니다("축소" 단계).프레임워크는 매우 성공적이어서 [45]다른 사람들은 알고리즘을 복제하기를 원했습니다.그러므로 맵리듀스 프레임워크의 구현은 "하둡"이라는 이름의 아파치 오픈 소스 프로젝트에 의해 채택되었습니다.[46]Apache Spark인메모리 처리 기능과 많은 작업을 설정할 수 있는 기능을 추가함에 따라 맵리듀스 패러다임의 한계에 대응하여 2012년에 개발되었습니다.

MIKE 2.0은 "Big Data Solution Offering"이라는 제목의 기사에서 확인된 빅데이터 영향으로 인한 수정의 필요성을 인정하는 개방형 정보 관리 접근 방식입니다.[47]이 방법론은 데이터 소스의 유용한 순열, 상호관계의 복잡성, 개별 레코드의 삭제(또는 수정)의 어려움 등의 측면에서 빅데이터를 처리합니다.[48]

2012년의 연구에서는 빅 데이터가 제시하는 문제를 해결하기 위해 다중 계층 아키텍처가 하나의 옵션임을 보여주었습니다.분산 병렬 아키텍처는 여러 서버에 데이터를 분산합니다. 이러한 병렬 실행 환경은 데이터 처리 속도를 크게 향상시킬 수 있습니다.이러한 아키텍처 유형은 병렬 DBMS에 데이터를 삽입하여 MapReduce 및 Hadoop 프레임워크를 사용하도록 구현합니다.이러한 프레임워크 유형은 프런트 엔드 애플리케이션 서버를 사용하여 최종 사용자에게 처리 능력을 투명하게 제공하는 것처럼 보입니다.[49]

데이터 레이크를 통해 조직은 변화하는 정보 관리의 역동성에 대응하기 위해 중앙 집중식 제어에서 공유 모델로 초점을 전환할 수 있습니다.이를 통해 데이터를 데이터 레이크로 신속하게 분리할 수 있으므로 오버헤드 시간을 줄일 수 있습니다.[50][51]

테크놀러지스

2011년 McKinsey Global Institute 보고서는 빅 데이터의 주요 구성 요소와 생태계를 다음과 같이 설명합니다.[52]

다차원 빅 데이터는 OLAP 데이터 큐브 또는 수학적으로 텐서로 나타낼 수도 있습니다.어레이 데이터베이스 시스템은 이 데이터 유형에 대한 스토리지 및 고급 쿼리 지원을 제공하기 시작했습니다.빅 데이터에 적용되는 추가 기술로는 다중 선형 부분공간 학습,[53][54] MPP(Massively Parallel Processing) 데이터베이스, 검색 기반 애플리케이션, 데이터 마이닝,[55] 분산 파일 시스템, 분산 캐시(예: 버스트 버퍼Memcached), 분산 데이터베이스, 클라우드 및 HPC 기반 인프라 등과 같은 효율적인 텐서 기반 계산이 있습니다.구조(응용프로그램, 스토리지 및 컴퓨팅 리소스),[56] 인터넷.[citation needed]많은 접근법과 기술이 개발되었지만 빅 데이터로 머신 러닝을 수행하는 것은 여전히 어렵습니다.[57]

일부 MPP 관계형 데이터베이스는 페타바이트 단위의 데이터를 저장하고 관리할 수 있습니다.암묵적이란 RDBMS에서 대용량 데이터 테이블을 로드, 모니터링, 백업 및 최적화할 수 있는 기능입니다.[58][promotional source?]

DARPA의 위상 데이터 분석 프로그램은 대규모 데이터 세트의 근본적인 구조를 찾고 있으며, 2008년 "Ayasdi"라는 회사의 출범과 함께 이 기술을 공개했습니다.[59][third-party source needed]

빅 데이터 분석 프로세스의 실무자들은 일반적으로 느린 공유 스토리지에 적대적이기 [60]때문에 솔리드 스테이트 드라이브(SSD)에서 병렬 처리 노드에 내장된 대용량 SATA Disk에 이르기까지 다양한 형태의 DAS(Direct Attached Storage)를 선호합니다.SAN(Storage Area Network) 및 NAS(Network Attached Storage)와 같은 공유 스토리지 아키텍처는 상대적으로 느리고 복잡하며 비용이 많이 든다는 인식을 가지고 있습니다.이러한 특성은 시스템 성능, 일반적인 인프라스트럭처 및 저렴한 비용을 활용하는 빅 데이터 분석 시스템과 일치하지 않습니다.

실시간 또는 근실시간 정보 전달은 빅데이터 분석의 정의적 특성 중 하나입니다.따라서 가능하면 언제 어디서나 대기 시간을 피할 수 있습니다.직접 연결된 메모리나 디스크의 데이터는 양호하지만 FC SAN 연결의 다른 쪽 끝에 있는 메모리나 디스크의 데이터는 양호하지 않습니다.분석 애플리케이션에 필요한 규모의 SAN 비용은 다른 스토리지 기술보다 훨씬 높습니다.

적용들

IDF13 외부에 주차된 SAP 빅데이터로 랩핑된 버스

빅 데이터는 정보 관리 전문가의 수요를 크게 증가시켜 소프트웨어 AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HPDell은 데이터 관리 및 분석을 전문으로 하는 소프트웨어 회사에 150억 달러 이상을 투자했습니다.2010년에 이 산업은 1,000억 달러 이상의 가치를 가졌고, 연간 거의 10%의 성장률을 기록했습니다. 이는 소프트웨어 사업 전체의 약 2배에 달하는 속도입니다.[7]

선진국은 점점 더 많은 데이터 집약적 기술을 사용하고 있습니다.전 세계적으로 46억 명의 휴대전화 가입자가 있으며 10억 명에서 20억 명 사이의 사람들이 인터넷에 접속하고 있습니다.[7]1990년에서 2005년 사이에 전 세계적으로 10억 명 이상의 사람들이 중산층으로 진입했고, 이는 더 많은 사람들이 글을 읽고 쓸 수 있게 되었고, 이는 다시 정보 성장으로 이어졌습니다.통신 네트워크를 통해 정보를 교환할 수 있는 세계의 유효 용량은 1986년 281 페타바이트, 1993년 471 페타바이트, 2000년 2.2 엑사바이트, 2007년[12] 65 엑사바이트였으며, 예측에 따르면 2014년까지 인터넷 트래픽은 연간 667 엑사바이트에 달합니다.[7]전 세계에 저장된 정보의 3분의 1이 영숫자 텍스트 및 정지 영상 데이터 형태이며,[61] 이는 대부분의 빅데이터 애플리케이션에 가장 유용한 형식입니다.이것은 또한 아직 사용되지 않은 데이터(즉, 비디오 및 오디오 컨텐츠의 형태)의 잠재력을 보여줍니다.

많은 공급업체가 빅데이터용 기성 제품을 제공하고 있지만, 전문가들은 회사가 충분한 기술 역량을 보유하고 있는 경우 사내 맞춤형 시스템 개발을 추진합니다.[62]

정부

정부 프로세스 내에서 빅 데이터를 사용하고 채택하는 것은 비용, 생산성 및 혁신 측면에서 효율성을 보장하지만,[63] 단점이 없는 것은 아닙니다.데이터 분석을 위해서는 여러 정부 기관(중앙 및 지방)이 협력하여 작업하고 원하는 결과를 제공하기 위한 새롭고 혁신적인 프로세스를 만들어야 하는 경우가 많습니다.빅 데이터를 사용하는 일반적인 정부 기관은 국가안보국(NSA)으로, 그들의 시스템이 감지할 수 있는 의심스러운 또는 불법적인 활동의 잠재적인 패턴을 찾기 위해 끊임없이 인터넷의 활동을 감시합니다.

시민등록생명통계(CRVS)는 출생부터 사망까지 모든 증명서 상태를 수집합니다.CRVS는 정부를 위한 빅데이터의 원천입니다.

국제개발

정보통신기술(ICT4D라고도 함)의 개발을 위한 효과적인 활용에 대한 연구는 빅데이터 기술이 중요한 기여를 할 수 있음은 물론, 국제적 발전에 있어 독특한 과제를 제시할 수 있음을 시사합니다.[64][65]빅 데이터 분석의 발전은 의료, 고용, 경제 생산성, 범죄, 보안, 자연 재해 및 자원 관리와 같은 중요한 개발 분야의 의사 결정을 개선할 수 있는 비용 효율적인 기회를 제공합니다.[66][67][68]또한 사용자가 생성한 데이터는 듣지 못한 사람에게 목소리를 제공할 수 있는 새로운 기회를 제공합니다.[69]그러나 부적절한 기술 인프라 및 경제적 및 인적 자원 부족과 같은 개발 지역의 오랜 과제는 개인 정보 보호, 불완전한 방법론 및 상호 운용성 문제와 같은 빅 데이터로 인해 기존의 우려를 악화시킵니다.[66]현재 '개발을 위한 인공지능(AI4D)'이라 불리는 머신러닝을 통한 이 데이터의 응용을 향해 '개발을 위한 빅데이터'[66]라는 난제가 진화하고 있습니다.[70]

혜택들

개발을 위한 빅 데이터의 주요한 실용적인 응용 분야는 "데이터를 이용한 빈곤 퇴치"였습니다.[71]2015년에 Blumenstock과 동료들은 휴대전화 메타데이터를 통해 빈곤과 부를 예측했고, 2016년에 Jean과 동료들은 빈곤을 예측하기 위해 위성 이미지와 기계 학습을 결합했습니다.[73]Hilbert와 동료들은 라틴 아메리카의 노동 시장과 디지털 경제를 연구하기 위해 디지털 추적 데이터를 사용하여 디지털 추적 데이터가 다음과 같은 몇 가지 이점을 가지고 있다고 주장합니다.

  • 주제 범위: 이전에 측정이 어렵거나 불가능했던 영역을 포함합니다.
  • 지리적 범위: 우리의 국제적 출처는 보통 국제 재고에 포함되지 않는 많은 소규모 국가를 포함한 거의 모든 국가에 대해 상당하고 비교 가능한 데이터를 제공했습니다.
  • 세부 수준: 네트워크 연결과 같은 다양한 상호 관련 변수와 새로운 측면을 가진 세분화된 데이터 제공
  • 적시성 및 시계열: 수집 후 며칠 이내에 그래프를 생성할 수 있음

과제들

또한 기존의 조사 데이터 대신 디지털 추적 데이터를 사용한다고 해서 국제적인 정량 분석 분야에서 작업할 때 전통적인 문제가 해소되는 것은 아닙니다.우선순위는 바뀌지만 기본적인 논의는 그대로입니다.주요 과제는 다음과 같습니다.

  • 대표성.전통적인 개발 통계는 주로 무작위 조사 표본의 대표성과 관련이 있지만, 디지털 추적 데이터는 결코 무작위 표본이 아닙니다.[76]
  • 일반화 가능성.관측 데이터는 항상 이 소스를 매우 잘 나타내지만, 이 소스가 나타내는 것만 나타낼 뿐 그 이상은 나타내지 않습니다.하나의 플랫폼에 대한 특정 관찰에서 보다 광범위한 설정으로 일반화하는 것은 유혹적이지만, 이는 종종 매우 기만적입니다.
  • 조화.디지털 추적 데이터는 여전히 지표의 국제적 조화를 필요로 합니다.다양한 소스의 조화라는 소위 "데이터 융합"이라는 과제를 추가합니다.
  • 데이터 과부하.분석가와 기관은 대화형 대시보드로 효율적으로 수행되는 많은 변수를 효과적으로 처리하는 데 사용되지 않습니다.실무자들에게는 연구원, 사용자 및 정책 입안자들이 효율적이고 효과적으로 작업할 수 있는 표준 워크플로우가 여전히 부족합니다.[74]

자금

빅 데이터는 1) 처리 속도를 높이고 2) 내부 및 금융 기관의[77] 고객에게 더 나은 정보를 제공하기 위해 금융 분야에서 빠르게 채택되고 있습니다.빅 데이터의 금융 응용 분야는 투자 의사 결정 및 거래(사용 가능한 가격 데이터, 한도 주문서, 경제 데이터 등의 처리량), 포트폴리오 관리(다양한 자산 클래스에서 선택 가능성이 있는 점점 더 많은 금융 상품군에 대해 최적화), 리스크 관리 등 다양합니다.ment([78]확장된 정보에 기초한 신용등급), 그리고 데이터 입력이 많은 다른 측면.

헬스케어

빅 데이터 분석은 개인 맞춤형 의약품 및 처방 분석, 임상 위험 개입 및 예측 분석, 낭비 및 관리 변동성 감소, 환자 데이터의 외부 및 내부 자동 보고, 표준화된 의료 용어 및 환자 등록부를 제공함으로써 의료 분야에서 활용되었습니다.[79][80][81][82]일부 개선 분야는 실제 구현된 것보다 더 큰 포부를 갖고 있습니다.의료 시스템 내에서 생성되는 데이터 수준은 결코 사소한 것이 아닙니다.mHealth, eHealth 및 웨어러블 기술의 채택으로 데이터의 양은 계속 증가할 것입니다.여기에는 전자 건강 기록 데이터, 영상 데이터, 환자 생성 데이터, 센서 데이터 및 기타 데이터 처리가 어려운 형태가 포함됩니다.이제 이러한 환경에서 데이터와 정보 품질에 더 많은 관심을 기울여야 할 필요성이 더욱 커지고 있습니다.[83]"빅 데이터는 종종 '더러운 데이터'를 의미하며 데이터 볼륨이 증가함에 따라 데이터 오류의 비율이 증가합니다."빅 데이터 규모의 인체 검사는 불가능하며, 누락된 정보의 정확성과 신뢰성 관리 및 처리를 위한 지능형 도구에 대한 의료 서비스가 절실히 필요합니다.[84]의료 분야의 광범위한 정보는 이제 전자적이지만, 대부분은 구조화되지 않고 사용하기 어렵기 때문에 빅 데이터의 보호를 받고 있습니다.[85]의료 분야에서 빅 데이터를 사용함에 따라 개인의 권리, 개인 정보 보호 및 자율성에 대한 위험에서 투명성 및 신뢰에 이르기까지 상당한 윤리적 문제가 제기되었습니다.[86]

보건 연구의 빅데이터는 특히 탐색적 생물의학 연구 측면에서 유망한데, 데이터 중심의 분석이 가설 중심의 연구보다 더 빠르게 진행될 수 있기 때문입니다.[87]그런 다음 데이터 분석에서 볼 수 있는 추세를 기존의 가설 기반 후속 생물학적 연구와 최종적으로 임상 연구에서 테스트할 수 있습니다.

의료 분야에서 빅 데이터에 크게 의존하는 관련 애플리케이션 하위 영역은 컴퓨터 지원 의료 진단입니다.[88] 예를 들어 뇌전증 모니터링의 경우 매일 5~10GB의 데이터를 생성하는 것이 일반적입니다.[89] 마찬가지로 유방 단층 영상 합성의 압축되지 않은 단일 영상은 평균 450MB의 데이터를 가집니다.[90] 이들은 컴퓨터 지원 진단이 빅데이터를 사용하는 많은 예 중 일부에 불과합니다.이 때문에 빅데이터는 컴퓨터 지원 진단 시스템이 다음 단계의 성능을 달성하기 위해 극복해야 하는 7가지 핵심 과제 중 하나로 인식되어 왔습니다.

교육

McKinsey Global Institute의 연구에 따르면 150만 명의 고도로 훈련된 데이터 전문가와 관리자가[52] 부족하며, Tennessee 대학UC Berkeley를 포함한 많은 대학들이[92][better source needed] 이러한 수요를 충족시키기 위해 마스터 프로그램을 개발했습니다.사설 신병교육대는 데이터 인큐베이터와 같은 무료 프로그램이나 General Assembly와 같은 유료 프로그램을 포함하여 이러한 수요를 충족시키기 위한 프로그램도 개발했습니다.[93]마케팅의 특정 분야에서 Wedel과 Kannan이[94] 강조하는 문제 중 하나는 마케팅이 모두 다른 유형의 데이터를 사용하는 여러 하위 영역(예: 광고, 프로모션, 제품 개발, 브랜딩)을 가지고 있다는 것입니다.

미디어

미디어가 빅 데이터를 어떻게 사용하는지 이해하려면 먼저 미디어 프로세스에 사용되는 메커니즘에 일부 컨텍스트를 제공해야 합니다.Nick Coury와 Joseph Turow는 미디어와 광고 분야의 종사자들이 빅 데이터를 수백만 명의 개인에 대한 실행 가능한 정보의 많은 지점으로 접근해야 한다고 제안했습니다.업계는 신문, 잡지 또는 텔레비전 쇼와 같은 특정 미디어 환경을 사용하는 전통적인 접근 방식에서 벗어나 최적의 장소에서 최적의 시간에 목표한 사람들에게 도달하는 기술로 소비자들을 공략하고 있는 것으로 보입니다.궁극적인 목적은 (통계적으로) 소비자의 사고방식과 일치하는 메시지나 내용을 제공하거나 전달하는 것입니다.예를 들어, 출판 환경은 다양한 데이터 마이닝 활동을 통해 독점적으로 수집된 소비자의 관심을 끌기 위해 메시지(광고)와 콘텐츠(기사)를 점점 더 맞춤화하고 있습니다.[95]

  • 소비자 대상(마케터 광고용)[96]
  • 자료포착
  • 데이터 저널리즘: 출판사와 언론인들은 빅 데이터 도구를 사용하여 독특하고 혁신적인 통찰력과 인포그래픽을 제공합니다.

영국의 공영 텔레비전 방송인 채널 4는 빅 데이터와 데이터 분석 분야의 선두 주자입니다.[97]

보험.

건강보험 제공자들은 고객들의 건강 문제를 발견하기 위해 음식과 TV 소비, 결혼 상태, 옷 사이즈, 그리고 건강 비용을 예측하는 구매 습관과 같은 사회적 "건강의 결정 요인"에 대한 데이터를 수집하고 있습니다.이러한 예측이 현재 가격 책정에 활용되고 있는지는 논란의 여지가.[98]

사물인터넷

빅 데이터와 사물인터넷은 함께 작동합니다.IoT 장치에서 추출된 데이터는 장치 상호 연결 매핑을 제공합니다.미디어 업계, 기업 및 정부는 이러한 매핑을 사용하여 사용자를 보다 정확하게 타겟팅하고 미디어 효율성을 높였습니다.IoT는 감각 데이터를 수집하는 수단으로도 점점 더 채택되고 있으며, 이러한 감각 데이터는 의료,[99] 제조[100] 및 운송[101] 환경에서 사용되어 왔습니다.

이 용어를 만든 것으로 인정받는 디지털 혁신 전문가인 Kevin Ashton은 이 인용문에서 사물 인터넷을 정의합니다.[102] "만약 컴퓨터가 사물에 대해 모든 것을 알고 있다면 – 컴퓨터가 아무런 도움 없이 수집한 데이터를 사용한다면 – 모든 것을 추적하고 셀 수 있을 것이고, 낭비, 손실 및 비용을 크게 줄일 수 있을 것입니다.교체, 수리, 회수가 필요한 시기와 새것인지, 아니면 최상의 상태를 지났는지를 알 수 있습니다."

정보기술

특히 2015년 이후 빅데이터는 직원들이 보다 효율적으로 업무를 수행하고 정보기술(IT)의 수집과 배포를 효율화할 수 있는 도구로 비즈니스 운영 내에서 두각을 나타내고 있습니다.기업 내에서 IT 및 데이터 수집 문제를 해결하기 위해 빅 데이터를 사용하는 것을 ITOA(IT Operations Analytics)라고 합니다.[103]IT 부서는 빅 데이터 원칙을 머신 인텔리전스 및 딥 컴퓨팅 개념에 적용하여 잠재적인 문제를 예측하고 이를 방지할 수 있습니다.[103]ITOA 기업은 데이터 사일로를 하나로 통합하고 데이터의 분리된 주머니가 아닌 시스템 전체에서 통찰력을 창출하는 시스템 관리 플랫폼을 제공합니다.

측량학

빅데이터는 설문조사 기반 데이터 수집에 비해 데이터 포인트당 비용이 저렴하고 머신러닝데이터 마이닝을 통한 분석 기법을 적용하며 레지스터, 소셜 미디어, 앱 및 기타 형태의 디지털 데이터와 같은 다양하고 새로운 데이터 소스를 포함합니다.2018년부터 설문조사 과학자들은 빅데이터와 설문조사 과학이 어떻게 상호 보완할 수 있는지 조사하여 연구자와 실무자들이 통계의 생산과 품질을 향상시킬 수 있도록 하기 시작했습니다.현재까지 2018년, 2020년, 2023년 세 차례 빅데이터 미츠 서베이 사이언스(BigSurv) 콘퍼런스,[104] 사회과학 컴퓨터 리뷰 특별호,[105] 영국왕립통계학회지 특별호,[106] EPJ 데이터 사이언스 특별호,[107]데이터가 사회과학[108] 만나다라는 책을 미국통계학회 펠로우 6명이 편집했습니다.2021년, 빅서브의 창립 멤버들은 미국 여론 조사 협회로부터 워렌 J. 미토프스키 혁신가 상을 받았습니다.[109]

사례연구

정부

중국

  • 정부는 통합공동운영플랫폼(IJOP, 一体化联合作战平台)을 통해 위구르족을 비롯한 주민들을 감시하고 있습니다.DNA 샘플을 포함한 생체 인식은 자유로운 물리학 프로그램을 통해 수집됩니다.[111]
  • 2020년까지 중국은 모든 국민에게 행동 방식에 따라 개인적인 "사회적 신용" 점수를 부여할 계획입니다.[112]현재 중국의 여러 도시에서 시범 운영되고 있는 사회 신용 시스템은 빅 데이터 분석 기술을 사용하는 대량 감시의 한 형태로 여겨집니다.[113][114]

인디아

  • BJP가 2014년 인도 총선에서 승리하기 위해 빅데이터 분석을 시도했습니다.[115]
  • 인도 정부는 인도 유권자들이 정부의 조치에 어떻게 대응하고 있는지를 확인하기 위해 다양한 방법을 사용하고 있으며, 정책 확대를 위한 아이디어도 제공하고 있습니다.

이스라엘

  • 글루코미의 빅데이터 솔루션을 통해 맞춤형 당뇨 치료제를 개발할 수 있습니다.[116]

영국

공공 서비스에서 빅 데이터를 사용하는 예:

  • 처방약에 대한 데이터: 각 처방전의 출처, 위치 및 시간을 연결함으로써 연구단위는 주어진 약의 출시와 영국 전역에 걸친 국립보건의료원 가이드라인의 적응 사이에 상당한 지연이 있음을 예시하고 검토할 수 있었습니다.이는 새로운 또는 대부분의 최신 약물이 일반 환자를 걸러내는 데 시간이 다소 걸린다는 것을 의미합니다.[citation needed][117]
  • 데이터 결합: 지역 당국은 도로 위의 회전식과 같은 서비스에 대한 데이터를 위험에 처한 사람들을 위한 서비스와 혼합했습니다.데이터를 연결함으로써 지역 당국은 날씨와 관련된 지연을 피할 수 있었습니다.[118]

미국

  • 2012년 오바마 행정부는 빅 데이터가 정부가 직면한 중요한 문제를 해결하는 데 어떻게 사용될 수 있는지 탐구하기 위해 빅 데이터 연구 개발 이니셔티브를 발표했습니다.[119]이 이니셔티브는 6개 부서에 걸쳐 있는 84개의 다양한 빅 데이터 프로그램으로 구성되어 있습니다.[120]
  • 2012년 버락 오바마의 성공적인 재선 캠페인에는 빅 데이터 분석이 큰 역할을 했습니다.[121]
  • 미국 연방정부는 세계에서 가장 강력한 슈퍼컴퓨터 10대 중 5대를 소유하고 있습니다.[122][123]
  • 유타 데이터 센터는 미국 국가안보국에 의해 건설되었습니다.이 시설이 완공되면 NSA가 인터넷을 통해 수집한 많은 양의 정보를 처리할 수 있게 됩니다.스토리지 공간의 정확한 양은 알려지지 않았지만, 최근에는 몇 엑사바이트 정도가 될 것이라고 주장하는 소식통도 있습니다.[124][125][126]이로 인해 수집된 데이터의 익명성에 대한 보안 문제가 제기되었습니다.[127]

소매

  • Walmart는 매 시간 100만 건 이상의 고객 트랜잭션을 처리하고 있으며, 이 트랜잭션은 2.5 페타바이트(2560테라바이트) 이상의 데이터를 포함하는 것으로 추정되며, 이는 미국 의회 도서관에 있는 모든 도서에 포함된 정보의 167배에 해당합니다.[7]
  • Windermere Real Estate는 거의 1억 명에 달하는 운전자들의 위치 정보를 이용하여 신규 주택 구매자들이 하루 중 다양한 시간대에 출퇴근하는 일반적인 운전 시간을 파악할 수 있도록 도와줍니다.[128]
  • FICO 카드 탐지 시스템은 전세계 계정을 보호합니다.[129]

과학

  • Large Hadron Collider 실험은 초당 4천만 번의 데이터를 전달하는 약 1억 5천만 개의 센서를 나타냅니다.초당 거의 6억 건의 충돌이 발생합니다.99.99995%[130] 이상의 스트림을 기록하지 않고 필터링한 후에는 초당 1,000건의 관심 충돌이 발생합니다.[131][132][133]
    • 결과적으로, 센서 스트림 데이터의 0.001% 미만에서만 작동하는 네 가지 LHC 실험의 데이터 흐름은 복제 전 연간 25 페타바이트 속도를 나타냅니다(2012년 기준).복제 후에는 거의 200 페타바이트가 됩니다.
    • 모든 센서 데이터가 LHC에 기록되어 있다면 데이터 흐름은 작업하기 매우 어려울 것입니다.데이터 흐름은 복제 전에 연간 1억 5천만 페타바이트 또는 하루에 거의 500엑사바이트 이상의 속도를 낼 것입니다.이 숫자를 원근법으로 표현하자면, 이는 하루에 500 5조(5×1020) 바이트에 해당하며, 이는 전 세계의 모든 다른 소스를 합친 것보다 거의 200배나 많은 양입니다.
  • Square Kmre Array는 수천 개의 안테나로 만들어진 전파망원경입니다.그것은 2024년에 가동될 것으로 예상됩니다.이 안테나들은 총 14엑사바이트가 모여 하루에 1페타바이트를 저장할 것으로 예상됩니다.[134][135]그것은 지금까지 수행된 가장 야심찬 과학 프로젝트 중 하나로 여겨집니다.[136]
  • 2000년 Sloan Digital Sky Survey(SDSS)가 천문학 데이터를 수집하기 시작했을 때, 그것은 천문학 역사상 이전에 수집된 모든 데이터보다 처음 몇 주 동안 더 많이 모였습니다.하룻밤에 약 200GB의 속도로 계속해서 SDSS는 140테라바이트 이상의 정보를 축적해 왔습니다.[7]SDSS의 후속 제품인 Large Synoptic Survey Telescope이 2020년에 온라인으로 출시되면 설계자들은 5일마다 그 정도의 데이터를 획득할 것으로 예상하고 있습니다.[7]
  • 인간 게놈을 해독하는 데는 원래 10년이 걸렸지만, 이제는 하루도 안 되어 달성할 수 있습니다.DNA 염기서열 분석자들은 지난 10년간 염기서열 분석 비용을 만으로 나눴는데, 무어의 법칙에 의해 예측된 비용 감소보다 100배나 저렴합니다.[137]
  • NASA 기후 시뮬레이션 센터(NCCS)는 Discover 슈퍼컴퓨팅 클러스터에 32페타바이트의 기후 관측 및 시뮬레이션을 저장하고 있습니다.[138][139]
  • 구글의 DNA스택은 질병과 기타 의학적 결함을 식별하기 위해 전 세계 유전자 데이터의 DNA 샘플을 컴파일하고 정리합니다.이러한 빠르고 정확한 계산은 DNA와 함께 일하는 수많은 과학 및 생물학 전문가들 중 한 명에 의해 이루어질 수 있는 마찰점 또는 인간의 실수를 제거합니다. 구글 게놈의 한 부분인 DNA스택은 과학자들이 구글의 검색 서버로부터 얻은 방대한 자원 샘플을 보통 시간이 걸리는 사회적 실험의 규모를 조정하는 데 사용할 수 있게 해줍니다.ars,[140][141] 즉시.
  • 23andmeDNA 데이터베이스에는 전세계 100만명이 넘는 사람들의 유전자 정보가 담겨있습니다.[142]이 회사는 "익명의 집계 유전자 데이터"를 환자가 동의할 경우 연구 목적으로 다른 연구원과 제약사에 판매하는 방안을 모색하고 있습니다.[143][144][145][146][147]2009년부터 자신의 연구에 23andMe를 사용하고 있는 듀크 대학교의 심리학 및 신경과학 교수인 아흐마드 하리리는 이 회사의 새로운 서비스의 가장 중요한 측면은 유전자 연구를 과학자들이 접근할 수 있게 하고 상대적으로 저렴한 가격에 제공한다는 것이라고 말합니다.[143]23과 Me의 데이터베이스에서 우울증과 관련된 15개의 게놈 사이트를 확인한 연구로 인해 23과 Me가 논문 발표 후 2주 동안 우울증 데이터에 대한 액세스 요청을 거의 20개 제출하면서 저장소에 대한 액세스 요구가 급증했습니다.[148]
  • 전산 유체 역학(CFD)과 유체 역학적 난류 연구는 방대한 데이터 세트를 생성합니다.존스 홉킨스 난류 데이터베이스(JHTB)에는 다양한 난류 흐름의 직접 수치 시뮬레이션에서 350테라바이트 이상의 시공간 필드가 포함되어 있습니다.이러한 데이터는 플랫 시뮬레이션 출력 파일 다운로드와 같은 기존의 방법으로는 공유하기 어려웠습니다.JHTB 내의 데이터는 직접 웹 브라우저 쿼리, 고객의 플랫폼에서 실행되는 매트랩, 파이썬, 포트란, C 프로그램을 통한 액세스, 원시 데이터 다운로드 서비스 차단 등 다양한 액세스 모드를 가진 "가상 센서"를 사용하여 액세스할 수 있습니다.이 데이터는 150개가 넘는 과학 출판물에 사용되었습니다.

스포츠

빅 데이터는 스포츠 센서를 사용하여 선수들을 훈련하고 이해하는 데 사용될 수 있습니다.빅데이터 분석을 이용해 승부를 예측하는 것도 가능합니다.[149]선수들의 향후 활약도 예측할 수 있었습니다.따라서 선수들의 가치와 연봉은 시즌 내내 수집된 데이터에 따라 결정됩니다.[150]

포뮬러 원 경주에서 수백 개의 센서를 장착한 경주용 자동차는 테라바이트의 데이터를 생성합니다.이 센서는 타이어 공기압에서 연료 연소 효율까지의 데이터 포인트를 수집합니다.[151]데이터를 기반으로 엔지니어와 데이터 분석가는 경주에서 이기기 위해 조정해야 하는지 여부를 결정합니다.게다가, 빅 데이터를 이용하여, 경주 팀들은 그 시즌 동안 수집된 데이터를 이용한 시뮬레이션에 근거하여, 그들이 경주를 마칠 시간을 미리 예측하려고 노력합니다.[152]

테크놀러지

  • eBay.com 에서는 7.5 페타바이트 및 40PB의 두 데이터 웨어하우스40PB의 하둡 클러스터를 사용하여 검색, 소비자 권장 사항 및 상품화를 수행합니다.
  • Amazon.com 은 매일 수백만 건의 백엔드 작업과 50만 건 이상의 타사 판매자의 쿼리를 처리합니다.Amazon을 지속적으로 운영하는 핵심 기술은 Linux 기반이며, 2005년 현재 7.8TB, 18.5TB, 24.7TB의 용량으로 세계 3대 Linux 데이터베이스를 보유하고 있습니다.[154]
  • 페이스북은 사용자 기반에서 500억 장의 사진을 처리합니다.[155]2017년 6월 기준 페이스북의 월간 활성 사용자 수는 20억 명에 달합니다.[156]
  • 구글은 2012년 8월 기준으로 매달 약 1,000억 건의 검색을 처리하고 있습니다.[157]

코로나19

코로나19 팬데믹 기간 동안 빅데이터는 질병의 영향을 최소화하기 위한 방법으로 제기되었습니다.빅 데이터의 중요한 응용 분야에는 바이러스 확산 최소화, 사례 파악 및 의료 치료 개발이 포함되었습니다.[158]

정부는 빅 데이터를 이용하여 감염자를 추적하여 확산을 최소화했습니다.중국, 대만, 한국, 그리고 이스라엘이 얼리 어답터에 포함되었습니다.[159][160][161]

연구활동

빅데이터에서 암호화된 검색 및 클러스터 형성은 2014년 3월 미국 공학교육학회에서 시연되었습니다.Gautam Siwach는 MIT Computer Science and Artificial Intelligence Laboratory의 빅 데이터의 과제 해결에 참여했고 UNH 연구 그룹의 Amir Esmailpour는 클러스터의 형성과 상호 연결로서 빅 데이터의 주요 특징을 조사했습니다.이들은 기술 내에서 원시 정의와 실시간 예제를 제공함으로써 클라우드 인터페이스에서 암호화된 형태로 다양한 유형의 데이터를 제공하는 데 빅데이터의 보안과 용어의 방향성에 초점을 맞췄습니다.또한, 그들은 빅 데이터의 보안 향상을 유도하는 암호화된 텍스트에 대한 신속한 검색을 위해 인코딩 기술을 식별하는 접근 방식을 제안했습니다.[162]

2012년 3월, 백악관은 빅 데이터 연구 프로젝트에 2억 달러 이상을 투자하는 6개 연방 부서 및 기관으로 구성된 국가적 "빅 데이터 이니셔티브"를 발표했습니다.[163]

이 계획에는 캘리포니아 대학교 버클리 캠퍼스의 AMPLab에[164] 5년간 1,000만 달러의 국립 과학 재단 "Expeditions in Computing" 보조금이 포함되었습니다.[165]AMPLab은 또한 DARPA와 12개 이상의 산업 후원사로부터 자금을 지원받았으며 빅 데이터를 사용하여 교통 체증[166] 예측부터 암 퇴치까지 광범위한 문제를 해결하고 있습니다.[167]

백악관 빅 데이터 이니셔티브에는 에너지부의 로렌스 버클리 국립 연구소가 [168]주도하는 확장 가능한 데이터 관리, 분석 및 시각화(SDAV) 연구소를 설립하기 위해 5년간 2,500만 달러의 자금을 지원하겠다는 에너지부의 약속도 포함되어 있습니다.SDAV 연구소는 6개의 국립 연구소와 7개의 대학의 전문 지식을 한데 모아 과학자들이 학과 슈퍼컴퓨터의 데이터를 관리하고 시각화하는 데 도움이 되는 새로운 도구를 개발하는 것을 목표로 하고 있습니다.

미국 매사추세츠 주는 2012년 5월 주 정부와 민간 기업으로부터 다양한 연구 기관에 자금을 지원하는 매사추세츠 빅 데이터 이니셔티브를 발표했습니다.[169]MIT 컴퓨터 과학 인공지능 연구소는 MIT 컴퓨터 과학 및 인공지능 연구소에 인텔 과학 및 기술 센터(Intel Science and Technology Center for Big Data)를 설립하여 정부, 기업 및 기관의 자금 지원과 연구 활동을 결합하고 있습니다.[170]

유럽연합 집행위원회는 기업, 학계 및 기타 이해관계자들이 빅데이터 문제를 논의할 수 있도록 7차 기본 프로그램을 통해 2년간의 빅데이터 공공 민간 포럼에 자금을 지원하고 있습니다.이 프로젝트는 빅 데이터 경제의 성공적인 구현을 위해 유럽연합 집행위원회의 지원 조치를 안내하는 연구 및 혁신 측면에서 전략을 정의하는 것을 목표로 합니다.이 프로젝트의 결과물은 다음 프레임워크 프로그램인 Horizon 2020의 입력 자료로 사용될 예정입니다.[171]

영국 정부는 2014년 3월에 컴퓨터의 선구자이자 암호 해독자의 이름을 딴 앨런 튜링 연구소의 설립을 발표했는데, 이 기관은 대용량 데이터 세트를 수집하고 분석하는 새로운 방법에 초점을 맞출 것입니다.[172]

Waterloo 대학 Stratford Campus Canadian Open Data Experience(CODE) Inspiration Day에서 참가자들은 데이터 시각화를 사용하여 빅 데이터 세트에 대한 이해와 매력을 높이고 자신의 이야기를 세상에 전달할 수 있는 방법을 시연했습니다.[173]

컴퓨터 사회 과학 – 누구나 Google, Twitter 등 빅데이터 보유자가 제공하는 응용 프로그래밍 인터페이스(API)를 사용하여 사회 및 행동 과학 연구를 수행할 수 있습니다.[174]종종 이러한 API는 무료로 제공됩니다.[174]토바이어스 프레이스 외.구글 트렌드 데이터를 사용하여 1인당 국내총생산(GDP)이 높은 국가의 인터넷 사용자들이 과거에 대한 정보보다 미래에 대한 정보를 더 많이 검색할 가능성이 있음을 증명했습니다.이 연구 결과는 온라인 행동과 실제 경제 지표 사이에 연관성이 있을 수 있음을 시사합니다.[175][176][177]이 연구의 저자들은 구글 쿼리 로그를 전년도(2009년)의 검색량 대비 다음 연도(2011년)의 검색량 비율로 조사하였는데, 이를 "미래지향성 지수"라고 합니다.[178]그들은 미래지향성 지수를 각 국가의 1인당 GDP와 비교했고, 구글 사용자들이 미래에 대해 더 많이 문의하는 국가들이 더 높은 GDP를 갖는 경향이 강하다는 것을 발견했습니다.

토비아스 프레이스와 그의 동료 헬렌 수잔나 모트와 H. 유진스탠리는 구글트렌드가 제공하는 검색량 데이터를 기반으로 거래 전략을 활용해 주식시장 움직임에 대한 온라인 전조를 파악하는 방법을 소개했습니다.[179]Scientific Reports에 게재된 98개의 다양한 재무 관련 용어에 대한 Google 검색량 분석 결과,[180] 재무 관련 검색어에 대한 검색량 증가는 금융 시장에서 큰 손실을 초래하는 경향이 있음을 시사합니다.[181][182][183][184][185][186][187]

빅 데이터 세트에는 이전에는 존재하지 않았던 알고리즘적인 문제가 뒤따릅니다.따라서 일부에서는 처리 방식을 근본적으로 변경할 필요가 있다고 보고 있습니다.[188]

MMDS(Modern Massive Data Set)를 위한 알고리즘 워크숍은 컴퓨터 과학자, 통계학자, 수학자 및 데이터 분석 전문가를 한자리에 모아 빅데이터의 알고리즘 과제를 논의합니다.[189]빅 데이터와 관련해서는 그러한 규모 개념이 상대적입니다."과거가 지침이 된다면, 오늘날의 빅 데이터는 가까운 미래에는 그러한 것으로 간주되지 않을 가능성이 높습니다."[88]라고 명시되어 있습니다.

빅데이터 샘플링

빅 데이터 집합에 대해 질문하는 연구 질문은 데이터의 특성에 대한 특정 결론을 도출하기 위해 전체 데이터를 살펴볼 필요가 있는지, 아니면 표본이 충분한지 여부입니다.빅데이터라는 이름 자체가 크기와 관련된 용어를 포함하고 있고 이것이 빅데이터의 중요한 특징입니다.그러나 표본 추출을 사용하면 전체 모집단의 특성을 추정하기 위해 더 큰 데이터 집합 내에서 올바른 데이터 점을 선택할 수 있습니다.음향, 진동, 압력, 전류, 전압 및 컨트롤러 데이터와 같은 다양한 유형의 감각 데이터를 제조할 때 짧은 시간 간격으로 사용할 수 있습니다.다운타임을 예측하기 위해서는 모든 데이터를 볼 필요는 없지만 샘플은 충분할 수 있습니다.빅데이터는 인구통계학적, 심리학적, 행동적, 거래적 데이터 등 다양한 데이터 포인트 카테고리별로 분류할 수 있습니다.대규모 데이터 포인트 세트를 통해 마케팅 담당자는 보다 전략적인 타겟팅을 위해 보다 맞춤화된 소비자 세그먼트를 생성하고 사용할 수 있습니다.

빅 데이터를 위한 샘플링 알고리즘에 몇 가지 작업이 이루어졌습니다.트위터 데이터를 샘플링하기 위한 이론적 공식이 개발되었습니다.[190]

비평

빅 데이터 패러다임에 대한 비판은 두 가지 맛으로 나타납니다. 접근 방식 자체의 의미에 의문을 제기하는 것과 현재 수행되는 방식에 의문을 제기하는 것입니다.[191]이러한 비판에 대한 한 가지 접근 방식은 중요한 데이터 연구 분야입니다.

빅 데이터 패러다임에 대한 비판

"중요한 문제는 빅 데이터의 전형적인 네트워크 특성이 나타나는 근본적인 경험적 미세 프로세스에 대해 잘 모른다는 것입니다."[24]그들의 비평에서, 스나이더스, 매자트, 립스는 미시적 과정 수준에서 실제로 일어나고 있는 것을 전혀 반영하지 못할 수 있는 수학적 특성에 대해 종종 매우 강력한 가정이 이루어진다고 지적합니다.마크 그레이엄(Mark Graham)은 빅 데이터가 이론의 종말을 초래할 것이라는 크리스 앤더슨(Chris Anderson)의 주장에 대해 광범위한 비판을 제기했습니다.[192] 특히 빅 데이터는 항상 사회적, 경제적, 정치적 맥락에서 맥락화되어야 한다는 개념에 초점을 맞추고 있습니다.[193]기업들이 공급업체와 고객의 정보 스트리밍을 통해 통찰력을 얻기 위해 8자리수와 9자리수의 합계를 투자하더라도 40% 미만의 직원들이 이를 충분히 성숙한 프로세스와 기술을 보유하고 있습니다.하버드 비즈니스 리뷰의 기사에 따르면, 이러한 통찰력 부족을 극복하기 위해서는 아무리 포괄적이거나 잘 분석하더라도 빅 데이터를 "빅 판단"으로 보완해야 합니다.[194]

같은 맥락에서 빅데이터 분석에 따른 결정은 필연적으로 "과거처럼, 기껏해야 현재처럼 세계에 의해 알려질 수밖에 없다"는 지적이 있습니다.[66]과거 경험에 대한 많은 데이터를 통해 미래가 과거와 비슷하다면 알고리즘은 미래의 발전을 예측할 수 있습니다.[195]시스템의 미래 역학이 변한다면(정지된 과정이 아니라면), 과거는 미래에 대해 거의 말할 수 없습니다.변화하는 환경에서 예측을 하기 위해서는 동적인 시스템에 대한 철저한 이해가 필요하며, 이를 위해서는 이론이 필요합니다.[195]Alemany Oliver와 Vayre는 이러한 비판에 대한 응답으로 "소비자의 디지털 흔적에 맥락을 가져오고 새로운 이론이 나타나도록 하기 위해 연구 과정의 첫 단계로 추상적 추론을 사용할 것"을 제안합니다.[196]또한 에이전트 기반 모델[66], 복잡한 시스템 등 컴퓨터 시뮬레이션에 빅데이터 기법을 접목하는 방안이 제안된 바 있습니다.에이전트 기반 모델은 상호 의존적인 알고리즘을 기반으로 하는 컴퓨터 시뮬레이션을 통해 알려지지 않은 미래 시나리오의 사회적 복잡성의 결과를 예측하는 데 점점 더 나아지고 있습니다.[197][198]마지막으로, 요인 분석군집 분석과 같이 데이터의 잠재 구조를 조사하는 다변량 방법을 사용하는 것은 더 작은 데이터 집합에 일반적으로 사용되는 이변량 접근법(예: 우발도표)을 훨씬 뛰어넘는 분석적 접근법으로 유용한 것으로 입증되었습니다.

건강과 생물학에서, 전통적인 과학적 접근법은 실험에 기초합니다.이러한 접근법의 경우 제한 요인은 초기 가설을 확인하거나 반박할 수 있는 관련 데이터입니다.[199]새로운 가설은 현재 생명과학에서 받아들여지고 있습니다. 사전 가설 없이 대량의 데이터(오믹스)가 제공하는 정보는 보완적이며 때로는 실험에 기초한 기존의 접근 방식에 필요합니다.[200][201]대규모 접근 방식에서는 한계 요인인 데이터를 설명하는 관련 가설을 공식화하는 것입니다.[202]탐색 논리가 뒤바뀌어 귀납의 한계("Glory of Science and Philosophy scan", C. D. Broad, 1926)가 고려됩니다.[citation needed]

프라이버시 옹호자들은 개인 식별 정보의 저장과 통합을 증가시키는 것으로 대표되는 프라이버시에 대한 위협에 대해 우려하고 있습니다. 전문가 패널들은 프라이버시에 대한 기대에 부합하기 위해 다양한 정책 권고안을 발표했습니다.[203]언론과 기업, 심지어 정부까지 빅데이터를 오용하면서 사회를 지탱하는 거의 모든 근본적인 기관에 대한 신뢰가 폐지되는 것을 허용했습니다.[204]

바로카스와 니센바움은 개인 사용자를 보호하는 한 가지 방법은 수집되는 정보의 유형과 정보가 누구와 공유되는지, 어떤 제약 조건 하에서 어떤 목적으로 공유되는지에 대한 정보를 받는 것이라고 주장합니다.[205]

V 모델의 비평

빅 데이터의 "V" 모델은 계산 확장성을 중심으로 하고 정보의 인식 및 이해 가능성에 대한 손실이 없기 때문에 우려됩니다.이것은 빅데이터 애플리케이션을 다음과 같이 특성화하는 인지 빅데이터의 프레임워크로 이어졌습니다.[206]

  • 데이터 완전성: 데이터에서 불확도에 대한 이해
  • 데이터 상관 관계, 원인 및 예측 가능성: 예측 가능성을 달성하기 위한 필수 요건이 아닌 인과성
  • 설명 가능성 및 해석 가능성: 알고리즘이 이에 대처하지 못하는 경우, 인간은 자신이 이해한 것을 이해하고 수용하기를 원합니다.
  • 자동화된 의사결정 수준: 자동화된 의사결정과 알고리즘 자체 학습을 지원하는 알고리즘

참신성비평

한 세기가 훨씬 넘는 기간 동안 컴퓨팅 머신에서 대규모 데이터 세트를 분석해 왔습니다. 여기에는 IBM의 펀치 카드 머신에서 수행한 미국 센서스 분석이 포함되어 있으며, 이는 대륙 전체의 모집단 평균과 분산을 포함한 통계를 계산한 것입니다.최근 수십 년 동안 CERN과 같은 과학 실험은 현재의 상업적인 "빅 데이터"와 비슷한 규모의 데이터를 생산했습니다.그러나 과학 실험은 현재의 상업적 물결처럼 값싼 상용 컴퓨터의 클라우드가 아닌 특수 맞춤형 고성능 컴퓨팅(슈퍼 컴퓨팅) 클러스터와 그리드를 사용하여 데이터를 분석하는 경향이 있으며, 이는 문화와 기술 스택 모두의 차이를 의미합니다.

빅 데이터 실행에 대한 비판

Ulf-Dietrich Reips와 Uwe Matzat는 2014년에 빅 데이터가 과학 연구에서 "유행"이 되었다고 썼습니다.[174]다나 보이드 연구원은 거대한 양의 데이터를 처리하는 것에 너무 신경을 써서 대표 샘플을 선택하는 것과 같은 원칙을 무시한 채 과학에 빅데이터를 사용하는 것에 대한 우려를 제기했습니다.[207]이러한 접근 방식은 어떤 식으로든 편향을 가지는 결과를 초래할 수 있습니다.[208]빅 데이터로 간주될 수도 있고 그렇지 않은 데이터 리소스 간의 통합은 물류 및 분석에 엄청난 어려움을 초래하지만, 많은 연구자들은 이러한 통합이 과학 분야에서 가장 유망한 새로운 분야를 대표할 가능성이 높다고 주장합니다.[209]저자들은 자극적인 기사 "빅 데이터를 위한 중요한 질문"에서 빅 데이터를 신화의 일부라고 칭합니다.[210] "대규모 데이터 세트는 진실, 객관성, 정확성의 아우라와 함께 더 높은 형태의 지능과 지식 [...]을 제공합니다."빅데이터 사용자들은 종종 "순수한 숫자에 길을 잃는다"며 "빅데이터와 함께 일하는 것은 여전히 주관적이며, 빅데이터가 수치화하는 것이 반드시 객관적 진실에 더 가까운 주장을 가질 필요는 없다"고 말합니다.[210]사전 예방적 보고와 같은 BI 영역의 최근 발전은 특히 유용하지 않은 데이터와 상관 관계의 자동 필터링을 통해 빅 데이터의 사용성을 개선하는 것을 목표로 합니다.[211]큰 구조는 비인과적 우연 때문에(정말로 수의 법칙), 큰 무작위성의[213] 본질 때문에(램지 이론), 또는 초기 실험자들이 큰 수의 데이터베이스를 "그들 자신을 대변하는" 것으로 만들고 과학적 방법을 혁신하기를 바라는 비인접적 요소들 때문에 거짓 상관관계들로[212] 가득 차 있습니다.의문이 제기됩니다.[214]캐서린 터커(Catherine Tucker)는 빅데이터에 대한 "하이프(hyp)"를 지적하며 "그 자체로는 빅데이터가 가치가 없을 것 같다"고 썼습니다.기사는 다음과 같이 설명합니다. "데이터를 처리하기 위한 인재를 보유하는 비용에 비해 데이터가 저렴한 여러 맥락에서 기업의 가치 창출에 있어 데이터 자체보다 처리 기술이 더 중요하다는 것을 시사합니다."[215]

빅 데이터 분석은 종종 소규모 데이터 집합 분석에 비해 얕은 편입니다.[216]많은 빅 데이터 프로젝트에서는 대규모 데이터 분석이 이루어지지 않지만, 과제는 데이터 사전 처리의 추출, 변환, 로드 부분입니다.[216]

빅데이터는 유행어이자 '막연한 용어'이지만,[217][218] 동시에 기업가, 컨설턴트, 과학자, 언론과의 '집착'[218]이기도 합니다.구글 독감 트렌드와 같은 빅 데이터 쇼케이스는 최근 몇 년간 예측을 잘 하지 못했고, 독감 발생을 2배로 과대 계상했습니다.마찬가지로, 아카데미 시상식과 트위터만을 기반으로 한 선거 예측은 목표보다 빗나간 경우가 더 많았습니다.빅 데이터는 종종 작은 데이터와 같은 문제를 제기합니다. 더 많은 데이터를 추가한다고 해서 편향 문제가 해결되는 것은 아니지만 다른 문제가 강조될 수도 있습니다.특히 Twitter와 같은 데이터 소스는 전체 모집단을 대표하지 않으며, 그러한 소스에서 도출된 결과는 잘못된 결론으로 이어질 수 있습니다.텍스트에 대한 빅 데이터 통계 분석을 기반으로 하는 Google Translate는 웹 페이지를 잘 번역합니다.그러나 특정 도메인의 결과는 극적으로 왜곡될 수 있습니다.반면에 빅 데이터는 다중 비교 문제와 같은 새로운 문제를 야기할 수도 있습니다. 동시에 많은 가설 집합을 검정하면 실수로 중요하게 보이는 잘못된 결과가 많이 나올 수 있습니다.Ioannidis는 "대부분의 발표된 연구 결과는 [219]거짓"이라고 주장했는데, 이는 본질적으로 동일한 효과 때문입니다. 많은 과학 팀과 연구원들이 각각 많은 실험을 수행할 때 (즉, 빅 데이터 기술은 아니지만), "중요한" 결과가 거짓일 가능성이 빠르게 증가합니다.긍정적인 결과만 발표될 때.게다가 빅 데이터 분석 결과는 그들이 전제로 하는 모델만큼만 우수합니다.한 예로, 빅 데이터는 2016년 미국 대통령 선거의[220] 결과를 예측하는 데 참여했고 성공의 정도는 다양했습니다.

빅데이터 폴리싱 및 감시에 대한 비판

빅 데이터는 법 집행 기관이나 기업과 같은 기관에서 치안 유지와 감시에 사용되어 왔습니다.[221]기존의 폴리싱 방법에 비해 데이터 기반 감시의 가시성이 떨어지기 때문에 빅데이터 폴리싱에 대한 반대가 발생할 가능성이 적습니다.Sarah Braine의 빅 데이터 보안 감시에 따르면 다음과 같습니다. 치안 유지 사례 [222]빅 데이터 치안 유지는 기존의 사회적 불평등을 세 가지 방식으로 재생산할 수 있습니다.

  • 수학적이고 따라서 편견이 없는 알고리즘의 정당성을 사용하여 사람들을 감시를 강화
  • 법 집행 추적의 대상이 되는 사람들의 범위와 수를 늘리고 형사 사법 시스템에서 기존의 인종 과잉 대표성을 악화시키는 것
  • 사회 구성원들이 디지털 흔적을 생성할 수 있는 기관과의 상호 작용을 포기하도록 장려하여 사회적 포용에 장애물을 생성합니다.

이러한 잠재적인 문제가 해결되거나 규제되지 않으면 빅 데이터 정책의 효과는 계속해서 사회 계층을 형성할 수 있습니다.빅데이터 정책을 양심적으로 사용하면 개인 수준의 편향이 제도적 편향이 되는 것을 막을 수 있다고 브레이인은 지적합니다.

참고 항목

참고문헌

  1. ^ Hilbert, Martin; López, Priscila (2011). "The World's Technological Capacity to Store, Communicate, and Compute Information". Science. 332 (6025): 60–65. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. S2CID 206531385. Archived from the original on 14 April 2016. Retrieved 13 April 2016.
  2. ^ Breur, Tom (July 2016). "Statistical Power Analysis and the contemporary "crisis" in social sciences". Journal of Marketing Analytics. London, England: Palgrave Macmillan. 4 (2–3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
  3. ^ Mahdavi-Damghani, Babak (2019). Data-Driven Models & Mathematical Finance: Apposition or Opposition? (DPhil thesis). Oxford, England: University of Oxford. p. 21. SSRN 3521933.
  4. ^ a b "The 5 V's of big data". Watson Health Perspectives. 17 September 2016. Archived from the original on 18 January 2021. Retrieved 20 January 2021.
  5. ^ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance*". Journal of Product Innovation Management. 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
  6. ^ boyd, dana; Crawford, Kate (21 September 2011). "Six Provocations for Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431. S2CID 148610111. Archived from the original on 28 February 2020. Retrieved 12 July 2019.
  7. ^ a b c d e f g "Data, data everywhere". The Economist. 25 February 2010. Archived from the original on 27 May 2018. Retrieved 9 December 2012.
  8. ^ "Community cleverness required". Nature. 455 (7209): 1. September 2008. Bibcode:2008Natur.455....1.. doi:10.1038/455001a. PMID 18769385.
  9. ^ Reichman OJ, Jones MB, Schildhauer MP (February 2011). "Challenges and opportunities of open data in ecology". Science. 331 (6018): 703–5. Bibcode:2011Sci...331..703R. doi:10.1126/science.1197962. PMID 21311007. S2CID 22686503. Archived from the original on 19 October 2020. Retrieved 12 July 2019.
  10. ^ Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog. Archived from the original on 7 October 2012. Retrieved 21 April 2010.
  11. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Archived from the original on 12 May 2016. Retrieved 31 December 2015.
  12. ^ a b Hilbert M, López P (April 2011). "The world's technological capacity to store, communicate, and compute information" (PDF). Science. 332 (6025): 60–5. Bibcode:2011Sci...332...60H. doi:10.1126/science.1200970. PMID 21310967. S2CID 206531385. Archived (PDF) from the original on 19 August 2019. Retrieved 11 May 2019.
  13. ^ "IBM What is big data? – Bringing big data to the enterprise". ibm.com. Archived from the original on 24 August 2013. Retrieved 26 August 2013.
  14. ^ Reinsel, David; Gantz, John; Rydning, John (13 April 2017). "Data Age 2025: The Evolution of Data to Life-Critical" (PDF). seagate.com. Framingham, MA, US: International Data Corporation. Archived (PDF) from the original on 8 December 2017. Retrieved 2 November 2017.
  15. ^ "Global Spending on Big Data and Analytics Solutions Will Reach $215.7 Billion in 2021, According to a New IDC Spending Guide". Archived from the original on 23 July 2022. Retrieved 31 July 2022.
  16. ^ "Big data and business analytics revenue 2022".
  17. ^ "Global big data industry market size 2011-2027".
  18. ^ a b c 빅 데이터: 혁신, 경쟁 생산성을 위한 다음 개척자 McKinsey Global Institute 2011년 5월
  19. ^ Oracle 및 FSN, "빅 데이터 마스터링: 통찰력을 기회로 전환하기 위한 CFO 전략" 2013년 8월 4일 Wayback Machine에서 아카이브, 2012년 12월
  20. ^ Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue. Archived from the original on 8 December 2015. Retrieved 21 April 2010.
  21. ^ Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11). Archived from the original on 2 November 2021. Retrieved 26 February 2021.
  22. ^ John R. Mashey (25 April 1998). "Big Data ... and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Archived (PDF) from the original on 12 October 2016. Retrieved 28 September 2016.
  23. ^ Steve Lohr (1 February 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Archived from the original on 6 March 2016. Retrieved 28 September 2016.
  24. ^ a b Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. Archived from the original on 23 November 2019. Retrieved 13 April 2013.
  25. ^ Dedić, N.; Stanier, C. (2017). "Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery". Innovations in Enterprise Information Systems Management and Engineering. Lecture Notes in Business Information Processing. Vol. 285. Berlin; Heidelberg: Springer International Publishing. pp. 114–122. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archived from the original on 27 November 2020. Retrieved 7 September 2019.
  26. ^ Everts, Sarah (2016). "Information Overload". Distillations. Vol. 2, no. 2. pp. 26–33. Archived from the original on 3 April 2019. Retrieved 22 March 2018.
  27. ^ Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "big data" on cloud computing: Review and open research issues". Information Systems. 47: 98–115. doi:10.1016/j.is.2014.07.006. S2CID 205488005.
  28. ^ Grimes, Seth. "Big Data: Avoid 'Wanna V' Confusion". InformationWeek. Archived from the original on 23 December 2015. Retrieved 5 January 2016.
  29. ^ Fox, Charles (25 March 2018). Data Science for Transport. Springer Textbooks in Earth Sciences, Geography and Environment. Springer. ISBN 9783319729527. Archived from the original on 1 April 2018. Retrieved 31 March 2018.
  30. ^ Kitchin, Rob; McArdle, Gavin (2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3: 1–10. doi:10.1177/2053951716631130. S2CID 55539845.
  31. ^ Balazka, Dominik; Rodighiero, Dario (2020). "Big Data and the Little Big Bang: An Epistemological (R)evolution". Frontiers in Big Data. 3: 31. doi:10.3389/fdata.2020.00031. hdl:1721.1/128865. PMC 7931920. PMID 33693404.
  32. ^ "avec focalisation sur Big Data & Analytique" (PDF). Bigdataparis.com. Archived from the original (PDF) on 25 February 2021. Retrieved 8 October 2017.
  33. ^ a b Billings S.A. "비선형 시스템 식별: 시간, 주파수 및 시공간 영역에서의 NARMAX 방법"와일리, 2013
  34. ^ "le Blog ANDSI » DSI Big Data". Andsi.fr. Archived from the original on 10 October 2017. Retrieved 8 October 2017.
  35. ^ Les Echos (3 April 2013). "Les Echos – Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant – Archives". Lesechos.fr. Archived from the original on 30 April 2014. Retrieved 8 October 2017.
  36. ^ Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS). pp. 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  37. ^ Kitchin, Rob; McArdle, Gavin (17 February 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  38. ^ Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  39. ^ 빅 데이터의 네 번째 V
  40. ^ "Measuring the Business Value of Big Data IBM Big Data & Analytics Hub". www.ibmbigdatahub.com. Archived from the original on 28 January 2021. Retrieved 20 January 2021.
  41. ^ Kitchin, Rob; McArdle, Gavin (5 January 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130. ISSN 2053-9517.
  42. ^ "Survey: Biggest Databases Approach 30 Terabytes". Eweek.com. 8 November 2003. Retrieved 8 October 2017.
  43. ^ "LexisNexis To Buy Seisint For $775 Million". The Washington Post. Archived from the original on 24 July 2008. Retrieved 15 July 2004.
  44. ^ "The Washington Post". The Washington Post. Archived from the original on 19 October 2016. Retrieved 24 August 2017.
  45. ^ 베르톨루치, 제프 하둡: 실험에서 선도적인 빅 데이터 플랫폼으로" 2020년 11월 23일 웨이백 머신에서 보관, "정보 주간", 2013.2013년 11월 14일 회수.
  46. ^ 웹스터, 존."맵 축소: 대규모 클러스터에서의 단순화된 데이터 처리" Wayback Machine, "Search Storage", 2004년 12월 14일 보관.2013년 3월 25일 회수.
  47. ^ "Big Data Solution Offering". MIKE2.0. Archived from the original on 16 March 2013. Retrieved 8 December 2013.
  48. ^ "Big Data Definition". MIKE2.0. Archived from the original on 25 September 2018. Retrieved 9 March 2013.
  49. ^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Distributed Parallel Architecture for Big Data". Informatica Economica. 16 (2): 116–127.
  50. ^ "Solving Key Business Challenges With a Big Data Lake" (PDF). Hcltech.com. August 2014. Archived (PDF) from the original on 3 July 2017. Retrieved 8 October 2017.
  51. ^ "Method for testing the fault tolerance of MapReduce frameworks" (PDF). Computer Networks. 2015. Archived (PDF) from the original on 22 July 2016. Retrieved 13 April 2016.
  52. ^ a b Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). "Big Data: The next frontier for innovation, competition, and productivity" (PDF). McKinsey Global Institute. Archived (PDF) from the original on 25 July 2021. Retrieved 22 May 2021. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
  53. ^ "Future Directions in Tensor-Based Computation and Modeling" (PDF). May 2009. Archived (PDF) from the original on 17 April 2018. Retrieved 4 January 2013.
  54. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. Bibcode:2011PatRe..44.1540L. doi:10.1016/j.patcog.2011.01.004. Archived (PDF) from the original on 10 July 2019. Retrieved 21 January 2013.
  55. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). "A Survey of the State of the Art in Data Mining and Integration Query Languages". 2011 14th International Conference on Network-Based Information Systems. IEEE Computer Society. pp. 341–348. arXiv:1603.01113. Bibcode:2016arXiv160301113P. doi:10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6. S2CID 9285984.
  56. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
  57. ^ L'Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). "Machine Learning With Big Data: Challenges and Approaches". IEEE Access. 5: 7776–7797. doi:10.1109/ACCESS.2017.2696365. ISSN 2169-3536.
  58. ^ Monash, Curt (30 April 2009). "eBay's two enormous data warehouses". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
    Monash, Curt (6 October 2010). "eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
  59. ^ "Resources on how Topological Data Analysis is used to analyze big data". Ayasdi. Archived from the original on 3 March 2013. Retrieved 5 March 2013.
  60. ^ CNET News (1 April 2011). "Storage area networks need not apply". Archived from the original on 18 October 2013. Retrieved 17 April 2013.
  61. ^ Hilbert, Martin (2014). "What is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?". The Information Society. 30 (2): 127–143. doi:10.1080/01972243.2013.873748. S2CID 45759014. Archived from the original on 24 June 2020. Retrieved 12 July 2019.
  62. ^ Rajpurohit, Anmol (11 July 2014). "Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools". KDnuggets. Archived from the original on 14 July 2014. Retrieved 14 July 2014. Generally, I find that off-the-shelf business intelligence tools do not meet the needs of clients who want to derive custom insights from their data. Therefore, for medium-to-large organizations with access to strong technical talent, I usually recommend building custom, in-house solutions.
  63. ^ "The Government and big data: Use, problems and potential". Computerworld. 21 March 2012. Archived from the original on 15 September 2016. Retrieved 12 September 2016.
  64. ^ "White Paper: Big Data for Development: Opportunities & Challenges (2012) – United Nations Global Pulse". Unglobalpulse.org. Archived from the original on 1 June 2020. Retrieved 13 April 2016.
  65. ^ "WEF (World Economic Forum), & Vital Wave Consulting. (2012). Big Data, Big Impact: New Possibilities for International Development". World Economic Forum. Archived from the original on 1 June 2020. Retrieved 24 August 2012.
  66. ^ a b c d e 힐버트, M. (2016)발전을 위한 빅데이터: 약속과 도전에 대한 검토개발 정책 검토, 34(1), 135–174.https://doi.org/10.1111/dpr.12142 Wayback Machine에서 2022년 6월 1일 보관: https://www.martinhilbert.net/big-data-for-development/ 2021년 4월 21일 Wayback Machine에서 보관됨
  67. ^ "Elena Kvochko, Four Ways To talk About Big Data (Information Communication Technologies for Development Series)". worldbank.org. 4 December 2012. Archived from the original on 15 December 2012. Retrieved 30 May 2012.
  68. ^ "Daniele Medri: Big Data & Business: An on-going revolution". Statistics Views. 21 October 2013. Archived from the original on 17 June 2015. Retrieved 21 June 2015.
  69. ^ Tobias Knobloch and Julia Manske (11 January 2016). "Responsible use of data". D+C, Development and Cooperation. Archived from the original on 13 January 2017. Retrieved 11 January 2017.
  70. ^ Mann, S., & Hilbert, M. (2020).AI4D: 개발을 위한 인공지능.International Journal of Communication, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ 2021년 4월 22일 Wayback Machine에서 보관
  71. ^ 블루멘스톡, J.E. (2016)데이터를 통해 빈곤과 싸우는 것.과학, 353(6301), 753–754.https://doi.org/10.1126/science.aah5217 2022년 6월 1일 웨이백 머신에서 아카이브됨
  72. ^ Blumenstock, J., Cadamuro, G., & On, R. (2015).휴대전화 메타데이터로부터 빈곤과 부를 예측하는 것.Science, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Wayback Machine에서 2022년 6월 1일 보관
  73. ^ Jean, N., Burke, M., Xie, M., Davis, W.M., Lobell, D.B., & Ermon, S. (2016)위성 이미지와 기계 학습을 결합하여 빈곤을 예측합니다.과학, 353 (6301), 790–794.https://doi.org/10.1126/science.aaf7894 2022년 6월 1일 웨이백 머신에서 아카이브됨
  74. ^ a b Hilbert, M., & Lu, K. (2020).라틴아메리카와 카리브해 지역의 온라인 취업시장 추적(UNECLAC LC/TS. 2020/83; p. 79)라틴 아메리카와 카리브해 지역 경제 위원회https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean Wayback Machine에서 2020년 9월 22일 보관
  75. ^ UNECLAC, (유엔 라틴 아메리카 및 카리브해 경제 위원회).(2020).라틴 아메리카와 카리브해 지역의 디지털 풋프린트 추적:빅데이터를 활용해 디지털 경제를 평가하면서 얻은 교훈(Productive Development, Gender Affairs LC/TS. 2020/12; Documentos de Proyecto).국제 연합 ECLAC.https://repositorio.cepal.org/handle/11362/45484 Wayback Machine에서 2020년 9월 18일 보관
  76. ^ Banerjee, Amitav; Chaudhury, Suprakash (2010). "Statistics without tears: Populations and samples". Industrial Psychiatry Journal. 19 (1): 60–65. doi:10.4103/0972-6748.77642. ISSN 0972-6748. PMC 3105563. PMID 21694795.
  77. ^ Aldridge, Irene (2016). Real-Time Risk : What Investors Should Know about FinTech, High-Frequency Trading, and Flash Crashes. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
  78. ^ Aldridge, Irene (2021). Big data science in finance. Marco Avellaneda. Hoboken, New Jersey. ISBN 978-1-119-60297-2. OCLC 1184122216.{{cite book}}: CS1 유지 관리: 위치 누락 게시자(링크)
  79. ^ Huser V, Cimino JJ (July 2016). "Impending Challenges for the Use of Big Data". International Journal of Radiation Oncology, Biology, Physics. 95 (3): 890–894. doi:10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID 26797535.
  80. ^ Sejdic, Ervin; Falk, Tiago H. (4 July 2018). Signal Processing and Machine Learning for Biomedical Big Data. Sejdić, Ervin, Falk, Tiago H. [Place of publication not identified]. ISBN 9781351061216. OCLC 1044733829.{{cite book}}: CS1 유지 관리: 위치 누락 게시자(링크)
  81. ^ Raghupathi W, Raghupathi V (December 2014). "Big data analytics in healthcare: promise and potential". Health Information Science and Systems. 2 (1): 3. doi:10.1186/2047-2501-2-3. PMC 4341817. PMID 25825667.
  82. ^ Viceconti M, Hunter P, Hose R (July 2015). "Big data, big knowledge: big data for personalized healthcare" (PDF). IEEE Journal of Biomedical and Health Informatics. 19 (4): 1209–15. doi:10.1109/JBHI.2015.2406883. PMID 26218867. S2CID 14710821. Archived (PDF) from the original on 23 July 2018. Retrieved 21 September 2019.
  83. ^ O'Donoghue, John; Herbert, John (1 October 2012). "Data Management Within mHealth Environments: Patient Sensors, Mobile Devices, and Databases". Journal of Data and Information Quality. 4 (1): 5:1–5:20. doi:10.1145/2378016.2378021. S2CID 2318649.
  84. ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (August 2016). "Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes". Computers in Biology and Medicine. 75: 203–16. arXiv:1604.00627. Bibcode:2016arXiv160400627M. doi:10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067.
  85. ^ Murdoch TB, Detsky AS (April 2013). "The inevitable application of big data to health care". JAMA. 309 (13): 1351–2. doi:10.1001/jama.2013.393. PMID 23549579. S2CID 20462354.
  86. ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (February 2015). "Ethical challenges of big data in public health". PLOS Computational Biology. 11 (2): e1003904. Bibcode:2015PLSCB..11E3904V. doi:10.1371/journal.pcbi.1003904. PMC 4321985. PMID 25664461.
  87. ^ Copeland, CS (July–August 2017). "Data Driving Discovery" (PDF). Healthcare Journal of New Orleans: 22–27. Archived (PDF) from the original on 5 December 2019. Retrieved 5 December 2019.
  88. ^ a b Yanase J, Triantaphyllou E (2019). "A Systematic Survey of Computer-Aided Diagnosis in Medicine: Past and Present Developments". Expert Systems with Applications. 138: 112821. doi:10.1016/j.eswa.2019.112821. S2CID 199019309.
  89. ^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "Leverage Hadoop framework for large scale clinical informatics applications". AMIA Joint Summits on Translational Science Proceedings. AMIA Joint Summits on Translational Science. 2013: 53. PMID 24303235.
  90. ^ Clunie D (2013). "Breast tomosynthesis challenges digital imaging infrastructure". Archived from the original on 24 February 2021. Retrieved 24 July 2019. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
  91. ^ Yanase J, Triantaphyllou E (2019). "The Seven Key Challenges for the Future of Computer-Aided Diagnosis in Medicine". International Journal of Medical Informatics. 129: 413–422. doi:10.1016/j.ijmedinf.2019.06.017. PMID 31445285. S2CID 198287435.
  92. ^ "Degrees in Big Data: Fad or Fast Track to Career Success". Forbes. Archived from the original on 3 March 2016. Retrieved 21 February 2016.
  93. ^ "NY gets new boot camp for data scientists: It's free but harder to get into than Harvard". Venture Beat. Archived from the original on 15 February 2016. Retrieved 21 February 2016.
  94. ^ Wedel, Michel; Kannan, PK (2016). "Marketing Analytics for Data-Rich Environments". Journal of Marketing. 80 (6): 97–121. doi:10.1509/jm.15.0413. S2CID 168410284.
  95. ^ Couldry, Nick; Turow, Joseph (2014). "Advertising, Big Data, and the Clearance of the Public Realm: Marketers' New Approaches to the Content Subsidy". International Journal of Communication. 8: 1710–1726.
  96. ^ "Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade". Ishti.org. 15 April 2018. Archived from the original on 12 February 2019. Retrieved 15 April 2018.
  97. ^ "Big data and analytics: C4 and Genius Digital". Ibc.org. Archived from the original on 8 October 2017. Retrieved 8 October 2017.
  98. ^ Marshall Allen (17 July 2018). "Health Insurers Are Vacuuming Up Details About You – And It Could Raise Your Rates". www.propublica.org. Archived from the original on 21 July 2018. Retrieved 21 July 2018.
  99. ^ "QuiO Named Innovation Champion of the Accenture HealthTech Innovation Challenge". Businesswire.com. 10 January 2017. Archived from the original on 22 March 2017. Retrieved 8 October 2017.
  100. ^ "A Software Platform for Operational Technology Innovation" (PDF). Predix.com. Archived from the original (PDF) on 22 March 2017. Retrieved 8 October 2017.
  101. ^ Z. Jenipher Wang (March 2017). "Big Data Driven Smart Transportation: the Underlying Story of IoT Transformed Mobility". Archived from the original on 4 July 2018. Retrieved 4 July 2018.
  102. ^ "That Internet Of Things Thing". 22 June 2009. Archived from the original on 2 May 2013. Retrieved 29 December 2017.
  103. ^ a b Solnik, Ray. "The Time Has Come: Analytics Delivers for IT Operations". Data Center Journal. Archived from the original on 4 August 2016. Retrieved 21 June 2016.
  104. ^ "BigSurv: Big Data Meets Survey Science". Retrieved 15 October 2023.
  105. ^ Eck, Adam; Cazar, Ana Lucía Córdova; Callegaro, Mario; Biemer, Paul. ""Big Data Meets Survey Science"". Social Science Computer Review. 39 (4): 484–488. doi:10.1177/0894439319883393.
  106. ^ "Special issue: Big data meets survey science". Journal of the Royal Statistical Society Series A. 185 (S2): S165–S166.
  107. ^ "Integrating Survey and Non-survey Data to Measure Behavior and Public Opinion". www.springeropen.com. Retrieved 19 October 2023.
  108. ^ Hill, Craig A.; Biemer, Paul P.; Buskirk, Trent D.; Japec, Lilli; Kirchner, Antje; Kolenikov, Stas; Lyberg, Lars E., eds. (13 October 2020). Big Data Meets Survey Science: A Collection of Innovative Methods (1 ed.). Wiley. doi:10.1002/9781118976357. ISBN 978-1-118-97632-6.
  109. ^ "Past Warren J. Mitofsky Innovators Award Winners - AAPOR". 7 June 2023. Retrieved 19 October 2023.
  110. ^ Josh Rogin (2 August 2018). "Ethnic cleansing makes a comeback – in China". No. Washington Post. Archived from the original on 31 March 2019. Retrieved 4 August 2018. Add to that the unprecedented security and surveillance state in Xinjiang, which includes all-encompassing monitoring based on identity cards, checkpoints, facial recognition and the collection of DNA from millions of individuals. The authorities feed all this data into an artificial-intelligence machine that rates people's loyalty to the Communist Party in order to control every aspect of their lives.
  111. ^ "China: Big Data Fuels Crackdown in Minority Region: Predictive Policing Program Flags Individuals for Investigations, Detentions". hrw.org. Human Rights Watch. 26 February 2018. Archived from the original on 21 December 2019. Retrieved 4 August 2018.
  112. ^ "Discipline and Punish: The Birth of China's Social-Credit System". The Nation. 23 January 2019. Archived from the original on 13 September 2019. Retrieved 8 August 2019.
  113. ^ "China's behavior monitoring system bars some from travel, purchasing property". CBS News. 24 April 2018. Archived from the original on 13 August 2019. Retrieved 8 August 2019.
  114. ^ "The complicated truth about China's social credit system". WIRED. 21 January 2019. Archived from the original on 8 August 2019. Retrieved 8 August 2019.
  115. ^ "News: Live Mint". Are Indian companies making enough sense of Big Data?. Live Mint. 23 June 2014. Archived from the original on 29 November 2014. Retrieved 22 November 2014.
  116. ^ "Israeli startup uses big data, minimal hardware to treat diabetes". The Times of Israel. Archived from the original on 1 March 2018. Retrieved 28 February 2018.
  117. ^ Singh, Gurparkash; Schulthess, Duane; Hughes, Nigel; Vannieuwenhuyse, Bart; Kalra, Dipak (2018). "Real world big data for clinical research and drug development". Drug Discovery Today. 23 (3): 652–660. doi:10.1016/j.drudis.2017.12.002. PMID 29294362.
  118. ^ "Recent advances delivered by Mobile Cloud Computing and Internet of Things for Big Data applications: a survey". International Journal of Network Management. 11 March 2016. Archived from the original on 1 June 2022. Retrieved 14 September 2016.
  119. ^ Kalil, Tom (29 March 2012). "Big Data is a Big Deal". whitehouse.gov. Archived from the original on 10 January 2017. Retrieved 26 September 2012 – via National Archives.
  120. ^ Executive Office of the President (March 2012). "Big Data Across the Federal Government" (PDF). Office of Science and Technology Policy. Archived (PDF) from the original on 21 January 2017. Retrieved 26 September 2012 – via National Archives.
  121. ^ Lampitt, Andrew (14 February 2013). "The real story of how big data analytics helped Obama win". InfoWorld. Archived from the original on 5 July 2014. Retrieved 31 May 2014.
  122. ^ "November 2018 TOP500 Supercomputer Sites". Archived from the original on 12 June 2020. Retrieved 13 November 2018.
  123. ^ Hoover, J. Nicholas. "Government's 10 Most Powerful Supercomputers". Information Week. UBM. Archived from the original on 16 October 2013. Retrieved 26 September 2012.
  124. ^ Bamford, James (15 March 2012). "The NSA Is Building the Country's Biggest Spy Center (Watch What You Say)". Wired. Archived from the original on 4 April 2012. Retrieved 18 March 2013.
  125. ^ "Groundbreaking Ceremony Held for $1.2 Billion Utah Data Center". National Security Agency Central Security Service. Archived from the original on 5 September 2013. Retrieved 18 March 2013.
  126. ^ Hill, Kashmir. "Blueprints of NSA's Ridiculously Expensive Data Center in Utah Suggest It Holds Less Info Than Thought". Forbes. Archived from the original on 29 March 2018. Retrieved 31 October 2013.
  127. ^ Smith, Gerry; Hallman, Ben (12 June 2013). "NSA Spying Controversy Highlights Embrace of Big Data". Huffington Post. Archived from the original on 19 July 2017. Retrieved 7 May 2018.
  128. ^ Wingfield, Nick (12 March 2013). "Predicting Commutes More Accurately for Would-Be Home Buyers". The New York Times. Archived from the original on 29 May 2013. Retrieved 21 July 2013.
  129. ^ "FICO® Falcon® Fraud Manager". Fico.com. Archived from the original on 11 November 2012. Retrieved 21 July 2013.
  130. ^ Alexandru, Dan. "Prof" (PDF). cds.cern.ch. CERN. Archived (PDF) from the original on 15 July 2017. Retrieved 24 March 2015.
  131. ^ "LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public". CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. Archived from the original on 19 March 2019. Retrieved 20 January 2013.
  132. ^ "LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers". CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. Archived from the original on 7 April 2020. Retrieved 20 January 2013.
  133. ^ Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. 469 (7330): 282–83. Bibcode:2011Natur.469..282B. doi:10.1038/469282a. PMID 21248814. S2CID 533166.
  134. ^ "IBM Research – Zurich" (PDF). Zurich.ibm.com. Archived from the original on 1 June 2022. Retrieved 8 October 2017.
  135. ^ "Future telescope array drives development of Exabyte processing". Ars Technica. 2 April 2012. Archived from the original on 31 March 2019. Retrieved 15 April 2015.
  136. ^ "Australia's bid for the Square Kilometre Array – an insider's perspective". The Conversation. 1 February 2012. Archived from the original on 12 October 2016. Retrieved 27 September 2016.
  137. ^ "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF). Oecd.org. Archived (PDF) from the original on 19 June 2017. Retrieved 8 October 2017.
  138. ^ "NASA – NASA Goddard Introduces the NASA Center for Climate Simulation". Nasa.gov. Archived from the original on 3 April 2016. Retrieved 13 April 2016.
  139. ^ Webster, Phil. "Supercomputing the Climate: NASA's Big Data Mission". CSC World. Computer Sciences Corporation. Archived from the original on 4 January 2013. Retrieved 18 January 2013.
  140. ^ "These six great neuroscience ideas could make the leap from lab to market". The Globe and Mail. 20 November 2014. Archived from the original on 11 October 2016. Retrieved 1 October 2016.
  141. ^ "DNAstack tackles massive, complex DNA datasets with Google Genomics". Google Cloud Platform. Archived from the original on 24 September 2016. Retrieved 1 October 2016.
  142. ^ "23andMe – Ancestry". 23andme.com. Archived from the original on 18 December 2016. Retrieved 29 December 2016.
  143. ^ a b Potenza, Alessandra (13 July 2016). "23andMe wants researchers to use its kits, in a bid to expand its collection of genetic data". The Verge. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  144. ^ "This Startup Will Sequence Your DNA, So You Can Contribute To Medical Research". Fast Company. 23 December 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  145. ^ Seife, Charles. "23andMe Is Terrifying, but Not for the Reasons the FDA Thinks". Scientific American. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  146. ^ Zaleski, Andrew (22 June 2016). "This biotech start-up is betting your genes will yield the next wonder drug". CNBC. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  147. ^ Regalado, Antonio. "How 23andMe turned your DNA into a $1 billion drug discovery machine". MIT Technology Review. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  148. ^ "23andMe reports jump in requests for data in wake of Pfizer depression study FierceBiotech". fiercebiotech.com. 22 August 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  149. ^ Admire Moyo (23 October 2015). "Data scientists predict Springbok defeat". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  150. ^ Regina Pazvakavambwa (17 November 2015). "Predictive analytics, big data transform sports". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  151. ^ Dave Ryan (13 November 2015). "Sports: Where Big Data Finally Makes Sense". huffingtonpost.com. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  152. ^ Frank Bi. "How Formula One Teams Are Using Big Data To Get The Inside Edge". Forbes. Archived from the original on 20 December 2015. Retrieved 12 December 2015.
  153. ^ Tay, Liz. "Inside eBay's 90PB data warehouse". ITNews. Archived from the original on 15 February 2016. Retrieved 12 February 2016.
  154. ^ Layton, Julia (25 January 2006). "Amazon Technology". Money.howstuffworks.com. Archived from the original on 28 February 2013. Retrieved 5 March 2013.
  155. ^ "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Archived from the original on 5 July 2013. Retrieved 21 July 2013.
  156. ^ Constine, Josh (27 June 2017). "Facebook now has 2 billion monthly users… and responsibility". TechCrunch. Archived from the original on 27 December 2020. Retrieved 3 September 2018.
  157. ^ "Google Still Doing at Least 1 Trillion Searches Per Year". Search Engine Land. 16 January 2015. Archived from the original on 15 April 2015. Retrieved 15 April 2015.
  158. ^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Significant Applications of Big Data in COVID-19 Pandemic". Indian Journal of Orthopaedics. 54 (4): 526–528. doi:10.1007/s43465-020-00129-z. PMC 7204193. PMID 32382166.
  159. ^ Manancourt, Vincent (10 March 2020). "Coronavirus tests Europe's resolve on privacy". Politico. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  160. ^ Choudhury, Amit Roy (27 March 2020). "Gov in the Time of Corona". Gov Insider. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  161. ^ Cellan-Jones, Rory (11 February 2020). "China launches coronavirus 'close contact detector' app". BBC. Archived from the original on 28 February 2020. Retrieved 30 October 2020.
  162. ^ Siwach, Gautam; Esmailpour, Amir (March 2014). Encrypted Search & Cluster Formation in Big Data (PDF). ASEE 2014 Zone I Conference. University of Bridgeport, Bridgeport, Connecticut, US. Archived from the original (PDF) on 9 August 2014. Retrieved 26 July 2014.
  163. ^ "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million in New R&D Investments" (PDF). Office of Science and Technology Policy. Archived (PDF) from the original on 21 January 2017 – via National Archives.
  164. ^ "AMPLab at the University of California, Berkeley". Amplab.cs.berkeley.edu. Archived from the original on 6 May 2011. Retrieved 5 March 2013.
  165. ^ "NSF Leads Federal Efforts in Big Data". National Science Foundation (NSF). 29 March 2012. Archived from the original on 31 March 2019. Retrieved 6 April 2018.
  166. ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (October 2011). Scaling the Mobile Millennium System in the Cloud. Archived from the original on 31 March 2019. Retrieved 2 November 2012.
  167. ^ David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times. Archived from the original on 30 January 2017. Retrieved 26 February 2017.
  168. ^ "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". energy.gov. Archived from the original on 3 April 2019. Retrieved 2 November 2012.
  169. ^ Young, Shannon (30 May 2012). "Mass. governor, MIT announce big data initiative". Boston.com. Archived from the original on 29 July 2021. Retrieved 29 July 2021.
  170. ^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 22 February 2013. Archived from the original on 30 March 2013. Retrieved 5 March 2013.
  171. ^ "Big Data Public Private Forum". cordis.europa.eu. 1 September 2012. Archived from the original on 9 March 2021. Retrieved 16 March 2020.
  172. ^ "Alan Turing Institute to be set up to research big data". BBC News. 19 March 2014. Archived from the original on 18 August 2021. Retrieved 19 March 2014.
  173. ^ "Inspiration day at University of Waterloo, Stratford Campus". betakit.com/. Archived from the original on 26 February 2014. Retrieved 28 February 2014.
  174. ^ a b c Reips, Ulf-Dietrich; Matzat, Uwe (2014). "Mining "Big Data" using Big Data Services". International Journal of Internet Science. 1 (1): 1–8. Archived from the original on 14 August 2014. Retrieved 14 August 2014.
  175. ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Quantifying the advantage of looking forward". Scientific Reports. 2: 350. Bibcode:2012NatSR...2E.350P. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.
  176. ^ Marks, Paul (5 April 2012). "Online searches for future linked to economic success". New Scientist. Archived from the original on 8 April 2012. Retrieved 9 April 2012.
  177. ^ Johnston, Casey (6 April 2012). "Google Trends reveals clues about the mentality of richer nations". Ars Technica. Archived from the original on 7 April 2012. Retrieved 9 April 2012.
  178. ^ Tobias Preis (24 May 2012). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Archived (PDF) from the original on 17 January 2013. Retrieved 24 May 2012.
  179. ^ Philip Ball (26 April 2013). "Counting Google searches predicts market movements". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  180. ^ Preis T, Moat HS, Stanley HE (2013). "Quantifying trading behavior in financial markets using Google Trends". Scientific Reports. 3: 1684. Bibcode:2013NatSR...3E1684P. doi:10.1038/srep01684. PMC 3635219. PMID 23619126.
  181. ^ Nick Bilton (26 April 2013). "Google Search Terms Can Predict Stock Market, Study Finds". The New York Times. Archived from the original on 2 June 2013. Retrieved 9 August 2013.
  182. ^ Christopher Matthews (26 April 2013). "Trouble With Your Investment Portfolio? Google It!". Time. Archived from the original on 21 August 2013. Retrieved 9 August 2013.
  183. ^ Philip Ball (26 April 2013). "Counting Google searches predicts market movements". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  184. ^ Bernhard Warner (25 April 2013). "'Big Data' Researchers Turn to Google to Beat the Markets". Bloomberg Businessweek. Archived from the original on 23 July 2013. Retrieved 9 August 2013.
  185. ^ Hamish McRae (28 April 2013). "Hamish McRae: Need a valuable handle on investor sentiment? Google it". The Independent. London. Archived from the original on 25 July 2018. Retrieved 9 August 2013.
  186. ^ Richard Waters (25 April 2013). "Google search proves to be new word in stock market prediction". Financial Times. Archived from the original on 1 June 2022. Retrieved 9 August 2013.
  187. ^ Jason Palmer (25 April 2013). "Google searches predict market moves". BBC. Archived from the original on 5 June 2013. Retrieved 9 August 2013.
  188. ^ E. 세이디치 (2014년 3월)."빅 데이터와 함께 사용할 수 있도록 현재 도구를 조정합니다."자연.507 (7492): 306.
  189. ^ 스탠포드 대학의"MMDS. 현대 대규모 데이터 세트를 위한 알고리즘 워크숍" 2019년 12월 4일 웨이백 머신에서 보관.
  190. ^ Deepan Palguna; Vikas Joshi; Venkatesan Chakravarthy; Ravi Kothari & L. V. Subramaniam (2015). Analysis of Sampling Algorithms for Twitter. International Joint Conference on Artificial Intelligence.
  191. ^ Chris Kimble; Giannis Milolidakis (7 October 2015). "Big Data and Business Intelligence: Debunking the Myths". Global Business and Organizational Excellence. 35 (1): 23–34. arXiv:1511.03085. doi:10.1002/JOE.21642. ISSN 1932-2054. Wikidata Q56532925.
  192. ^ Chris Anderson (23 June 2008). "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete". Wired. Archived from the original on 27 March 2014. Retrieved 5 March 2017.
  193. ^ Graham M. (9 March 2012). "Big data and the end of theory?". The Guardian. London. Archived from the original on 24 July 2013. Retrieved 14 December 2016.
  194. ^ Shah, Shvetank; Horne, Andrew; Capellá, Jaime (April 2012). "Good Data Won't Guarantee Good Decisions". Harvard Business Review. Archived from the original on 11 September 2012. Retrieved 8 September 2012.
  195. ^ a b 빅 데이터는 빅 변화에 대한 빅 비전을 요구합니다.2016년 12월 2일 M. Hilbert, Wayback Machine(2014)에서 보관.런던: TEDx UCL, x= 독립적으로 조직된 TED talks
  196. ^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data and the Future of Knowledge Production in Marketing Research: Ethics, Digital Traces, and Abductive Reasoning". Journal of Marketing Analytics. 3 (1): 5–13. doi:10.1057/jma.2015.1. S2CID 111360835.
  197. ^ Jonathan Rauch (1 April 2002). "Seeing Around Corners". The Atlantic. Archived from the original on 4 April 2017. Retrieved 5 March 2017.
  198. ^ 엡스타인, J.M., & Axtell, R.L. (1996)성장하는 인공 사회:사회과학은 아래에서부터 위로.브래드포드 책.
  199. ^ "Delort P., Big data in Biosciences, Big Data Paris, 2012" (PDF). Bigdataparis.com. Archived from the original (PDF) on 30 July 2016. Retrieved 8 October 2017.
  200. ^ "Next-generation genomics: an integrative approach" (PDF). nature. July 2010. Archived (PDF) from the original on 13 August 2017. Retrieved 18 October 2016.
  201. ^ "Big Data in Biosciences". October 2015. Archived from the original on 1 June 2022. Retrieved 18 October 2016.
  202. ^ "Big data: are we making a big mistake?". Financial Times. 28 March 2014. Archived from the original on 30 June 2016. Retrieved 20 October 2016.
  203. ^ Ohm, Paul (23 August 2012). "Don't Build a Database of Ruin". Harvard Business Review. Archived from the original on 30 August 2012. Retrieved 29 August 2012.
  204. ^ 본드-그라함, 다윈 (2018)."빅 데이터에 대한 관점" 2020년 11월 9일 웨이백 머신에서 보관.원근법.
  205. ^ Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (June 2014). Big Data's End Run around Anonymity and Consent. Cambridge University Press. pp. 44–75. doi:10.1017/cbo9781107590205.004. ISBN 9781107067356. S2CID 152939392.
  206. ^ Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew; Mesia, Noora; Ranta, Hannu; Lab, Emmi (1 June 2016). "A Comprehensive Survey On Big-Data Research and Its Implications – What is Really 'New' in Big Data? – It's Cognitive Big Data!". Archived from the original on 1 June 2022. Retrieved 30 December 2017. {{cite journal}}:저널 요구사항 인용 journal=(도움말)
  207. ^ Danah Boyd (29 April 2010). "Privacy and Publicity in the Context of Big Data". WWW 2010 conference. Archived from the original on 22 October 2018. Retrieved 18 April 2011.
  208. ^ Katyal, Sonia K. (2019). "Artificial Intelligence, Advertising, and Disinformation". Advertising & Society Quarterly. 20 (4). doi:10.1353/asr.2019.0026. ISSN 2475-1790. S2CID 213397212. Archived from the original on 28 October 2020. Retrieved 18 November 2020.
  209. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. Archived (PDF) from the original on 8 July 2019. Retrieved 19 September 2012.
  210. ^ a b Boyd, D.; Crawford, K. (2012). "Critical Questions for Big Data". Information, Communication & Society. 15 (5): 662–679. doi:10.1080/1369118X.2012.678878. hdl:10983/1320. S2CID 51843165.
  211. ^ 출시 실패: 데이터에서 결정까지 2016년 12월 6일 Wayback Machine, Forte Wares에서 보관.
  212. ^ "15 Insane Things That Correlate with Each Other". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  213. ^ "Random structures & algorithms". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  214. ^ Cristian S. Calude, Giuseppe Longo, (2016), 빅데이터의 거짓 상관관계의 홍수, 과학의 기초
  215. ^ Anja Lambrecht and Catherine Tucker (2016) "대부분의 경영자들이 분석으로 저지르는 4가지 실수", 하버드 비즈니스 리뷰, 7월 12일https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics 2022년 1월 26일 웨이백 머신에서 보관
  216. ^ a b Gregory Piatetsky (12 August 2014). "Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2". KDnuggets. Archived from the original on 13 August 2014. Retrieved 13 August 2014.
  217. ^ Pelt, Mason (26 October 2015). ""Big Data" is an over used buzzword and this Twitter bot proves it". Siliconangle. Archived from the original on 30 October 2015. Retrieved 4 November 2015.
  218. ^ a b Harford, Tim (28 March 2014). "Big data: are we making a big mistake?". Financial Times. Archived from the original on 7 April 2014. Retrieved 7 April 2014.
  219. ^ Ioannidis JP (August 2005). "Why most published research findings are false". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  220. ^ Lohr, Steve; Singer, Natasha (10 November 2016). "How Data Failed Us in Calling an Election". The New York Times. ISSN 0362-4331. Archived from the original on 25 November 2016. Retrieved 27 November 2016.
  221. ^ "How data-driven policing threatens human freedom". The Economist. 4 June 2018. ISSN 0013-0613. Archived from the original on 27 October 2019. Retrieved 27 October 2019.
  222. ^ Brayne, Sarah (29 August 2017). "Big Data Surveillance: The Case of Policing". American Sociological Review. 82 (5): 977–1008. doi:10.1177/0003122417725865. S2CID 3609838.

추가열람

외부 링크