프로파일링(정보과학)
Profiling (information science)![]() |
정보과학에서 프로파일링은 전산 데이터 분석에 의해 생성된 사용자 프로파일의 구축 및 적용 과정을 말한다.
이는 데이터베이스에 집계된 대량의 데이터에서 패턴 또는 상관관계를 발견할 수 있는 알고리즘 또는 기타 수학적 기술을 사용하는 것입니다.이러한 패턴 또는 상관관계를 사용하여 사람을 식별하거나 나타낼 경우 프로파일이라고 할 수 있습니다.신용 점수 매기기 가격 차별 또는 보안 위험의 식별의 사례에서 프로파일 기술 또는 인구 프로파일 작성 프로필의 프로파일링의 이런 의미에서는 개념은 단지 공사라 그룹 프로필의 개인이 받을 수 있는 응용 프로그램에 관한 것에 대한 논의보다 다른, e. g,(힐데브란트&Gutwi.rth 2008년) (2004년)
프로파일링은 부정행위 방지, 주변 인텔리전스 및 소비자 분석에 사용되고 있습니다.통계 프로파일링 방법에는 KDD(Knowledge Discovery in Databases)가 있습니다.
프로파일링 프로세스
프로파일링의 기술적 프로세스는 몇 가지 단계로 나눌 수 있습니다.
- 예비 접지:프로파일링 프로세스는 해당 문제 영역의 지정과 분석 목표의 특정으로 시작됩니다.
- 데이터 수집:분석 대상 데이터셋 또는 데이터베이스는 기존 도메인 지식 및 데이터 이해도를 고려하여 관련 데이터를 선택하여 구성합니다.
- 데이터 준비:데이터는 속성을 제거하여 노이즈를 제거하고 복잡성을 줄이기 위해 사전 처리됩니다.
- 데이터 마이닝:데이터는 데이터, 모델 및 목표에 적합하도록 개발된 알고리즘 또는 휴리스틱스를 사용하여 분석됩니다.
- 해석:채굴된 패턴은 애플리케이션 영역의 전문가 및/또는 전문가에 의해 관련성과 타당성에 대해 평가됩니다(예: 유사 상관 관계 제외).
- 응용 프로그램:생성된 프로파일은 예를 들어 사람 범주에 적용되어 알고리즘을 테스트하고 미세 조정한다.
- 기관의 결정:관련 프로파일과 일치하는 데이터를 가진 그룹 또는 개인에게 적용할 조치 또는 정책을 결정한다.
데이터 수집, 준비 및 마이닝은 모두 프로파일이 구축 중인 단계에 속합니다.단, 프로파일링은 프로파일링의 적용을 의미하며, 이는 그룹 또는 개인의 식별 또는 분류를 위한 프로파일 사용을 의미한다.스텝 6(어플리케이션)에서 알 수 있듯이 프로세스는 순환형입니다.구성 및 프로필 적용 사이에는 피드백 루프가 있습니다.프로파일을 해석하면 프로파일링 프로세스의 특정 이전 단계를 실시간으로 미세 조정할 수 있습니다.프로파일을 작성하기 위해 데이터가 사용되지 않은 사람들에 대한 프로파일의 적용은 데이터 매칭을 기반으로 하며, 이는 추가적인 조정을 가능하게 하는 새로운 데이터를 제공합니다.프로파일링 프로세스는 역동적이면서도 적응적입니다.프로파일링의 동적이고 적응적인 특성을 잘 보여주는 예로는 CRISP-DM(Cross Industry Standard Process for Data Mining)이 있습니다.
프로파일링 관행 유형
프로파일링 기술의 본질을 명확히 하기 위해서는 프로파일의 구성과 적용의 구별을 제외하고 다른 유형의 프로파일링 관행 간에 몇 가지 중요한 구별이 이루어져야 합니다.주된 차이점은 상향식 프로파일링과 하향식 프로파일링(또는 감독 및 비감독 학습) 사이, 그리고 개인 프로파일과 그룹 프로파일 간의 차이이다.
지도 및 비지도 학습
프로파일은 생성된 방법에 따라 분류할 수 있습니다(Fayyad, Piatetsky-Shapiro & Smyth 1996). (Zarsky & 2002-3) 오류: target: CITREFZarsky ( 한편, 프로파일은 가설의 상관관계를 테스트함으로써 생성할 수 있습니다.이를 하향식 프로파일링 또는 감독식 학습이라고 합니다.이것은 가설에서 시작해 타당성을 검증하는 것으로 구성된다는 점에서 전통적인 과학 연구의 방법론과 유사하다.이러한 유형의 프로파일링의 결과는 가설의 검증 또는 반박입니다.연역 프로파일링도 할 수 있어요한편, 프로파일은 데이터 마이닝 프로세스를 사용하여 이전에 가설화되지 않은 데이터베이스 패턴을 검출함으로써 데이터베이스를 탐색함으로써 생성할 수 있습니다.어떤 면에서는, 이것은 가설을 만들어 내는 문제이다. 즉, 예상하지 못했거나 심지어 생각하지도 못한 상관관계를 찾는 것이다.패턴이 채굴되면 위에서 설명한 바와 같이 루프로 들어가 새로운 데이터를 사용하여 테스트합니다.이것은 비지도 학습이라고 불립니다.
이 구별에 관해 두 가지가 중요하다.첫째, 비지도 학습 알고리즘은 연구자에 의해 개발된 가설에 기초하지 않고 인과관계나 동기관계에 기초하지 않고 확률적 상관관계에 전적으로 기초하는 새로운 유형의 지식을 구축하는 것을 허용하는 것으로 보인다.둘째, 비지도 학습 알고리즘은 따라서 이론적 정당성이나 인과적 설명이 필요 없는 귀납적 유형의 지식 구축을 허용하는 것으로 보인다(Custers 2004).
일부 저자는 컴퓨터화된 확률적 패턴 인식에 기초한 프로파일의 적용, 즉 미래의 행동에 대한 신뢰할 수 있는 예측을 가능하게 하는 경우, 이러한 패턴에 대한 이론적 또는 인과적 설명은 더 이상 중요하지 않다고 주장한다(Anderson 2008).그러나 '눈먼' 알고리즘이 신뢰할 수 있는 정보를 제공한다는 생각은 정보가 중립적이라는 것을 의미하지 않는다.데이터를 수집하여 데이터베이스로 집약하는 프로세스(프로파일 구축 프로세스의 첫 번째 3단계)에서는 실제 사건에서 기계 판독 가능한 데이터로 변환됩니다.그런 다음 이러한 데이터를 준비 및 정리하여 초기 계산 가능성을 확보합니다.잠재적 편향은 개발된 알고리즘의 선택뿐만 아니라 이러한 지점에 위치해야 한다.가능한 모든 선형 및 비선형 상관에 대해 데이터베이스를 채굴하는 것은 불가능하며, 이는 패턴을 검색하기 위해 개발된 수학적 기술이 찾을 수 있는 패턴에 따라 결정된다는 것을 의미합니다.기계 프로파일링의 경우, 잠재적 편견은 상식적인 편견이나 심리학자들이 말하는 고정관념에 의해서가 아니라 과정의 초기 단계에서 사용된 컴퓨터 기술에 의해서 알려진다.이러한 기술은 (데이터가 관련된 그룹 프로파일과 일치하기 때문에) 프로파일을 적용하는 사용자에게는 대부분 보이지 않습니다.
개인 프로파일 및 그룹 프로파일
프로파일은, 참조하는 대상의 종류에 따라서도 분류할 필요가 있습니다.이 주제는 개인일 수도 있고 사람들의 그룹일 수도 있습니다.한 사람의 데이터로 프로파일을 구성하는 경우 이를 개인 프로파일링(Jaquet-Chiffel 2008)이라고 합니다.이러한 종류의 프로파일링은 특정 개인의 특정 특성을 발견하거나 고유한 식별 또는 개인화된 서비스를 제공하기 위해 사용됩니다.그러나 개인화된 서비스는 대부분의 경우 그룹 프로파일링을 기반으로 합니다.그룹 프로파일링은 특정 유형의 사람으로 분류할 수 있으며, 그녀의 프로파일이 방대한 수의 다른 사람들에 대한 데이터를 기반으로 작성된 프로파일과 일치한다는 사실에 기초합니다.그룹 프로파일은 자신을 종교 단체, 테니스 클럽, 대학, 정당 등이라고 생각하는 기존 커뮤니티를 참조하는 데이터 집합의 데이터 마이닝 결과를 참조할 수 있습니다.이 경우 이전에 알려지지 않았던 행동 패턴이나 그러한 그룹(공동체)의 다른 특성을 설명할 수 있다.그룹 프로파일은 커뮤니티를 형성하지 않지만 이전에 알려지지 않았던 행동 패턴이나 기타 특성을 공유하는 것으로 판명된 사람들의 카테고리를 참조할 수도 있다(Custers 2004).이 경우 그룹 프로파일은 예를 들어 파란 눈과 빨간 머리를 가진 여성이나 상대적으로 짧은 팔과 다리를 가진 성인 등 범주의 특정 행동이나 기타 특성을 설명한다.이러한 범주는 건강 위험, 수입 능력, 사망률, 신용 위험 등과 관련이 있는 것으로 확인될 수 있다.
개인 프로파일이 채굴된 개인에게 적용되는 경우, 그것은 직접적인 개인 프로파일링입니다.프로파일과 일치하는 데이터를 가진 개인에게 그룹 프로파일이 적용되는 경우 프로파일은 다른 사용자의 데이터를 사용하여 생성되었기 때문에 간접적인 개별 프로파일링입니다.마찬가지로 그룹 프로파일이 채굴된 그룹에 적용되는 경우, 그것은 직접 그룹 프로파일링(Jaquet-Chiffel 2008)이다.단, 그룹에 대한 그룹 프로파일의 적용이 그룹의 개별 멤버에 대한 그룹 프로파일의 적용을 암시하는 한, 특히 그룹 프로파일이 비배포적인 경우에는 간접적인 그룹 프로파일링을 말하는 것이 타당합니다.
분산 프로파일링 및 비분산 프로파일링
그룹 프로파일은, 그 배포 문자(Vedder 1999)에 의해서도 분할할 수 있습니다.그룹 프로파일은 그 특성이 그룹의 모든 구성원들에게 동등하게 적용될 때 분포적이다: 모든 총각들은 미혼이거나, 특정 유전자를 가진 모든 사람들이 특정 질병에 걸릴 확률이 80%이다.프로파일이 그룹의 모든 멤버에게 반드시 해당되지 않는 경우 프로파일은 비배포적입니다.특정 우편번호를 가진 그룹의 평균 소득능력은 XX이며, 푸른 눈을 가진 그룹의 평균 소득능력은 37%입니다.이 경우 개인이 특정 소득 능력을 갖거나 특정 질병에 걸릴 가능성은 성별, 나이, 부모의 배경, 이전 건강, 교육과 같은 다른 요인에 따라 달라진다.독신남과 같은 동문학적 프로파일을 제외하고 컴퓨터 기법에 의해 생성된 대부분의 그룹 프로파일은 비분포적이라는 것은 명백해야 한다.이는 분산되지 않은 그룹 프로파일과의 데이터 매칭을 기반으로 한 간접적인 개별 프로파일링의 정확성에 광범위한 영향을 미칩니다.정확한 프로파일의 적용이 불공정하거나 과도한 오명을 초래할 수 있다는 사실을 제외하면 대부분의 그룹 프로파일은 정확하지 않을 것이다.
적용들
금융 부문에서는, 금융기관이 사기 방지와 신용 평가를 위해서 프로파일링 기술을 사용하고 있습니다.은행들은 고객에게 신용을 제공할 때 발생할 위험을 최소화하고자 합니다.광범위한 집단에 기초하여 프로파일링 고객에게는 신용도를 나타내는 특정 점수 값이 할당된다.은행이나 보험회사와 같은 금융기관도 그룹 프로파일링을 사용하여 사기나 돈세탁을 탐지합니다.트랜잭션이 있는 데이터베이스를 알고리즘으로 검색하여 표준에서 벗어난 동작을 찾아 의심스러운 [1]트랜잭션을 나타냅니다.
고용의 관점에서 프로파일은 종업원의 온라인 행동을 감시하고, 종업원에 의한 부정행위를 검출하고, 종업원의 스킬을 풀링해 순위를 매겨 인재의 도입에 도움이 됩니다.(Leopold & Meints 2008)[2]
프로파일링은 또한 상호작용을 개인화하는 적응형 하이퍼미디어 시스템의 설계에 개입함으로써 직장에서 사람들을 지원하고 학습에도 사용할 수 있습니다.예를 들어 주의 관리를 지원하는 데 유용합니다(Nabeth 2008).
법의학에서는, 사건이나 용의자의 데이타베이스에 접속해, 공통의 패턴을 찾아내는 것이 가능합니다.이는 기존 사례를 해결하거나 잠재적 용의자의 위험 프로파일을 확립하는 데 사용할 수 있다(Geradts & Sommer 2008). (Harcourt 2006)
소비자 프로파일링
소비자 프로파일링은 고객 분석의 한 형태로, 고객 데이터를 사용하여 제품 홍보,[3] 제품 가격 책정 및 개인화된 광고에 대한 결정을 내립니다.가장 수익성이 높은 고객 세그먼트를 찾는 것이 목적인 경우, 소비자 분석은 인구 통계 데이터, 소비자 행동에 대한 데이터, 구매 제품 데이터, 결제 방법 및 소비자 프로파일을 확립하기 위한 설문 조사를 활용합니다.기존 데이터베이스를 기반으로 예측 모델을 확립하려면 KDD(Knowledge Discovery in Databases) 통계 방법을 사용합니다.KDD는 유사한 고객 데이터를 그룹화하여 미래의 소비자 행동을 예측합니다.소비자 행동을 예측하는 다른 방법으로는 상관 관계와 패턴 인식이 있습니다.소비자 프로파일은 일련의 속성을[4] 기반으로 고객을 기술하며, 일반적으로 소비자는 소득, 생활 수준, 연령 및 위치에 따라 분류됩니다.소비자 프로파일은 구매자의 의사결정 과정에서 고객의 동기를 평가하는 행동 속성을 포함할 수도 있습니다.소비자 프로파일의 잘 알려진 예로는 Experian's Mosaic Geodemographic Classification of house, CACI's Acxiom's Acon, Personicx 등이 [5]있다.
환경 인텔리전스
주변 지능을 갖춘 구축 환경에서는 일상적인 객체에는 센서가 내장되어 있으며 이를 통해 객체가 개인의 존재와 요구를 인식하고 응답할 수 있습니다.환경 인텔리전스는 자동화된 프로파일링과 인간-컴퓨터 상호작용 [6]설계에 의존합니다.센서는 개인의 행동과 행동을 모니터링하여 개인 데이터를 생성, 수집, 분석, 처리 및 저장합니다.주변 인텔리전스를 갖춘 가전제품의 초기 예로는 모바일 앱, 증강현실, 위치기반 [7]서비스가 있습니다.
리스크와 문제
프로파일링 테크놀로지는 프라이버시, 평등, 정당한 절차, 보안, 책임 등 윤리, 법률 및 기타 많은 문제를 제기하고 있습니다.많은 저자들이 반자율 프로파일링 기술을 기반으로 출현할 수 있는 새로운 기술 인프라(Lessig 2006)(Solove 2004)(Schwartz 2000)에 대해 경고했습니다.
사생활은 제기된 주요 이슈 중 하나이다.프로파일링 기술을 통해 개인의 행동과 선호도를 광범위하게 모니터링할 수 있습니다.프로파일에 의해서, 개개의 개인 또는 개인 정보가 공개되는 경우가 있습니다(Hildebrandt & Gutworth 2008).
프로파일링 기술은 본질적으로 차별적인 도구입니다.그들은 부당한 영향을 미칠 수 있는 유례없는 종류의 사회적 분류와 세분화를 허용한다.프로파일의 사람은 높은 가격을 지불해야 [8]할 수도 있고, 중요한 제안이나 기회를 놓칠 수도 있으며, 자신의 요구에 부응하는 것이 수익성이 낮기 때문에 리스크가 증가할 수도 있습니다(Lyon 2003).프로파일링 관행은 대부분 보이지 않고 프로파일 자체는 지적재산권이나 영업비밀에 의해 보호되기 때문에 대부분의 경우 이 사실을 인식하지 못할 것이다.이는 시민의 평등과 연대에 위협이 된다.더 큰 규모로 보면,[9] 그것은 사회의 분열을 야기할 수 있다.
프라이버시와 비차별의 잠재적인 위반의 근저에 있는 문제 중 하나는 프로파일링 프로세스가 프로파일링 대상에게 보이지 않는 경우가 많다는 것입니다.이는 특정 그룹 프로파일의 적용에 대해 경쟁하는 것이 불가능하지는 않더라도 어려워진다는 점에서 어려움을 야기한다.이는 적법한 절차의 원칙을 어지럽힌다. 즉, 개인은 유익성이 보류되거나 특정 위해성에 기인하는 정보에 접근할 수 없는 경우, 그들은 그들이 취급되고 있는 방식에 이의를 제기할 수 없다(Steinbock 2005).
프로파일은 정보에 접근하거나 사용할 권한이 없는 사람의 손에 들어갔을 때 다른 사람에게 사용될 수 있습니다.이러한 보안 침해와 관련된 중요한 문제는 신원 도용입니다.
프로파일의 적용으로 위해가 발생할 경우, 이러한 위해에 대한 책임은 누가 책임을 져야 하는지를 결정해야 한다.소프트웨어 프로그래머, 프로파일링 서비스 프로바이더 또는 프로파일링 사용자가 책임을 져야 합니까?이 책임 문제는 프로파일링을 기반으로 자동화된 의사 결정의 자율 컴퓨팅이나 주변 인텔리전스 의사 결정과 같이 프로파일링에 대한 애플리케이션과 의사 결정도 자동화되는 경우에 특히 복잡합니다.
「 」를 참조해 주세요.

레퍼런스
- Anderson, Chris (2008). "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete". Wired Magazine. 16 (7).
- Custers, B.H.M. (2004). "The Power of Knowledge". Tilburg:Wolf Legal Publishers.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Elmer, G. (2004). "Profiling Machines. Mapping the Personal Information Economy". MIT Press.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Fayyad, U.M.; Piatetsky-Shapiro, G.; Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). AI Magazine. 17 (3): 37–54. Archived from the original (PDF) on 2009-12-16. Retrieved 2009-02-09.
- Geradts, Zeno; Sommer, Peter (2008). "D6.7c: Forensic Profiling" (PDF). FIDIS Deliverables. 6 (7c).
- Harcourt, B. E. (2006). "Against Prediction. Profiling, Policing, and Punishing in an Actuarial Age". The University of Chicago Press, Chicago and London.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Hildebrandt, Mireille; Gutwirth, Serge (2008). Profiling the European Citizen. Cross Disciplinary Perspectives. Springer, Dordrecht. doi:10.1007/978-1-4020-6914-7. ISBN 978-1-4020-6913-0.
- Jaquet-Chiffelle, David-Olivier (2008). "Reply: Direct and Indirect Profiling in the Light of Virtual Persons. To: Defining Profiling: A New Type of Knowledge?". In Hildebrandt, Mireille; Gutwirth, Serge (eds.). Profiling the European Citizen. Springer Netherlands. pp. 17–45. doi:10.1007/978-1-4020-6914-7_2.
- Kephart, J. O.; Chess, D. M. (2003). "The Vision of Autonomic Computing" (PDF). Computer. 36 (1 January): 96–104. CiteSeerX 10.1.1.70.613. doi:10.1109/MC.2003.1160055. Archived from the original (PDF) on 2014-08-10.
- Leopold, N.; Meints, M. (2008). "Profiling in Employment Situations (Fraud)". In Hildebrandt, Mireille; Gutwirth, Serge (eds.). Profiling the European Citizen. Springer Netherlands. pp. 217–237. doi:10.1007/978-1-4020-6914-7_12. ISBN 978-1-4020-6913-0.
- Lessig, L. (2006). "Code 2.0". Basic Books, New York.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Lyon, D. (2003). "Surveillance as Social Sorting: Privacy, Risk, and Digital Discrimination". Routledge.
{{cite journal}}
:Cite 저널 요구 사항journal=
(도움말) - Nabeth, Thierry (2008). "User Profiling for Attention Support for School and Work". In Hildebrandt, Mireille; Gutwirth, Serge (eds.). Profiling the European Citizen. Springer Netherlands. pp. 185–200. doi:10.1007/978-1-4020-6914-7_10. ISBN 978-1-4020-6913-0.
- Schwartz, P. (2000). "Beyond Lessig's Code for the Internet Privacy: Cyberspace Filters, Privacy-Control and Fair Information Practices". Wisconsin Law Review. 743: 743–788.
- Solove, D.J. (2004). The Digital Person. Technology and Privacy in the Information Age. New York, New York University Press.
- Steinbock, D. (2005). "Data Matching, Data Mining, and Due Process". Georgia Law Review. 40 (1): 1–84.
- Vedder, A. (1999). "KDD: The Challenge to Individualism". Ethics and Information Technology. 1 (4): 275–281. doi:10.1023/A:1010016102284. S2CID 10377988.
- Weiser, M. (1991). "The Computer for the Twenty-First Century". Scientific American. 265 (3): 94–104. doi:10.1038/scientificamerican0991-94.
- Zarsky, T. (2002). ""Mine Your Own Business!": Making the Case for the Implications of the Data Mining or Personal Information in the Forum of Public Opinion". Yale Journal of Law and Technology. 5 (4): 17–47.
참고 및 기타 참고 자료
- ^ Canhoto, A.I. (2007). "Profiling behaviour: the social construction of categories in the detection of financial crime, dissertation at London School of Economics" (PDF). lse.ac.uk.
- ^ Electronic Privacy Information Center. "EPIC - Workplace Privacy". epic.org.
{{cite web}}
:author=
범용명(도움말)이 있습니다. - ^ Reyes, Matthew (2020). Consumer Behavior and Marketing. IntechOpen. p. 10. ISBN 9781789238556.
- ^ Reyes, Matthew (2020). Consumer Behavior and Marketing. IntechOpen. p. 11. ISBN 9781789238556.
- ^ Reyes, Matthew (2020). Consumer Behavior and Marketing. IntechOpen. p. 12. ISBN 9781789238556.
- ^ De Hert, Paul; Leenes, Ronald; Gutwirth, Serge; Poullet, Yves (2011). Computers, Privacy and Data Protection: an Element of Choice. Springer Netherlands. p. 80. ISBN 9789400706415.
- ^ De Hert, Paul; Leenes, Ronald; Gutwirth, Serge; Poullet, Yves (2011). Computers, Privacy and Data Protection: an Element of Choice. Springer Netherlands. p. 80. ISBN 9789400706415.
- ^ Odlyzko, A. (2003). "Privacy, economics, and price discrimination on the Internet, A. M. Odlyzko. ICEC2003: Fifth International Conference on Electronic Commerce, N. Sadeh, ed., ACM, pp. 355–366" (PDF).
- ^ Gandy, O. (2002). "Data Mining and Surveillance in the post 9/11 environment, Presentation at IAMCR, Barcelona" (PDF). asc.upenn.edu.