데이터 사이언스를 위한 통계학 입문(1주차)
✓ 1주차 : 데이터 과학과 통계 ✓
1-1) 데이터 과학이란 무엇인가
✓ 데이터 과학과 데이터 분석(data Analtics)
- 데이터 큐레이션, 데이터 추출 및 변환, 데이터 시각화를 포함하고 있는 용어. 다차원 그래프를 포함한다. 딥러닝 알고리즘, 머신러닝 등을 포괄할 수 있는 용어이다.
데이터시각화 : 데이터 분석 결과를 쉽게 이해할 수 있도록 그래프, 도표, 이미지 등을 통해 한눈에 이해할 수 있도록 하는 것
데이터분석을 통해 새로운 사실을 발견하고, 인사이트를 창출한다. 이것이 데이터 과학이다. - 데이터는 단순한 학문이 아니라 현실과 접목되어야 하므로 데이터 도메인에 대한 지식과 분석능력을 갖추어야 한다.
✓ 데이터과학의 예시
- finnGen : 빅데이터 프로젝트. 유전자정보를 수집하고 환자의 의료정보까지 통합구축. 자가면역질환에 대한 연구를 체계적으로 할 수 있고, 6개월마다 업데이트하여 개인 맞춤형 약을 개발한다. 개인의 특성을 고려한 연구가 쉽지 않기 때문에 매우 기대되는 프로젝트라고 한다.
✓ 데이터과학을 위한 통계학 입문에서 배울 내용
- 데이터과학을 위한 통계적 개념과 지식
- 공유데이터와 오픈소스
- 빅데이터 분석을 위한 첫걸음 - 데이터의 중심위치, 산포정도
- 데이터 시각화
- 데이터과학에서 확률 분포를 어떤 의미를 전달하는가
1-2) 통계가 상식이 된 사회
“통계는 왜 필요한가? 데이터를 올바르게 다를 줄 알면 무엇이 더 좋아지는가? ”
✓ 의사결정에서 통계의 역할
1. 축적된 데이터로부터 요약된 정보 제공
2. 과거 데이터를 통해 미래 데이터를 예측 : 과거 시점의 데이터로 미래 시점을 예측 (여태까지의 변화 등을 기반으로 이후의 변화할 정도를 예상할 수 있음)
3. 데이터의 숨겨진 패턴 발견 : 맞춤형 마케팅 등에서 고객의 이동 경로를 분석하여 이탈 가능성이 높은 고객의 유지, 신규 고객의 유입 등에 활용한다. + 정부정책의 근거 자료로 사용되기도 한다. + 유동인구 분포 및 밀집도를 파악하여 심야버스 도입
--> 개인의 일상활동은 데이터화를 통해 예측 분석이 가능하도록 수량화, 객관화되어지며 통계는 수많은 데이터로부터 요약된 정보를 제공해 미래 데이터를 예측하고 숨겨진 패턴을 발견해 올바른 의사결정을 돕는다.
1-3) 데이터분석과 윤리
“데이터는 어떻게 다루어야 할까?”
✓ 데이터의 정직성 - 데이터는 거짓말을 하지 않는다
데이터는 거짓말을 하지 않음에도 데이터를 신뢰할 수 없는 이유는 데이터를 잘못 수집하거나 보관하기 때문이다. ☞ 너무 적은 양의 데이터, 편향된 표본, 데이터의 왜곡 및 훼손 등은 바르지 못한 데이터이며 이런 경우 데이터 분석은 무의미하다.
✓ 데이터 과학의 윤리
- 데이터를 올바르게 분석할 뿐만 아니라 올바른 방법으로 데이터를 수집해야 한다.
✓ 정직하지 못한 데이터의 주요 원인
- 데이터 분석가의 비윤리성, 무지함, 환경의 제약
- 데이터 수집 시 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손
- 결측치 문제(동등한 조건에서의 비교가 필요 - 통계에 영향을 미치는 다양한 요인(조건)을 통제한 후 비교해야 함)
1-4) 공유데이터와 오픈소스(github)
✓ 공유데이터란?
- 모든 사람이 자유롭게 사용 및 재사용이 가능하며 재배포할 수 있는 데이터.
- 단순히 수치로 표현되는 측정치 또는 결과값으로 표현된다.
- 이용성 및 접근성이 높으며 재사용과 재배포가 가능하다. 보편적 참여가 가능하다.
공유데이터의 예시 : 통계청, 공공데이터포털 등
✓ 오픈소스
저작권자가 소스 코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어. 단순 데이토가 아닌 지적 창작물
R, 파이썬 : 오픈소스 통계분석 프로그램을 구성할 수 있고, 다른 프로그래밍 언어와 쉽게 연동된다. 빅데이터 시스템인 스파크와도 일부 기능을 공유한다.
* 인공지능에서의 오픈소스
텐서플로우 - 구글 머신러닝과 신경망 연구를 위한 소프트웨어
딥마인드랩 - 구글의 인공지능 개발 플랫폼. 누구나 인공지능 알고리즘을 테스트할 수 있게 함
✓ 깃허브
- 전세계에서 오픈소스 프로젝트 관리를 위해 가장 많이 사용되는 웹 호스팅 서비스. 2005년 리눅스 제작자 리누스 토발즈가 개발했다. 2800만명이 사용하고 있으며, 소스코드 저장소는 5700만 개. 마이크로소프트에서 인수하였다.
'데이터 과학 · 정보 통계' 카테고리의 다른 글
[포스텍 MOOC] 데이터 사이언스를 위한 통계학 입문(2주차) (0) | 2019.12.15 |
---|