본문 바로가기
Python (Data)/기타

[데이터 과학] 데이터의 중요성/ 데이터 과학의 정의 및 절차/ 관련 분야

by Gina Sim 2020. 5. 3.

 

데이터의 중요성

 

출처:  https://www.information-age.com/data-era-shifting-123476838/

지금 여러분이 이 글을 보고 있는 순간에도 수억 개

아니 수십억 개 그 이상의 데이터가 발생되고 있을 수 있습니다.

 

사람들이 마트에 가서 물건을 구입하고 인터넷 서핑을 하고,

문화생활을 즐기고 금융 거래를 하고,

그 외의 모든 활동들이 전산에 기록되고 인터넷 기록으로 남으면서

모두 '데이터화'되어 저장됩니다.

 

 

출처: Data Never Sleep 6 https://www.domo.com/learn/data-never-sleeps-6

'데이터는 잠들지 않는다 6.0'을 보면,

1분 동안 유튜브 시청이 433만 건, 기상 예측 접속이 1,805만 건,

넷플릭스 시청 9만 7천 건, 문자 발송 1,298만 건, 구글 검색 387만 건 등

상당히 짧은 '1분'이라는 시간 동안 인터넷을 타고 흐르는

'일부' 데이터만 해도 이렇게 수천만 건에 달합니다.

 

기업들은 이런 데이터에 기반한 전략을 세워 이윤 창출을 꾀하고

정부는 이 데이터에 근거해 미래 지향적인 정책을 결정하기도 합니다.

 

이처럼 데이터는 다양한 방면에서 매우 중요한 요인으로 자리매김하였고

더 이상 무시할 수 없는 '사회 간접 자본'이라 할 수 있습니다.

데이터로부터 어떤 가치를 얼마나 잘 뽑아내어 활용하느냐가

이 시장을 지배할 수 있는 요인이 될 것입니다.

 

 

대회 이름 주최 비고
데이터 사이언스 컴피티션 서울대학교 통계연구소 네이버, 커넥스재단,
네이버 클라우드 플랫폼 후원
디지털 헬스 해커톤 삼성융합의과학원 digitalhealthhack.org
빅 콘테스트 한국정보통신진흥협회와
한국정보화 진흥원
bigcontest.or.kr
날씨 빅 데이터 콘테스트 기상청 big.kma.go.kr/contest
데이터 사이언스 경진대회 지퍼(ZPER) dacon.io
캐글 컴피티션 캐글(Kaggle) kaggle.com
Data Science Game Paris-Saclay University datasciencegame.com
Data Hackathon Analytics Vidhya datahack.analyticsvidhya.com
Open Data Hackathon 키프로스 공화국 재정부 opendatavy.com
Asia Open Data Hackathon Asia Open Data Hackathon odhack.asia

 

데이터의 중요성이 부각되고 사람들의 관심이 높아지는 만큼

국내외에 걸쳐 데이터 과학과 관련된 많은 대회도 개최되고 있습니다.

실제 2018년 12월 25일 기준으로는 19개의 대회가

25,000~ 100,000 달러의 상금을 걸고 개최되었습니다.

 

시대의 흐름에 뒤처지지 않고 살아남기 위해서는

현재 데이터 중심으로 흘러가는 세계에 관심을 기울일 필요가 있습니다.

 


 

데이터 과학이란?

 

→ 데이터 과학은 정형화또는 비정형화된 여러 형태의 데이터로부터 지식과 직관을 추출하기 위해 과학적 방법, 과정, 알고리즘, 시스템을 활용하는 다학제학문 분야이다.

 

1) 정형 데이터: 일정한 구조를 지님

   예) 출석부- 학번, 이름, 학과, 학년 기록, 출석 표시(1: 출석/ 0: 결석)

 

2) 비정형 데이터: 일정한 구조를 지니고 있지 않음

   예) 이메일- 그림이나 표, 날짜, 사람 이름 등이 일정한 규칙 없이 섞여 있음

 

3) 지식: 데이터로부터 추론하여 얻은 새로운 규칙

   예) 케플러가 별자리 데이터 분석을 통해 행성의 운동 규칙 발견

 

4) 다학제적: 데이터 과학을 활용하기 위해 다양한 분야의 지식 필요

   - 컴퓨터 과학과 통계학에 대한 지식

   - 특정 데이터와 관련된 분야의 도메인 지식

 

→ 데이터 과학은 데이터로부터 일반화가능한 지식을 추구하는 연구

 

1) 일반화: 원래 데이터에 들어 있지 않은 새로운 데이터를 예측

   예) 온라인 쇼핑몰 신규 회원의 나이, 성별, 직업을 보고 구매 성향 예측

 


 

데이터 과학 관련 분야

 

1. 컴퓨터 과학

  : 데이터 과학은 이로부터 여러 가지 도구를 제공받아 사용

 

   1) 프로그래밍 언어

     - 문제 해결을 위한 도구

   2) 시각화 기법

     - 고전적인 시각화 도구로 표현할 구 없는 지도, 영상, 소리 등의 비정형 데이터 다룰 때 필요

   3) 기계 학습(machine learning)

     - 학습된 모델로부터 예측 수행 기법

     - 데이터를 가장 잘 설명하는 모델 알아냄

       예) 신경망, SVM(Support Vector Machine)

 

+) 딥러닝

   - 신경망을 깊은 구조로 확장한 기술

   - 가장 뛰어난 예측 성능을 보여줌

 

2. 통계학

  : 데이터를 처리하여 의사결정에 효과적인 요약 통계를 알아냄

 

   1) 확률과 통계

     - 데이터에서 추출한 각종 통계량 해석

   2) 시각화 도구

     - 히스토그램, 산점도, 박스 플롯 등

   3) 예측 모델

     - 회귀, 결정 트리, 랜덤 포리스트 등

 

3. 빅 데이터

  - 분산처리 기술을 활용하여 대용량 데이터를 효율적으로 처리

  - 데이터 과학과 문제 해결 방법론 및 소프트웨어 도구를 공유

 

   1) 분산 처리

     -데이터를 여러 컴퓨터에 분산 저장

      -> 데이터 처리를 여러 컴퓨터에서 나누어 수행

       -> 처리 결과를 하나로 합침

   2) 하둡(Hadoop)

     - 빅 데이터를 지원하는 대표적인 분산 처리 소프트웨어

 

+) 데이터마이닝

   - 데이터 과학과 관련 깊음

   - 데이터로부터 지식을 찾아내는 분야

   - 지식 추출뿐 아니라 예측과 시각화를 포괄

 


 

데이터 과학의 절차

 

“데이터 수집-> 탐색적 데이터 분석 -> 모델링“

 

1. 데이터 수집

   - 주어진 문제와 현장을 잘 살펴 수집 계획을 수립

   - 실제 현장에서 데이터를 수집ㆍ기록

2. 탐색적 데이터 분석

   - 수집한 데이터를 바탕으로 변숫값의 분포, 변수 사이의 상관관계 등을 분석하여 데이터의 특성 파악

   - 요약 통계량을 계산하거나 데이터 시각화 이용

3. 모델링

   - 데이터를 가장 잘 설명할 수 있는 모델 찾기

   - 모젤은 변수 사이의 관계를 나타내는 수학식으로 표현

 

 

☞ 피드백 루프

   : 데이터 과학의 세 단계는 한 방향으로만 일어나는 것이 아니라 상호작용함

 

+) 보고서

   - 자신의 돈벌이 해결을 위한 경우는 특별히 필요하지 않지만 업무일 경우 필요

   - 여러 통계량과 그래프, 분석 결과로 얻은 지식과 통찰, 정책 제안 등을 담음

 


 

데이터 과학 자원

 

1) 데이터 저장소

   - 캐글 데이터: https://www.kaggle.com

   - 대한민국 공공 데이터 포털: https://www.data.go.kr

   - UCI Machine Learning Repository: https://archive.ics.uci.edu/ml

   - 위키피디아에 "list of datasets for machine learning research“ 검색

 

2) 온라인 교육 사이트

   - 데이터 사이언스 아카데미: https://datascienceacademy.com/free-data-science-courses/

   - 에덱스: https://www.edx.org/course/subject/data-analysis-statistics

   - 코세라: https://www.cousera.org/courses?query=data%20science

 

3) 소프트웨어 도구

   - 통계 소프트웨어: SPSS, SAS, STATA

   - 프로그래밍 언어: R, 파이썬

 

4) R 공식 문서

   - CRAN(Comprehensive R Archive Network) 사이트: https://cran.r-project,org

 


모든 내용은 한빛아카데미의 <R로 배우는 데이터 과학>을 바탕으로 작성하였습니다.

 

반응형

댓글