Open the Doah !

《Data Science》 데이터 과학을 위한 통계 1~1.2 본문

DataScience

《Data Science》 데이터 과학을 위한 통계 1~1.2

한돠 2022. 11. 13. 23:03

study - 데이터 과학을 위한 통계 

 

 

 

 

 

 

CHAPTER1. 탐색적 데이터 분석

 

탐색적 데이터 분석 EDA 는 통계학에서 비교적 새로운 영역 

이전의 통계학에서는 추론, 즉 적은 표본을 가지고 더 큰 모집단에 대한 결론을 도출하기 위한 일련의 복잡한 과정에 관해 주로 다루었다 

 

1.1 정형화된 데이터의 요소 

센서 측정, 이벤트, 텍스트, 이미지, 비디오 등 수많은 소스로부터 우리는 데이터를 얻고 있다. 

데이터 과학에서 가장 중요한 것은 폭발적인 양의 raw 데이터를 활용 가능한 형태의 정보로 변환하는 것이다. 

 

 

🔎 용어 정리 

  • 연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 (유의어 : 구간형, 실수형, 수치형 데이터)
  • 이산형 : 횟수와 같은 정수 값만 취할 수 있다 (유의어 : 정수형, 횟수 데이터)
  • 범주형 : 가능한 범주 안의 값만을 취할 수 있다 (유의어 : 목록, 열거, 요인, 명목, 다항형 데이터)
  • 이진 : 두 개의 값 (0 , 1 / 참, 거짓) 만을 갖는 범주형 데이터의 특수한 경우다 (유의어 : 이항적, 논리형, 지표 indicator, 불리언 데이터)
  • 순서형 : 값들 사이에 분명한 순위가 있는 범주형 데이터다 (유의어 : 정렬된 요인 데이터)

 

 

이 중 수치형 데이터범주형 데이터, 이 두가지가 정형 데이터의 가장 기본이 되는 종류

 

수치 데이터에는 풍속이나 지속 시간 같은 연속형 데이터, 그리고 사건의 발생 빈도와 같은 이산 데이터가 있다

범주형 데이터는 TV 스크린 종류 (플라즈마, LCD, LED) 나 도시명(대전, 부산, 서울 등)과 같이 범위가 정해진 값들을 갖는 경우를 의미한다 

이진 데이터는 이러한 범주형 데이터 중에서도 0과 1, 예/아니오, 혹은 참/거짓과 같이 두 값 중 하나를 갖는 아주 특수한 경우를 의미한다 

범주형 데이터 중 또 다른 유용한 형태는 범주 안의 값들이 순위를 갖는 순서형 데이터이다 

수치로 나타낼 수 있는 평점 1,2,3,4,5 가 순서 범주 데이터의 대표적인 예라고 할 수 있다 

 

 

데이터가 문자열인지 아니면 일정한 범위가 주어진 범주형인지 확실히 구분할 경우 다음과 같은 이점이 생긴다 

  데이터가 범주형이라는 정보는 소프트웨어가 차트 생성이나 모델 피팅 등 통계분석을 수행하는 방식을 결정하는 데 큰 도움을 준다. 예를 들어 R이나 파이썬에서는 순서형 데이터를 ordered.factor라고 구분하여 표현하고, 이를 차트, 테이블, 통계 모델에서 사용자가 원하는 순서를 유지하는 데 사용한다. 

  관계형 데이터베이스에서처럼 저장소와 인덱싱을 최적화하는 데 사용한다.

  범주형 변수가 취할 수 있는 값들은 소프트웨어적으로 처리가 가능하다 (enum처럼) 

 

 

<주요 개념>

■ 일반적으로 소프트웨어에서는 데이터를 종류별로 구분한다

■ 데이터 종류에는 연속, 이산, 범주 (이진 포함), 순서 형태가 있다

■ 소프트웨어에서 데이터 종류를 정하는 것은 해당 데이터를 어떻게 처리할지를 정하는 것과 같다 

 

1.2 테이블 데이터 

 

데이터 분석에서 가장 대표적으로 사용되는 객체 object의 형태는 엑셀 스프레드시트나 데이터베이스의 테이블과 같은 테이블 데이터이다. 

 

🔎 용어 정리

  • 데이터 프레임 data frame : 통계와 머신러닝 모델에서 가장 기본이 되는 테이블 형태의 데이터 구조를 말한다 
  • 피처 feature : 일반적으로 테이블의 각 열이 하나의 피처를 의미한다 ( 유의어 : 특징, 속성, 입력, 예측변수 predictor,변수) 
  • 결과 outcome : 데이터 과학 프로젝트의 목표는 대부분 어떤 결과를 예측하는 데 있다 (예를 들어, '경매에 경쟁이 있는가' 라는 질문에 대해 예/아니오 형태와 같은 결과), 실험이나 연구에서 결과를 예측하기 위해 피처를 사용한다 (유의어 : 종속변수, 응답, 목표, 출력) 
  • 레코드 record : 일반적으로 테이블의 각 행은 하나의 레코드를 의미한다 (유의어 : 기록값, 사건 case, 사례, 예제, 관측값, 패턴, 샘플)

 

테이블 데이터는 기본적으로 각 레코드(사건)를 나타내는 행과, 피처(변수)를 나타내는 열로 이루어진 이차원 행렬이라고 할 수 있다. 데이터가 이런 형태로 얻어지지 않는 경우, 데이터 분석이나 모델링을 하기 위해 하나의 테이블 / dataframe 형태로 변환해야 한다 

 

[표 1-1]에는 횟수나 측정값을 나타내는 데이터 (기간과 가격), 그리고 범주형 데이터 (분류, 통화 단위) 등 여러 데이터 종류가 섞여 있다. 표의 맨 오른쪽 열에는 경매가 경쟁력이 있는지 없는지를 나타내는 이진변수 (예/아니오 또는 0/1)도 보인다

 

 

 

1.2.1 데이터 프레임과 인덱스 

데이터베이스에서 하나 혹은 그 이상의 열을 인덱스로 지정한다. 이를 통해 SQL 쿼리 성능을 크게 향상할 수 있다. 

파이썬의 pandas 와 같은 라이브러리에서는 기본 테이블형 데이터 구조를 위해 DataFrame 객체를 제공한다. 기본적으로 DataFrame에서는 각 행마다 순차적으로 정수인 값을 붙여 이를 인덱스로 사용한다. 또한 pandas 는 다중/계층적 인덱스를 설정할 수 있도록 되어 있어 복잡한 동작도 효과적으로 처리할 수 있다. 

유사하게 R에서도 data.frame이라는 객체를 제공한다 

 

 

 

용어 차이 

테이블 데이터 관련 용어가 혼란스러울 수 있다. 통계학자들과 데이터 과학자들은 같은 것을 두고 서로 다른 용어들을 사용하기도 한다 

통계학자들은 응답변수 response variable 나 종속변수 dependent variable 를 예측하는 모델에서 예측변수 predictor variable 라는 용어를 사용한다 

데이터 과학자들은 목표 target 를 예측하는 데 피처를 사용한다는 식으로 표현한다 

컴퓨터 과학을 하는 사람은 보통 각각의 행을 하나의 샘플이라 부르는 반면, 통계학자는 여러 행의 집합을 하나의 샘플이라 부른다 

 

 

1.2.2 테이블 형식이 아닌 데이터 구조 

테이블 형식이 아닌 다른 형태의 데이터 구조도 있다 

 

시계열 데이터는 동일한 변수 안에 연속적인 측정값을 갖는다. 

이는 통계적 예측 기법들을 위한 원재료가 되며, 사물 인터넷과 같이 다양한 디바이스에서 생산되는 데이터들에서 중요한 요소이다. 

 

지도 제작과 위치 정보 분석에 사용되는 공간 데이터의 경우, 테이블 데이터보다 좀 더 복잡하고 다양하다. 

객체 object 를 표현할 때는, 어떤 객체 (ex. 주택) 와 그것의 공간 좌표가 데이터의 중심이 된다. 

반면 필드 field 정보는 공간을 나타내는 작은 단위들과 적당한 측정 기준값 (ex. 픽셀의 밝기)에 중점을 둔다 

 

    * 객체와 필드는 지리 정보 분야에서 많이 사용되는 전문 용어로, 객체란 하나의 실체로 인식될 수 있는 것들 (건물, 도로, 필지 등)과 그것의 위치 정보를 의미하고, 필드란 일정 공간 상에 연속적으로 분포된 특정 계량값들 (기온, 수온, 압력 등)을 의미한다 

 

 

 

통계학에서의 그래프

컴퓨터 과학과 정보공학에서 그래프라는 용어는 일반적으로 어떤 개체 entity들 사이의 연결 관계를 묘사하기 위한 도구이자 일종의 데이터 구조로 사용된다. 통계학에서 그래프는 개체들 사이의 연결 관계라기보다는 다양한 도표와 시각화 방법을 의미하며, 용어 자체도 데이터 구조가 아닌 시각화에 주로 적용된다. 

 

 

<주요 개념>

■ 데이터 과학에서 기본이 되는 데이터 구조는 행과 열이 각각 레코드와 변수 (피처)를 의미하는 테이블 모양의 행렬이다

■ 용어가 혼란스러울 수 있으니 주의. 데이터 과학에 관련된 서로 다른 학문들 (통계, 컴퓨터 과학, 정보공학)은 저마다 다양한 용어를 사용한다

 

 

'DataScience' 카테고리의 다른 글

《Data Science》 데이터 과학을 위한 통계 1.3  (0) 2022.11.14
Comments