기본적인 분석

마지막 업데이트: 2022년 1월 5일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기
GA와 Big Query

기본적인 DNS Packet 분석

DNS는 UDP나 TCP를 통해 실행할 수 있으며, TCP를 이용하는 경우는 Zone 전달이나 큰 DNS 쿼리를 보낼 때 이용 하며, 일반적으로 UDP를 이용하는 DNS 쿼리/응답 패킷만 볼 수 있다. DNS 메시지의 기본적인 분석 형태는 기본적으로 다음과 같이 구성 되어 있으며, 생략되는 경우도 있다.

Header
Question
Answer
Authority
Additional

[그림.1 DNS 메시지 기본 형태]

ID
OR
Opcode
AA
TC
RD
RA
Z
RCODE
QDCOUNT
ANCOUNT
NSCOUNT
ARCOUNT

DNS Header는 총 12Byte로 이루어져 있며, 아래 [그림.기본적인 분석 3]과 [그림.4]는 DNS 표준 Query 와 Query Response 패킷을 와이어샤크 (Wireshark)를 이용하여 캡처한 내용이다.

월간중앙

대기업 신입사원이던 시절부터 증권투자를 시작했다는 키움닷컴 증권의 장세호(48) 자문역. 17년간의 증권투자 경험을 살리고자 회사를 그만두고 올해 초부터 본격적으로 증권에 뛰어들었다. 그는 엘리오트 파동 이론에 관해 섭렵해 왔다. 엘리오트 파동 이론은 대표적인 기술 분석 이론으로 주가의 변동은 상승5파 하락 3파로 움직이면서 계속해서 순환한다는 이론이다. Q.지금 사면 상투라고 생각하는 종목은?

좋아요( 0 ) 콘텐트 구매안내 목록보기

  • 금주의 베스트 기사

상호명 : 중앙일보에스 주식회사 / 대표자 : 박장희 / 고객센터 : 1588-5792 / 팩스 : 02-6442-5390
서울특별시 중구 서소문로 100 J빌딩 8~10층 / 사업자등록번호 : 220-86-68312 / 통신판매업신고번호 : 제 2014-서울중구-1286호

정기간행물사업자 번호 -
중앙일보에스의 모든 콘텐트(기사)는 저작권법의 보호를 받은바, 무단 전재ㆍ복사ㆍ배포 등을 금합니다.
Copyright by Joongangilbos Co.,Ltd. All Rights Reserved.

상호명 : 중앙일보에스 주식회사 / 대표자 : 박장희
사업자등록번호 : 220-86-68312 / 팩스 : 02-6442-5390
서울특별시 중구 서소문로 100 J빌딩 8~10층
통신판매업신고번호 : 제 2014-서울중구-1286호

정기간행물사업자 번호 - 월간중앙 : 서울중,라00132 / 포브스 : 서울중,라00140
Copyright by Joongangilbos Co.,Ltd. All rights reserved.

이동건

데이터 분석에 관심이 있지만 통계학을 체계적으로 배운 적이 없어서, 시중에 나와 있는 통계학 책을 조금씩은 건드려 보았다. 대학교 교재로 쓰이는 ‘통계학입문’ 원서, ‘빅데이터를 지배하는 통계의 힘’ 기본편과 실무활용 편. 통계학입문 원서가 가장 확실하게 배우는 방법이지만 지루하고 느리다는 문제가 있다면, 교양서 형태의 이런 책들은 쉽게 읽히는 반면 책 한 권 한권의 깊이가 약하다.

교양서가 깊이가 약한 건 어쩔 수 없지만, 때로는 약한 깊이를 보완할 수 있는 독특한 방식으로 책의 가치를 올리기도 한다. 이 책의 경우 ‘데이터 분석에는 통계학이 필요하다 -> 통계학을 배우기 위해서는 기초 수학이 잡혀 있어야 한다’는 접근방식이 효과적이었다. ‘데이터 정리를 위한 기본 수학’, ‘상관관계를 알기 위한 수학’, ‘흩어져 있는 데이터 분석을 위한 수학’, ‘연속 데이터 분석을 위한 수학’ 등으로 목차가 나뉘어 있다. 각 목차마다 필요한 수학 개념이 무엇인지 기초부터 설명하고, 해당 개념이 적용된 통계학 개념까지 설명해 주는 방식이다.

다른 책, 이를테면 ‘빅데이터를 지배하는 통계의 힘’ 책은 수식을 활용한 설명을 아예 배제하고 직관적인 설명을 고수한다. 언뜻 생각하면 수학 없이 말로 이해할 수 있다면 더 좋은 방식이라고 볼 수도 있다. 하지만 직관적인 설명을 가장 잘 이해하는 사람은 수학 지식 없이 통계를 배우려는 사람이 아니라, 통계 개념의 수학적 근거를 정확히 아는 사람이다. 통계학이 처음부터 수학이라는 도구의 기본적인 분석 힘을 빌려 발전했고, 그 결과가 나온 다음에야 비로소 수학 없이 말로 풀어낼 수 있기 때문이다. 특히나 개념을 ‘이해’하는 정도는 비유하고 예시를 들어서 설명할 수 있지만, 개념을 ‘활용’하기 위해서는 결국 수학이 필요할 수밖에 없다.

중ㆍ고등학교 때 배웠던 수학으로 통계학의 기초를 다질 수 있지만, 너무 오래 전에 배워서 잊어버린 사람에게 유용한 책이다. ‘데이터 정리를 위한 기본 수학’에는 평균과 대푯값의 정의, 나눗셈의 2가지 의미, 히스토그램의 개념을 되짚는다. 분산과 표준편차를 이해하는 데 필요한 제곱근과 다항식의 전개법을 설명한다. 1차함수와 2차함수의 그래프 그리기, 최댓값과 최솟값, 판별식과 그래프의 관계 등을 배운 뒤, 통계학에서 자주 쓰이는 상관계수를 도출하는 방법을 보여준다.

조금 아쉬운 점이라면, 기초 통계학의 핵심인 t분포, F분포 등을 이용한 가설 검정 부분의 안내가 부족했다. 이 책을 열심히 공부해서 기초 수학과 통계의 필수 개념을 잡았다면, 본격적으로 통계학의 진가가 드러나는 첫 단계가 가설 검정이다. 물론 가설 검정까지 다루면 이미 400페이지가 넘어가는 책의 두께가 너무 커져서 질려버릴 것이다. 하지만 이 책으로 통계학에 입문한 독자들에게 ‘지금까지 배운 내용을 바탕으로 통계학의 진가를 볼 수 있는 핵심 개념이 바로 가설 검정이다. 안타깝게도 이 책에서는 다루지 않지만, 이러이러한 사이트나 책을 참고하면 학습에 도움이 될 것이다’라는 맺음말이라도 있으면 어땠을까 싶다.

개인적으로는 ‘(통계가 빨라지는) 수학력 - 빅데이터 분석에 필요한 기본 수학’을 다 읽었으면 다음 학습서로 ‘빅데이터를 지배하는 통계의 힘 - 실무활용 편’이 도움이 되리라 생각한다. 가설검정과 표준오차, 회귀분석에 대한 설명이 나와 있는데, 같은 시리즈인 ‘기본 편’에서 통계학에 필요한 수학을 거의 다루고 있지 않다. 이 책으로 통계와 수학의 기초를 다졌다면 한결 수월하게 통계학 개념을 따라갈 수 있을 것이다.

대표적인 시계열 모델 설명

자기상관성을 시계열 모형으로 구성한 것을 AR모형이라고 부르는데, 가장 간단한 형태가 바로 직전 데이터가 다음데이터 영향을 준다고 가정한 AR(1) 모형이다.

X(t) = +u*e(t)

이 식을 서술하면 시점 t에서 얻게 될 X(t)의 평균값은 시점 t-1에서 얻었던 X(t-1)기본적인 분석 의 값에 a를 곱하고 c를 더한 것 과 같다는 뜻이다.

X(t) = 시점 t 에 얻게 될 X(t)의 평균값

e(t) = White noise(평균이 0 이고 분산이 1인 정규분포에서 도출된 random 값)

X(t) 기본적인 분석 값은 평균이 a*X(t-1)+c이며 분산이 u인 정규분포에서 도출디는 임의의 값이라는 뜻이다.

2.이동평균(Moving Average) - MA 모형

시간이 기본적인 분석 기본적인 분석 자날수록 어떠한 Random Varianabled의 평균값이 지속적으로 증가하거나 감소하는 경향이 생길수 있다.

ex) 여름에 가까워질수록 전기값이 올라가고 겨울이 될수록 낮아지는 경향

이러한 경우 평균이동이 있는 시계열 데이터가 될 가능성이 높다.

이동평균을 시계열 모형으로 구성한것을 MA 모형이라고 부른다. 이모델중 가장 간단한 형태가 MA(1) 모형이다.

X(t) = +u*e(t)

X(t)의 평균값은 시점 t-1에서 발생한 error e(t-1)의 값에 a를 곱하고 c 를 더한것과 같다는 뜻이다.

X(t) 값은 평균이 a*e(t-1)이며 분산이 u인 정규분포에서 도출되는 임의의 값이라는 뜻이다.

AR과의 차이는 MA는 error값에 초점을 두고 AR은 X(t-1)값에 초점을 둔다.

3.ARMA(Autoregressive Moving Average) 모형

AR모형과 MA 모형을 합친것으로 연구기관에서 가장 선호되는 모델이다.

X(t) = + +u*e(t)

원글자가 가장 좋아하는 모형은 ARMA(2,2)모형이다.

4.ARIMA(Autoregressive Integrated Moving Average) 모형

ARMA모형이 과거의 데이터들을 사용하는 것에 반해 ARIMA 모형은 과거의 데이터가 지니고 있는 추세데이터까지 반영하게 된다.

즉 Correlation 뿐 아니라 Cointegration까지 고려한 모델이다.

Correlation - 서로간의 선형관계

Cointegration - 추세관계

Cointegration은 시점이 고려되지 않으면 성립하지 않기 때문에 시계열 데이터에만 쓰이는 개념이다.

Correlation 0보다 크면 => x가 클때 y값도 큰값을 가진다.

Correlation 0보다 작으면 => x가 클때 y값은 작은값을 가진다.

Cointegration 0 보다 크면 => x의 값이 이전 값보다 증가하면 y 값은 현재는 작은값이지만 곧 증가하는 추세로 바뀐다.

Cointegration 0 보다 작으면 => x의 값이 이전값보다 증가하면 y 값은 현재는 큰값이지만 곧 하락하는 추세로 바뀐다.

채용공고에 나오는 7가지 데이터 기본적인 분석 분석 툴 완벽 정리 (feat. 파이썬, R…)

코로나 시대로 진입하면서, 여러 산업환경이 빠르게 변화하고 있다. 동시에 대부분의 산업이 온라인화 되면서 데이터 분석에 대한 관심도 계속해서 커지는 추세다. 예전에 비해, 이제 대학에서 빅데이터 관련 학부나 데이터 전문가를 육성하는 전공들을 보는 것도 어렵지 않아졌다. 이러한 변화는 사실 데이터 관련 산업의 성장에서 시작한다고 볼 수 있다. 데이터 관련 산업이 크게 발전하면서 관련된 인력을 채용하는 기업들이 많아졌기 때문이다.

데이터 분석 툴

데이터 분석 채용공고 뜯어보기

그렇다면 기업에서 요구하는 데이터 분석가는 구체적으로 기본적인 분석 어떤 사람들일까? 채용정보 사이트 잡플래닛에 ‘데이터 분석’ 키워드를 검색해본 결과를 확인해보자. 다음은 ‘마이리얼트립’이라는 한 기업의 데이터 분석 매니저 직군 채용공고이다.

데이터 분석 툴

출처 : 잡플래닛

기본적으로 SQL과 파이썬, R 등을 활용해 데이터를 추출하고 가공하며 기본적인 통계학과 실험 방법론에 대한 이해가 있는 사람을 요구하고 있다. 이외 우대사항으로 GA와 BigQuery 등 로그 분석 툴을 사용할 수 있는 사람을 찾는 걸로 보인다.

데이터 분석 툴

GA와 Big Query

아마 이 공고를 읽어보고 ‘이게 대체 무슨 소리지?’ ‘이렇게 많은 것을 해야 한다니’라고 생각하는 사람도 있을 것이다. 데이터 분석 직군은 그 분야나 업무의 커버리지(Coverage)가 매우 넓다. 때문에 데이터 분석이라는 직무에서 원하는 역량도 굉장히 많고 다양한 편이다. 실무에서 주니어를 찾아보기 어려운 것도 이 때문이다.

데이터 분석가에게 요구하는 역량은?

결국 포인트는, 데이터 분석 직군에서 요구하는 역량이 매우 많다는 점이다. 그리고 파이썬이나 SQL과 같은 도구를 활용해서 뭔가를 처리할 수 있는 실질적인 능력을 원한다는 점이 핵심이다.

데이터 분석 직군에서는 개발자들이 세팅한 환경에서 ‘데이터를 가지고 얼마나 잘 놀 수 있느냐’가 중요하다. 데이터를 가지고 잘 놀려면 결국 ‘도구’를 잘 써야 하고, 여기에는 다양한 코딩 언어나 엑셀, 구글 빅쿼리, 태블로와 기본적인 분석 같은 프로그램이 포함된다. 이외에 팀 단위로 일하는 데이터 분석 업무에 요구되는 협업을 위한 커뮤니케이션 능력도 당연히 중요하다.

데이터 분석 툴

데이터 분석의 기본 과정은?

데이터 분석의 기본 과정은 산업마다 조금씩 다르겠지만, 아래의 4단계를 필수적으로 거친다.

1. 데이터 수집
회사에 소속되어 있는 데이터 분석가들은 보통 데이터를 직접 수집하지 않는다. 이미 데이터가 있는 상태에서 업무를 시작하게 된다. 혹시 회사에 소속되지 않았다면, 이미 공개된 공공 데이터를 찾아 활용하거나 크롤링을 통해 데이터를 직접 수집해야 한다.

2. 데이터 탐색(EDA)
수집한 데이터를 다양한 관점으로 파악하는 과정이다. 탐색적 데이터 분석(Exploratory Data Analysis)이라고 부르기도 한다. 데이터를 본격적으로 분석하기 전에 데이터에 문제가 없는지 이상치나 결측치 등을 확인한다.

3. 데이터 전처리
Real Data는 분석에 적합하지 않다. 수집한 데이터를 실제로 분석에 사용할 수 있게끔 처리하는 과정을 전처리라고 한다. 생선을 먹기 전에 손질하는 것과 동일한 맥락이다. 어떤 Feature을 사용할지, 보고 싶지 않은 데이터는 어떻게 정리할지 등을 고민한다.

4. 데이터 모델링
데이터 모델링(data modeling)이란 주어진 개념으로부터 논리적인 데이터 모델을 구성하는 작업을 말하며, 일반적으로 이를 물리적인 데이터베이스 모델로 환원하여 고객의 요구에 따라 특정 정보 시스템의 데이터베이스에 반영하는 작업을 포함한다. 후자의 의미로 흔히 데이터베이스 모델링으로 불리기도 한다.

데이터 분석 툴 7가지 특징별로 정리

채용공고에 가장 자주 등장하는 데이터 분석 툴은 아래의 7가지로 요약된다. 각각의 데이터 분석 언어 또는 프로그램이 어떤 특징을 가지고 있는지 알아보자.

데이터 분석 툴

쉽고 직관적인 프로그래밍 문법이 장점이다. 수칙 연산, 데이터 처리, 시각화까지 모두 처리할 수 있어 데이터 분석 업무에 넓게 활용된다. 데이터 분석 결과를 다른 웹 애플리케이션에 접목하거나 통계적인 코드를 데이터베이스에 포함시켜야 할 때 효과적으로 쓸 수 있다(관련 글 : 데이터 분석, R로 시작할까 파이썬으로 시작할까?).

데이터 분석 툴

엑셀로 처리하기 힘든 방대한 양의 데이터를 처리하기에 적합하다. 즉시 사용 가능한 테스트 SET를 R에서 제공하고, 시각화에 효과적이라 연구 목적이 아니더라도 다양한 데이터 분석 업무에서 활용된다.

엑셀(EXCEL)

데이터 분석 툴

데이터 직군이나 개발 직군이 아니더라도, 대부분의 회사원들이 사용하는 사무용 프로그램이다. 아주 대용량의 데이터가 아니라면, 엑셀의 기능만 활용해도 데이터를 효과적으로 처리하고 분석하는데 무리가 없다.

데이터 분석 툴

간단한 쿼리문 몇 줄로 대용량의 고객 데이터를 체계적으로 추출하고 관리할 수 있다. 다른 프로그래밍 언어에 비해 배우기 쉬워, 데이터 전문 직군이 아닌 마케터나 기획자 직무에서도 SQL 역량을 갖추는 추세이다(관련 글 : 데이터 분석 정말 공부해야 하나 싶은 당신을 위한 입문 강의 추천).

태블로(Tableau)

데이터 분석 툴

다양한 시각화 차트가 제공되는 태블로는 ‘데이터 스토리텔링’에 특히 효과적이다. 데이터 분석 업무 자체보다는, 데이터 분석 결과를 통한 사내 커뮤니케이션이나 업무 보고에 활용하기 좋다.

Power BI

데이터 분석 툴

엑셀을 포함한 Microsoft Office 어플리케이션 기반으로 활용할 수 있는 협업 툴이다. 개인적으로 열람했던 데이터를 협업이 필요한 관계자들끼리 공유하고, 커스텀 대시보드로 데이터 시각화에 활용할 수 있다.

구글애널리틱스(Google Analytics)

데이터 분석 툴

GA는 흔히 마케팅에 국한해서 쓰인다고 생각하기 쉽다. 하지만 GA는 웹 로그 데이터 분석에 범용적으로 쓰이는 대표적인 분석 툴이다. 어떤 분야의 고객 데이터든, 심층적으로 분석하여 광고 효율과 제품의 매출을 개선시킬 수 있다.

데이터 분석의 핵심은 추출이 아닌 의사결정

데이터 분석가로 취업이나 직무 전환을 생각하고 있다면, 무엇보다 데이터 분석의 핵심 가치를 명확히 이해하고 있어야 한다. 데이터 분석의 핵심은 데이터의 분석 그 자체가 아닌 이후의 의사결정에 있기 때문이다.

  • 수집한 데이터에서 어떤 가치를 뽑아내는가?
  • 데이터를 분석해서 어떤 걸 얻고 싶은가?
  • 데이터를 통한 올바른 의사결정을 할 수 있는가?

결국 데이터 분석 자체도 중요하지만, 데이터 분석이라는 단계를 거쳐 ‘이후에 어떤 가치를 연쇄적으로 만들어낼 수 있는가’까지 고민하는 것이 필요하다.

데이터 분석 툴

기업에서 요구하는 데이터 분석 역량, 언제 어떻게 다 준비할 지 고민하세요? 이제 온라인 강의 하나로 완벽 대비해보세요. 채용공고에서 가장 많이 요구하는 데이터 분석 툴 7가지를 54시간 분량의 온라인 강의에서 원하는 대로 골라 배울 수 있습니다. 기능을 제대로 활용해보기 기본적인 분석 위한 200여 개 실습까지 강의 안에서 모두 제공됩니다. 지금 커리큘럼을 자세히 확인해보세요!

데이터 분석 툴

기업에서 요구하는 데이터 분석 툴 7가지 기본적인 분석
온라인으로 배우고 원하는 곳으로 취업하고 싶다면? ↓
데이터 분석으로는 만족할 수 없다!
최근 트렌드로 떠오르는 딥러닝/인공지능까지 마스터하고 싶다면? ↓


0 개 댓글

답장을 남겨주세요