본문 바로가기

Road to data engineer

빅데이터 엔지니어링 프로젝트 준비하기2 - 가장 기초적인 프로그램을 만들어보자

데이터를 처리하기 위해서는 데이터가 필요하다.

 

이미 준비되어 있는 데이터셋을 준비할수도 있겠으나, 이번 프로젝트의 목표는 데이터 처리이기 때문에

주기적 또는 실시간으로 발생하는 데이터가 필요하다.

 

데이터는 여러가지로 분류할 수 있겠으나, 데이터 주기별로 분류하면 아래와 같은 것이다.

 

1. Batch data : 주기적으로 발생하는 데이터를 말한다.

2. 실시간 data : 실시간으로 발생하는 데이터를 말한다.

3. event data : 어떤 event가 발생하명 생성되는 데이터를 말한다.

 

위와 같은 분류와 더불어 data 발생원에 따른 분류도 해볼수 있겠다.

 

1. DB

2. API

3. log

4. File

5. ... 

 

등등 여러가지가 있을것이다.

 

가장 작게는 어떤 데이터를 매일 수집해서 db에 적재하는 시스템을 만들어 볼수 있다.

내가 목표로 하는 시스템은 어떤 기계에서 발생하는 log data를 batch, real-time, event기반의 수집-적재하는 플랫폼을 만들어 보는 것이다.

 

하지만 현재로서 가장 가능한것은 특정 data (API 또는 crawling) 을 수집해서 mysql에 적재하는 정도일 것이다.

 

오늘의 목표 : 주기적으로 data를 불러와서 my sql에 적재하는 시스템

어떤 data를 불러올 것인가? 일단 정형 데이터, dart api를 이용한 공시 정보