프로젝트 돌입을 1주 앞두고 있다.
빅데이터 엔지니어링 프로젝트를 어떻게 준비할수 있을까?
몇가지 접근 방법이 있을것이다.
현업의 문제를 가져와서 생각해보자면
현업에서 데이터 플랫폼 구성단계에 고려해야 하는 요소가 무엇일까? 생각해볼수 있다.
그렇다면 현업에서 데이터 플랫폼 구성시 고려하는 요소에 대해 알아보자
1. 가용자원
- 비용
- 리소스
- 인력
2. 데이터
- source
- 크기
- 발생주기(?)
정도가 아닐까?
그렇다면 프로젝트를 구성함에 있어서도 위와 같은 설정사항을 고려해야 겠다.
프로젝트의 목적을 상기 시켜보자.
1. 데이터 플랫폼 구성해보기
2. 데이터 파이프라인의 일련 과정을 구성해보기. 그 일련과정은 발생-수집-적재-분석-시각화 일 것이다.
3. 일단 완성해보기. 완성이라 함은 수집에서 적재까지의 온전한 과정을 구현해보는 것이다.
위 목적 사항을 다 지켜보는 선이 줒요하기 때문에 작게 시작하는 것이 좋겠다.
가장 작은 것은 데이터 발생 - 적재하는 것이다.
예를 들어, 웹크롤링 - NoSQL에 적재하는 것이다.
그렇다면 선행적으로 준비해볼 부분은 데이터 발생과 그것을 db에 넣어보는 것을 해보자.
그리고 또 한가지 고려해볼 부분이 있다.
그것은 바로 학습 방법이다.
데이터 플랫폼을 구성하는 애플리케이션은 세가지 정도로 분류할수 있다.
1. 오픈소스
2. 상용서비스
3. 클라우드 서비스
2와 3은 비용문제로 지금 당장 사용할 수는 없으나, 3의 서비스들을 살펴보며 1과 맵핑하여 접근하는 학습방법은 아주 좋다고 생각한다.
따라서 위와 같이 접근해보도록 하자.
'Road to data engineer' 카테고리의 다른 글
| 객체지향 언어 이제 끝2 (0) | 2023.08.23 |
|---|---|
| 객체 지향 언어 이제 끝1 (0) | 2023.08.23 |
| 빅데이터 엔지니어링 프로젝트 준비하기2-2 - api data to nosql(mongodb) (0) | 2023.08.22 |
| 빅데이터 엔지니어링 프로젝트 준비하기2-1 - api data to mysql (0) | 2023.08.21 |
| 빅데이터 엔지니어링 프로젝트 준비하기2 - 가장 기초적인 프로그램을 만들어보자 (0) | 2023.08.21 |