본문 바로가기

Big Data3

데이터 엔지니어(Data Engineer)와 데이터 사이언티스트(Data Scientist), 데이터 분석가(Data Analyst) 차이점 '데이터(Data)'를 흔히 21세기 석유라고 말한다. 전 세계 산업을 움직이고 있는 '석유(Petroleum)'처럼 데이터가 산업에 지대한 영향을 미친다는 의미다. 데이터를 잘 다룰 수 있는 데이터 파이프라인을 구축하여 데이터에 기반한 의사결정 (Data-driven dicision making)을 할 수 있는 시스템 구축 할 수 있는지 여부가 기업의 경쟁력을 좌우하게 되었다. 이와 함께 등장한 그럴싸한 단어가 '빅데이터(Big Data)'이다. 무지막지하게 쌓이고 있는 데이터를 분석하여 좀 더 과학적이고, 통계에 기반한 의사결정을 해서 기업이 올바른 방향으로 나아갈 수 있게 도와주는 것이다. 이런 데이터 처리, 분석 기술은 필수가 되었다. 기업에서 데이터를 다루는 직종도 다양해지고 있다. 그 중에서 .. 2019. 1. 5.

[Kafka] #2 - 아파치 카프카(Apache Kafka) 설치 및 실행, Quickstart 아파치 카프카의 웹 페이지를 보면 카프카를 처음 접하는 사람들도 쉽게 써볼 수 있는 "퀵 스타트(Quick Start)" 항목이 있다. 다운로드부터 간단한 실행까지 쉽게 따라할 수 있는 예제들이 정리되어 있다. 1. 다운로드카프카 다운로드 페이지에서 카프카 릴리즈 패키지를 다운로드 할 수 있다. 참고로 카프카 아카이브에서 이전 버전을 포함한 다양한 버전의 카프카 릴리즈 패키지를 내려받을 수 있다. 적당한 패키지를 다운로드하고 압축을 풀어준다. 12$ tar -xzf kafka_2.11-2.1.0.tgz$ cd kafka_2.11-2.1.0cs 2. 서버 시작압축을 풀어내면 카프카를 위한 다양한 바이너리들과 설정 파일들이 들어있다. 카프카는 주키퍼를 사용해 내부 클러스터 멤버십 관리를 한다. 따라서 카프.. 2018. 12. 19.

[Kafka] #1 - 아파치 카프카(Apache Kafka)란 무엇인가? 데이터 파이프라인(Data Pipeline)을 구축할 때 가장 많이 고려되는 시스템 중 하나가 '카프카(Kafka)' 일 것이다. 아파치 카프카(Apache Kafka)는 링크드인(LinkedIn)에서 처음 개발된 분산 메시징 시스템이다. 2011년 오픈소스로 공개되었으며 이후 2012년 10월 아파치 인큐베이터를 종료했다. 현재 링크드인에서 카프카를 개발하던 제이 크렙스(Jay Kreps)를 비롯한 일부 엔지니어들이 'Confluent'라는 회사를 설립하여 카프카와 관련된 일을 하고 있다. 카프카라는 이름은 유명한 작가인 '프란츠 카프카(Franz Kafka)'에서 따왔다. (참조 : Quora) I thought that since Kafka was a system optimized for writi.. 2018. 12. 18.

이전 1 다음

티스토리툴바