PaaS/Data 34

증분데이터 처리를 위한 Netflix Maestro와 Apache Iceberg 활용

원문링크 : https://netflixtechblog.com/incremental-processing-using-netflix-maestro-and-apache-iceberg-b8ba072ddeeb Incremental Processing using Netflix Maestro and Apache Iceberg by Jun He, Yingyi Zhang, and Pawan Dixit netflixtechblog.com 개요 - IPS( incremental processing solution )는 Maestro를 기반으로 두 가지 Building Block(새로운 Trigger 메커니즘과 Step Job) 을 추가하여 모든 워크플로에 대한 증분 처리를 지원하는 확장 기능으로 구축되었습니다. 최소한의 O..

PaaS/Data 2023.11.29

(데이터시각화) Tableau Map (지도) 기반 시각화 웹사이트 노출 방법

샘플 대시보드 작성은 이전 포스팅 참조 : https://armyost.tistory.com/448 Tableau Map (지도) 기반 시각화 샘플 Tableau Desktop에서 Sample 데이터를 통하여 지도기반 시각화를 진행해보고자 한다. 1. Tableau Desktop의 데이터 레이어에서 '데이터에 연결'을 클릭한다. 2. '슈퍼스토어-샘플'을 클릭한다. 3. 테이블 - 주 armyost.tistory.com 이제 완성한 대시보드를 WebPage에 표시하는 방안이다. 1. 공유코자 하는 Tableau 대시보드를 들어간다. 2. '공유'를 클릭하여 표시되는 화면에서 '내장 코드 복사'를 클릭한다. 3. 그러면 아래와 같은 HTML 코드가 복사된다. 표시하고자 하는 Frontend 소스에 붙인다...

PaaS/Data 2023.11.27

(데이터시각화) Tableau Map (지도) 기반 시각화 샘플

Tableau Desktop에서 Sample 데이터를 통하여 지도기반 시각화를 진행해보고자 한다. 1. Tableau Desktop의 데이터 레이어에서 '데이터에 연결'을 클릭한다. 2. '슈퍼스토어-샘플'을 클릭한다. 3. 테이블 - 주문 - 위치 - '국가/지역' 을 클릭한다. 4. 표현방식 중에 내가 사용하고자 하는 템플릿을 클릭한다. 5. 맵 기반하에 표현하고싶은 데이터를 '테이블' 에서 선택한뒤 드래그엔 드룹으로 '마크'영역의 '색상'에 놓는다. 6. 색상으로 데이터를 구분할 수 있도록 표시된다. 7. 데이터도 같이 보여주고 싶다면, '레이블' 을 클릭한 후 '마크 레이블 표시'를 클릭한다. 8. 지도 밑바탕을 다르게 바꿔보고 싶다면 상위 메뉴 중 맵 - 백그라운드 레이어 를 선택한다. ※ 시도..

PaaS/Data 2023.11.27

(데이터시각화) Tableau 서버 설치하기

Hardware Requirement가 높다. 물리 4CPU Core 이상, Memory 64GB이상 관련 링크 : https://www.tableau.com/ko-kr/support/releases/server LINUX 버전 1: Tableau Server package 를 설치하고 Tableau Services Manager(TSM)을 시작하자 - server.rpm다운로드 : https://help.tableau.com/current/server-linux/en-us/jumpstart.html - 다운로드가 완료되면 RPM파일을 서버로 이관한다. - RPM 파일이 있는 위치에서 $ sudo yum install tableau-server-2023-3-0.x86_64.rpm ## sudo yum i..

PaaS/Data 2023.11.26

Cache Store(Redis) 읽기/쓰기 전략

1. Cache 읽기 전략 (Read Cache Strategy) cache hit : Cache Store (redis)에 데이터가 있을 경우 바로 가져옴 (빠름) cache miss : Cache Store (redis)에 데이터가 없을 경우 주기억장치(DB)에서 가져옴 (느림) 1) Look Aside 패턴(=Cache Aside 패턴) 데이터를 찾을때 우선 Cache에 저장된 데이터가 있는지 우선적으로 확인 후 Cache Miss 일 경우 DB(주기억장치)에서 조회 - 특징 : Look Aside 패턴은 애플리케이션에서 캐싱을 이용할때 일반적으로 사용되는 기본적인 Cache 전략이다. (Spring Cache도 본 로직 수행). 이 방식은 Cache에 장애가 발생하더라도 DB(주기억장치)에 요청을..

PaaS/Data 2023.11.05

ElasticSearch 의 Tokenizer와 Text Analyze 에 대해서

데이터 색인 과정에서 검색 기능에 가장 큰 영향을 미치는 단계가 Tokenizer이다. 데이터 분석 과정에서 Tokenizer는 반드시 한 개만 사용이 가능하며 tokenizer 항목에 단일값으로 설정된다. Tokenizer란 Document중에서 분석코자 하는 문자열(Text) Field를 쪼개기 하는 것이다. 예를들어 Letter 토크나이저를 활용하면, "quick.brown_FOx" 같은 단어도 "quick", "brown", "FOx" 처럼 모두 분리된다. 이렇게 분리된 Document를 Term기준으로 역인덱싱을 하게 된다. Term ID the doc1, doc2, doc3 brown doc1, doc4 jump doc1, doc2, doc3, doc5, doc6 이렇게 Token화 된 Ter..

PaaS/Data 2023.10.23

FlieBeat→ES 수집 설정은 어디서 해야 하는지?

수집대상의 FileBeat설정에서 인덱스에 대한 설정을 해줄 수도 있지만, 수집대상이 한두개가 아니면 일일이 세팅, 유지관리 하는것은 불편하다. 따라서 ES에 Index Template을 만들고 해당 Template에 걸리게끔 Filebeat에서 설정해주는게 현명하다. IndexTemplate을 설정하는 방법은 다음과 같다. 가. Index LifeCycle Policy 생성 - Index가 저장되는 Shard 생명주기를 관리하는 정책. Index Template에 해당 정책이 등록되게 되어 있음 나. Index Template 설정 - 서버에서 FileBeat Agent가 수집할때 ElasticSearch에서 정의한 Index Template 정책에 걸리도록 세팅 ※ 이때 was-jpkim* 이런식으로..

PaaS/Data 2023.08.06