본문 바로가기

Sprint_DA01/위클리 페이퍼20

위클리 페이퍼 #17 (2) - BigQuery 2. BigQuery에서 쿼리 성능을 최적화할 수 있는 방법에 대해 설명해주세요. (구글 등을 통해 리서치 하세요!)쿼리 성능 최적화 소개쿼리 성능BigQuery에서의 쿼리 성능 평가에는 다음과 같은 몇 가지 요소가 포함됩니다.입력 데이터 및 데이터 소스(I/O): 쿼리에서 읽는 바이트 수노드 간 통신(셔플): 쿼리에서 다음 단계로 전달하는 바이트 수, 쿼리에서 각 슬롯에 전달하는 바이트 수계산: 쿼리에 필요한 CPU 작업량출력(구체화): 쿼리에서 쓰는 바이트 수용량 및 동시 실행: 사용 가능한 슬롯 수와 동시에 실행 중인 다른 쿼리 수는 몇 개인가요?쿼리 패턴: 쿼리가 SQL 권장사항을 준수하나요?특정 쿼리를 평가하거나 리소스 경합이 발생하는지 평가하려면 Cloud Monitoring 또는 BigQue.. 2024. 12. 7.
위클리 페이퍼 #17 (1) - 데이터 웨어하우스 1. On-premise, Cloud, Serveless 데이터 웨어하우스의 특징에 대해 각각 설명해주세요.(출처: https://kr.teradata.com/insights/data-architecture/on-premises-vs-cloud)온프레미스 및 클라우드 비교: 각 환경의 장단점온프레미스에서 클라우드 애널리틱스까지애널리틱스를 위한 클라우드 솔루션을 도입하는 데 상대적으로 느린 반도체 제조와 같은 산업에서도 클라우드 컴퓨팅 트렌드는 데이터 아키텍처를 재구성하고 있습니다. 온프레미스 데이터 웨어하우스에 대한 기존 의존도는 점차 클라우드 인프라와 하이브리드 아키텍처로 변화하고 있으며, 이는 온프레미스 회사 데이터 센터 리소스와 퍼블릭 클라우드 서비스를 혼합합니다.2021년 반도체 엔지니어링 기사에.. 2024. 12. 7.
위클리 페이퍼 #16 - Airflow 1. 윈도우 환경에서 Airflow를 구동시키기 위해 어떤 환경설정이 필요한지 설명해주세요.Windows 환경에서 Apache Airflow를 설정하려면 몇 가지 사전 준비와 설정 단계가 필요하다. Airflow는 기본적으로 Unix 기반 시스템에서 잘 동작하도록 설계되었으므로, Windows에서는 몇 가지 추가 작업이 필요하다.[AIRFLOW] Window환경에 Airflow 설치 및 Dag import 확인(출처: https://velog.io/@newnew_daddy/AIRFLOW01)Window 환경에 Airflow를 설치하려면 상당히 고역이다. 엄밀히 말하자면 윈도우 로컬 환경에 설치는 어렵기 때문에 WSL의 도움을 받아 설치를 하곤하는데 Docker-Compose를 사용하면 아주 간단하게 We.. 2024. 12. 1.
위클리 페이퍼 #15 (2) - 엔터티, 속성, 관계 2. 논리적 모델링에서 사용되는 주요 구성 요소인 엔터티, 속성, 관계에 대해 설명해주세요.엔터티엔터티는 기업이 정보를 저장하려고 하는 어떤 중요한 곳이다. 예를 들어, ORDER(주문) 엔터니는 상품을 구매하는 관계자 간의 행위 정보를 저장하는 엔터티를 나타낸다.개념과 업무 규칙을 묘사하기 위해서 엔터티의 이름이 문장에 사용될 때는 일반 텍스트처럼 쓴다.예를 들어, '많은 기업은 판매 주문 정보를 저장하기 위해서 판매 주문 양식과 같은 방법을 보유하고 있다.' 와 같다.엔터티에 대한 명명법은 운영되는 정보를 반영한 가능한 의미 있는 단수 명사를 사용하는 것이다.추가로, 만약 ORDER(주문) 엔터티와 같이 실제로 발생한 특정 인스턴스를 나타내는 게 아니라 ORDER TYPE(주문유형) 엔터티와 같이 정.. 2024. 11. 20.
위클리 페이퍼 #13 - 결정 트리 / 부스팅 모델 Q. 결정 트리의 장점과 단점은 무엇인가요?A.결정트리란?  (출처:https://heytech.tistory.com/145) 의사결정나무(Decision Tree)는 설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나  분류하는 문제에 활용되는 나무 구조의 모델. 즉, 설명변수의 관측값을 모델에 입력해 목표변수를 분류하거나 예측하는 지도학습 기반의 방법론이다. 의사결정나무 모델을 사용하는 주된 이유는 다음과 같다. 목표변수(Y)를 예측하거나 분류 문제를 해결함에 있어서 어떤 설명변수가 가장 중요한 영향인자인지 확인할 수 있고, 나아가 각 설명변수별로 어떤 척도에 따라 예측 또는 분류했는지 상세한 기준을 알 수 있다는 장점이 있다. 의사결정나무의 장단점  (출처:https://heytech.. 2024. 11. 17.
위클리 페이퍼 #14 - Group by , Having / NULL 1. GROUP BY 절과 HAVING 절의 차이점은 무엇인가요?GROUP BY(출처: https://chaheekwon.tistory.com/entry/GROUP-BY-%EC%A0%88%EA%B3%BC-HAVING-%EC%A0%88)select 절에서 다중 행 함수를 특정 column에 적용하여 사용할 때는 GROUP BY 절을 사용해야 한다. 즉, GROUP BY 절은 기간별, 지점별 등과 같이 column 내의 특정 값을 기준으로 그룹을 묶을 때 사용한다. GROUP BY 절의 문법은 다음과 같다.SELECT 컬럼명 (OR 다중 행 함수), 컬럼명 (OR 다중 행 함수)FROM 테이블명WHERE 조건GROUP BY 그룹대상 (컬럼명)ORDER BY 정렬대상; HAVING(출처: https://cha.. 2024. 11. 15.
위클리 페이퍼 #15 (1) - 정규화 1. 데이터베이스 정규화란 무엇인가요? 또, 정규화의 장단점은 무엇인가요?정규화란?(출처 : '관계형 데이터 모델링 노트', '김기창')'우리들의 직관 또는 사고의 대상으로써 확정되어 있고 서로 명확히 구별되는 것들의 모임'칸토어가 말한 이 집합의 정의에 정규화(Normalization)에 대한 힌트 또한 있다.'서로 명확히 구별' 하기 위해서는 기준이 필요하다. 어떤 기준에 의해 구별 되는 것이다. 이 기준이 식별자다.식별자 중에서 업무 식별자(Business Identifier) 또는 후보 식별자(Candidate Identifier)다. 식별자에 종속된 유사한 속성들은 모으고, 종속되지 않은 독립적인 속성들은 분리하여 속성을 명확히 구별하는 것이 정규화다.정규화 과정을 거친 모델을 정규형(Norma.. 2024. 11. 15.
DBSCAN과 K-means의 비교_2 DBSCAN과 K-means는 데이터 클러스터링에 널리 사용되는 알고리즘이지만, 두 가지는 본질적으로 다른 방법론과 특성을 가지고 있습니다. 여기에서 DBSCAN과 K-means의 공통점과 차이점을 자세히 설명하겠습니다.공통점비지도 학습 알고리즘: DBSCAN과 K-means는 모두 레이블 없는 데이터를 그룹화하는 비지도 학습 방법입니다. 레이블이 없는 데이터를 비슷한 특성을 가진 그룹으로 묶기 위해 사용됩니다.거리 기반 클러스터링: 두 알고리즘 모두 거리를 사용하여 데이터의 유사성을 평가합니다. K-means는 유클리드 거리나 코사인 거리 등을 사용하고, DBSCAN은 유클리드 거리뿐만 아니라 밀도 기반의 거리 개념을 도입합니다.다차원 데이터 적용 가능: DBSCAN과 K-means는 모두 다차원 데이.. 2024. 11. 13.