Sprint_DA01/위클리 페이퍼20 위클리 페이퍼 #12 - 편향과 분산 / K-폴드 교차검증 Q. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.A.편향? 분산? 머신러닝과 무슨 상관인가 (출처: https://opentutorials.org/module/3653/22071) 지도학습(Supervised Learning)에 대해서 이야기를 할 때는 사람이 정해준 정답이 있고, 컴퓨터가 그 정답을 잘 맞추는 방향으로 훈련(training)을 시킨다.정답 하나를 맞추기 위해 컴퓨터는 여러 번의 예측값 내놓기를 시도하는데, 컴퓨터가 내놓은 예측값의 동태를 묘사하는 표현이 '편향' 과 '분산' 이다.예측값들과 정답이 대체로 멀리 떨어져 있으면 결과의 편향(bias)이 높다고 말하고,예측값들이 자기들끼리 대체로 멀리 흩어져있으면 결과의 분산(varia.. 2024. 10. 26. 위클리 페이퍼 # 11 - 지도 학습과 비지도 학습 / 손실함수 Q. 지도 학습과 비지도 학습의 차이는 무엇인가요?A.지도학습과 비지도 학습의 차이점 (출처: https://https://aws.amazon.com/ko/compare/the-difference-between-machine-learning-supervised-and-unsupervised/ww.waveon.io/blog/ab_test) 지도 학습 알고리즘은 알고리즘의 입력 및 출력을 모두 지정하는 샘플 데이터에서 훈련된다.예를 들어, 데이터는 해당 숫자를 나타내는 주석이 달린 손으로 쓴 숫자의 이미지일 수 있다.지도 학습 시스템은 레이블이 지정된 데이터가 충분히 주어지면 결국 손으로 쓴 각 숫자와 관련된 픽셀 및 모양의 클러스터를 인식하게 된다. 반면, 비지도 학습 알고리즘은 레이블이 지정되지 않은 .. 2024. 10. 20. 위클리 페이퍼 #10 - A/B 테스트 / 이벤트 로그 설계 Q. A/B 테스트의 장점과 단점, 그리고 단점을 해결하기 위한 방안들을 설명해 주세요.A. A/B 테스트의 장점 (출처: https://www.waveon.io/blog/ab_test) 데이터 기반으로 한 최소비용, 최대효과 의사결정일반적으로 스타트업은 자원이 제한적인 상황에서 신속하게 의사결정을 내려야 한다. A/B 테스트는 그로스해킹 기법 중 하나로써, 사용자 데이터를 기반으로 한 실험을 통해 가설을 검증하고, 데이터에 근거해 의사결정을 내리는 근거를 제공한다.A/B 테스트는 대부분 웹사이트, 디지털 채널에서 이루어지는 실험이고 일반적으로 소규모의 사용자 그룹을 대상으로 진행되기 때문에 상대적으로 낮은 비용이 든다.새로운 아이디어와 혁신A/B 테스트는 다양하고 새로운 아이디어를 직접 실험하고 검증.. 2024. 10. 11. 위클리 페이퍼 #9 - 지표 획득 / LTV Q. 원하는 제품/서비스를 하나 선택하여 해당 상품/서비스에서 가장 중요한 획득 지표는 무엇인지 설명해 주세요. 그 이유를 구체적으로 설명해 주세요 A.제품/서비스로 음식 배달 앱을 예로 들어 보겠습니다. 이 경우, 가장 중요한 획득 지표는 신규 가입자 수라고 할 수 있습니다.이유:경쟁이 치열한 시장: 음식 배달 서비스는 매우 경쟁이 치열한 시장입니다. 다양한 업체들이 경쟁하고 있기 때문에 새로운 사용자를 획득하는 것이 사업의 성패를 가를 수 있습니다. 많은 신규 사용자가 유입되면 시장 점유율을 높일 수 있으며, 이는 경쟁 업체보다 앞서 나가는 데 중요한 역할을 합니다.시장 점유율 확대: 신규 가입자 수는 시장 점유율 확대의 중요한 척도입니다. 더 많은 사용자가 가입할수록 앱이 더 많은 시장을 장악할 .. 2024. 8. 27. 위클리 페이퍼 #7 - 장바구니 분석 / Support, Confidence, Lift Q. 장바구니 분석의 활용사례1. 크로스 셀링(Cross-Selling)설명: 장바구니 분석을 통해 자주 함께 구매되는 제품을 식별하고, 이를 기반으로 고객에게 추가 제품을 추천하는 전략입니다.예시: 만약 고객이 샴푸를 구매할 때 자주 린스를 함께 구매하는 패턴이 발견된다면, 샴푸를 구매할 때 린스를 함께 추천하는 프로모션을 진행할 수 있습니다.2. 업셀링(Upselling)설명: 고객이 특정 제품을 구매할 때 그보다 더 높은 가격대의 제품이나 관련 제품을 추천하여 매출을 증대시키는 전략입니다.예시: 노트북을 구매할 때 고급형 노트북 가방이나 추가적인 보증 서비스를 추천하는 경우가 해당됩니다.3. 제품 배치 최적화설명: 오프라인 매장에서 장바구니 분석을 통해 자주 함께 구매되는 제품을 인접한 위치에 배치.. 2024. 8. 16. DBSCAN과 K-means의 비교 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)과 K-Means는 모두 데이터 군집화 알고리즘이지만, 각기 다른 특성과 사용 사례에 따라 장단점이 있습니다. DBSCAN이 K-Means보다 나은 이유를 몇 가지 설명해드리겠습니다:1. 군집의 형태와 크기DBSCAN: 밀도 기반 알고리즘이므로, 군집의 모양이나 크기에 구애받지 않고 복잡한 모양(예: 비원형, 밀집된 군집 등)도 잘 찾을 수 있습니다.K-Means: 데이터 포인트를 중심에서 방사형으로 군집화하려고 하며, 주로 원형 또는 구형의 군집을 찾는 데 적합합니다. 복잡한 모양의 군집을 잘 찾지 못할 수 있습니다.2. 노이즈와 이상치 처리DBSCAN: 자연스럽게 노이즈나 이상치를 .. 2024. 8. 12. 위클리 페이퍼 #6 - 차원의 저주 / 고유값, 고유벡터 / 히스토그램에 대하여. Q. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법에는 무엇이 있는가?A. 고차원 데이터에서 유사도를 계산하고 클러스터링을 수행하는 것은 어려운 문제이다. 이는 고차원 공간에서 데이터가 희소해지거나, 차원의 저주(curse of dimensionality)로 인해 유사도 계산이 어려워지는 문제가 있기 때문이다. 이러한 문제를 해결하기 위한 방법들은 다음과 같다.1. 차원 축소 (Dimensionality Reduction)PCA (Principal Component Analysis): PCA는 고차원 데이터를 저차원으로 축소하여 주요 변동성을 유지하는 기법. 원본 데이터의 정보 손실.. 2024. 8. 3. 위클리 페이퍼 #5 - 절대 경로와 상대 경로, Git 그리고 branch 절대 경로와 상대 경로절대경로(Absolute Path) - 절대 경로는 파일 시스템에서 파일이나 디렉터리의 위치를 지정할 때, 루트 디렉터리부터 시작하여 파일이나 디렉터리까지의 전체 경로를 나타낸다. 절대 경로는 시스템 최상위 디렉터리부터 시작하기 때문에 항상 동일한 파일이나 디렉터리를 가리키며, 경로를 찾을 때 다른 경로의 영향을 받지 않는다. 절대 경로는 어느 곳에서도 경로에 접근할 수 있다는 장점이 존재한다. 그러나, 경로가 변경되면 경로를 일일히 수정해야 한다는 단점이 있다. ex) Windows: C:\Users\Username\Documents\file.txt Unix / Linux: /home/username/documents/file.txt상대경로(Relative Path) -.. 2024. 7. 19. 이전 1 2 3 다음