데이터 사이언스란 - 0머신러닝, AI, 데이터사이언스 공부하고 싶은데 뭔소린지 모르겠다고? 일단 들어와라 차근차근 설명해 줄테니 AdaBoost와 GBM📖 앙상블 학습의 유형은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등이 있습니다. 이번 포스팅에서는 부스팅 알고리즘 중 AdaBoost와 GBM에 대해 알아보고자 합니다. 우선 부스팅의 원리부터 차근차근 알아봅시 차이검정 - T 검정📖 전체집단을 모두 조사하는것은 현실적으로 불가능함으로 적절한 표본집단을 지정하여 이 표본집단에서 평균, 표준편차와 같은 통계량을 구한 뒤 이를 통해 모집단의 모수를 추정합니다. 이 때 널리 쓰이는 통계적 검정 방법들을 딱 한 번의 정리를 통해 이해를 돕겠습니다.사람 시계열 군집📖 시계열 데이터를 계층적, 분할적 군집화하기 위한 방법을 간단하게 코드 위주로 각각 알아봅시다. 군집화 가능한 시계열 데이터의 형태로 변환 기존 데이터는 각 컬럼이 각 집단의 시계열 정보를 가지고 있습니다. 이를 전치시켜 각 로우데이터가 각 집단 별 시계열 데이터 차원 축소 - PCA, FA주성분 분석(PCA, Principal Component Analysis)란? 기본적으로 PCA는 선형 차원 감소 기법 (알고리즘)입니다. 고차원의 데이터일수록 표본의 밀도는 떨어지고, 높은 과대적합 위험과 계산 비용, 낮은 모델 성능 등 소위 차원의 저주 문제가 뒤 [ADP] NoSQL 정리분산 파일 시스템데이터베이스 클러스터 NoSQL ✅Not Only SQL : 비관계형 데이터베이스 관리 시스템이지만 SQL 계열 쿼리도 사용가능.분산 데이터베이스 기술로 확장성, 가용성, 높은 성능을 제공저장되는 데이터 구조에 따라 key-value모델, Documen [ADP] 데이터베이스 클러스터분산 데이터 저장 기술 분산 파일 시스템 데이터베이스 클러스터 ✅ NoSQL 데이터베이스 클러스터 하나의 데이터베이스를 여러 개의 서버 상에 구축하는 것 파티셔닝과 클러스터의 효과 병렬처리 : 빠른 데이터 검색 및 처리 성능을 얻을 수 있다. 고가용성 : 파티션에 |