목록전체 글 (318)
anothel의 지식 창고

1. Spark의 분류 모델(Classification)Spark MLlib은 다양한 분류 모델을 제공하여, 여러 가지 문제에 적합한 모델을 선택할 수 있다. 대표적으로 DecisionTreeClassifier, RandomForestClassifier, GBTClassifier 등이 있으며, 데이터 특성에 따라 모델을 결정할 수 있다.주요 분류 모델과 하이퍼 파라미터 설정Spark의 분류 모델은 각각 고유의 학습 방식과 하이퍼 파라미터를 가진다. 예를 들어, RandomForestClassifier는 여러 개의 결정 트리를 결합해 예측의 안정성을 높인다.from pyspark.ml.classification import RandomForestClassifier# 랜덤 포레스트 분류 모델 설정rf = R..

1. Spark의 머신러닝 파이프라인 구축Spark MLlib은 대규모 데이터 환경에서의 머신러닝 모델 구축을 돕는 도구로, 데이터 전처리부터 모델 학습과 평가까지 일관성 있는 파이프라인을 구성할 수 있다. 파이프라인을 사용하면 데이터 전처리와 학습 단계를 통합하여 관리하기 편리하다.파이프라인(Pipeline) 설정과 구성 요소파이프라인은 여러 단계로 구성되어 있으며, 각 단계에서 데이터 전처리, 피처 엔지니어링, 모델 학습을 순차적으로 수행할 수 있다. Spark에서는 Pipeline 객체에 각 작업 단계를 정의하고 이를 순차적으로 연결한다.from pyspark.ml import Pipelinefrom pyspark.ml.feature import StringIndexer, StandardScaler..

1. Spark 데이터 변형 및 집계 최적화Spark는 데이터를 변형하고 요약하는 데 특화된 기능을 제공하며, 대규모 데이터 처리에서 효율적으로 동작한다. 특히 groupBy()와 같은 집계 메서드와 윈도우 함수(Window Function)를 통해 데이터를 그룹화하고 누적 계산할 수 있어, 대용량 데이터 분석에 유용하다.groupBy()와 집계 함수groupBy()는 특정 컬럼을 기준으로 데이터를 그룹화해 집계할 때 사용하는 메서드다. Spark는 다양한 집계 함수를 제공하여 대규모 데이터에서도 성능 저하 없이 통계 계산을 가능하게 한다. Pandas에서는 groupby()와 agg()로 유사한 작업을 수행한다.예를 들어, 특정 연령별 데이터 개수를 집계해보자.# Pandas에서 groupby와 집계 ..

12장 규칙 예외(Exceptions to the Rules)위에서 설명한 코딩 규칙들은 반드시 따라야 하는 필수 사항이다. 그러나 모든 좋은 규칙에 예외가 있듯이, 일부 경우에는 이러한 규칙에서 벗어날 수 있는 예외 상황이 있다. 여기서는 이러한 예외 사항에 대해 다룬다.12.1 기존의 스타일을 따르지 않는 코드 (Existing Non-conformant Code)이 스타일 가이드에 맞지 않는 기존 코드를 다룰 때는 규칙에서 벗어날 수 있다.가이드와 다른 방식으로 작성된 코드를 수정할 경우, 해당 코드의 로컬 규칙에 일관성을 맞추기 위해 이 가이드의 규칙에서 다소 벗어날 수 있다. 어떻게 해야 할지 확신이 서지 않을 때는 원 작성자나 현재 코드의 책임자에게 문의하는 것이 좋다. 일관성은 전체 코드뿐만..

11장 코드 형식 (Formatting)코딩 스타일과 형식은 다소 임의적일 수 있지만, 모든 사람이 같은 스타일을 사용하면 프로젝트를 훨씬 쉽게 이해할 수 있다. 개개인은 모든 형식 규칙에 동의하지 않을 수도 있고, 일부 규칙이 익숙해지는 데 시간이 걸릴 수 있지만, 모든 프로젝트 기여자가 규칙을 준수해야 서로의 코드를 읽고 이해하기 쉬워진다.코드를 올바르게 형식화하는 데 도움이 되도록, emacs 설정 파일을 제공하고 있다.프로젝트의 일관된 형식을 유지함으로써, 가독성이 향상되고 협업이 원활해진다.11.1 줄 길이 (Line Length)코드의 각 줄은 최대 80자를 초과하지 않도록 한다.이 규칙은 논란이 있을 수 있으나, 많은 기존 코드가 이미 이를 준수하고 있으며, 일관성을 유지하는 것이 중요하다...

10장 주석(Comments)주석은 코드 가독성을 유지하는 데 매우 중요하다. 다음 규칙들은 주석을 어디에 어떻게 작성해야 하는지를 설명한다. 하지만 항상 기억해야 할 점은, 최상의 코드는 주석이 필요 없는 코드, 즉 스스로를 설명할 수 있는 코드다. 변수와 타입에 명확하고 의미 있는 이름을 부여하는 것이, 이해하기 어려운 이름을 사용하고 그 의미를 주석으로 설명하는 것보다 훨씬 좋다.주석을 작성할 때에는 다음에 코드를 이해해야 할 독자를 염두에 두어야 한다. 후속 작업자가 당신의 코드를 쉽게 이해할 수 있도록 친절하게 작성하라. 그 독자가 나중에 바로 당신이 될지도 모른다.10.1 주석 스타일 (Comment Style)주석에는 // 또는 /* */ 구문을 사용할 수 있다. 단, 일관성을 유지해야 한다..

9장 명명 규칙(Naming)네이밍 규칙에서 가장 중요한 일관성 규칙은 이름을 통해 즉시 그 이름이 어떤 종류의 엔티티인지 알 수 있게 하는 것이다. 네이밍 스타일을 통해 타입인지, 변수인지, 함수인지, 상수인지, 매크로인지 등을 선언을 따로 확인하지 않고도 쉽게 알 수 있어야 한다. 우리 두뇌의 패턴 매칭 엔진은 이러한 네이밍 규칙에 크게 의존한다.네이밍 규칙은 다소 임의적일 수 있지만, 이 영역에서는 개인의 선호보다는 일관성이 더 중요하다. 규칙이 합리적이라고 느끼지 않더라도, 규칙은 규칙이므로 따라야 한다.주요 원칙타입명일반적으로 PascalCase 사용 (예: MyClass, AnotherType).변수명 및 함수명소문자로 시작하고 단어마다 대문자로 표기하는 camelCase 사용 (예: myVa..

8장 포괄적 언어(Inclusive Language)모든 코드에서, 네이밍 및 주석을 포함하여, 다른 프로그래머가 불쾌하거나 모욕적으로 느낄 수 있는 용어 사용을 피하고 포괄적 언어를 사용해야 한다. 예를 들어, "master"와 "slave", "blacklist"와 "whitelist", "redline" 등의 용어는 겉보기에는 중립적인 의미를 가질 수 있지만, 특정 집단에게는 불쾌하게 다가올 수 있으므로 사용하지 않는다.또한, 특정인을 지칭하지 않는 한 성 중립적인 언어를 사용해야 한다. 예를 들어, 성별이 지정되지 않은 사람을 지칭할 때는 "they"/"them"/"their"와 같은 단수형을 사용하며, 소프트웨어, 컴퓨터, 기타 사람이 아닌 것을 지칭할 때는 "it"/"its"를 사용한다.권장 ..

7장 기타 C++ 기능(Other C++ Features)7.1 Rvalue 참조 (Rvalue References)Rvalue 참조는 임시 객체에만 바인딩될 수 있는 참조 타입으로, && 구문을 사용한다. 예를 들어, void f(std::string&& s);는 std::string 타입의 rvalue 참조를 받는 함수를 선언한다. Rvalue 참조는 객체의 이동과 완벽한 전달을 가능하게 하여 성능 최적화에 유용하다.Rvalue 참조의 주요 사용 사례이동 생성자와 이동 할당연산자std::move를 이용해 rvalue 참조를 전달하면 복사 대신 값을 이동할 수 있어 성능을 크게 향상시킨다. 예를 들어, std::vector v1이 있을 때, auto v2(std::move(v1));는 대량의 데이터를 ..

6장 Google 특유의 테크닉(Google-Specific Magic)Google에서는 C++ 코드를 더욱 견고하게 만들기 위한 다양한 트릭과 유틸리티를 사용하며, 일반적인 C++ 관행과는 약간 다르게 코딩하는 방식도 있다. 이러한 기술들은 코드의 안정성과 유지보수성을 높이기 위한 목적으로 사용된다.Google이 사용하는 주요 기술과 관행유틸리티와 도구Google은 코드 품질을 높이기 위해 특정 유틸리티 라이브러리와 도구들을 사용한다. 예를 들어, Google Test와 Abseil 같은 라이브러리는 코드의 테스트와 유틸리티 기능을 추가하여 코드의 안정성을 높인다.모범 사례와 일관성Google은 모든 코드가 일관된 스타일과 규칙을 따르도록 함으로써, 팀의 규모와 관계없이 유지보수가 용이한 코드를 유지한..