2024/11 18

유목민의 투자의 정석 / 유목민

유목민의 투자의 정석저자: 유목민출판: 리더스북발행: 2024.01.17.재차거시뇌동매매하지 말고, 재료 차트 거래량 시황을 확인할 것.돈은 쉽게 벌 수 있는게 아니다열심히 노력하고 공부하고 또 공부할 것.목차 프롤로그 | 모든 시작하는 투자자를 위하여 [PART 1 성장을 위한 투자의 시작] CHAPTER 1 주식투자에 대한 메타인지 01 주식시장을 움직이는 힘 주식이란 무엇인가/ 주식은 기대감이다/ 주가를 상승시키는 두 요소/ 유동성과 실적이 따로 놀 때를 주의하라/ 기대감은 곱하기다 02 주식시장의 기초 용어 주가지수 ㆍ 주식의 종류 ㆍ 투자자 동향 ㆍ 거래원 ㆍ D+2 제도 ㆍ 상한가, 하한가 ㆍ 변동성완화장치 ㆍ 체결 강도 ㆍ 기본적 분석과 기술적 분석 ㆍ 공매도 03 투자 전략의 종류 단기투자..

독서 기록 2024.11.20

SQL 기반 데이터 결합과 특성 엔지니어링: Apache Spark 활용 가이드

1. 개요데이터 분석과 머신러닝에서 다양한 데이터 소스를 결합하고 유의미한 특성을 발굴하는 과정은 매우 중요하다. 특히 대규모 데이터를 다룰 때 SQL을 통한 데이터 결합과 특성 엔지니어링(Feature Engineering)은 성능 최적화와 예측력 향상에 필수적인 작업이다. Spark는 SQL 구문과 고급 데이터 처리 도구를 제공해 방대한 데이터를 효율적으로 결합하고 가공할 수 있는 환경을 제공한다. 이번 글에서는 Spark SQL을 활용해 데이터 결합과 특성 엔지니어링 기법을 구현하는 방법을 다루어 실무에서 유용하게 적용할 수 있는 인사이트를 제공하고자 한다.2. Spark SQL을 활용한 데이터 결합Temporary View와 SQL 쿼리Spark에서는 DataFrame을 SQL 쿼리처럼 사용할 수..

Apache Spark 머신러닝 분류 및 회귀 모델 - 다양한 모델 학습과 활용

1. Spark의 분류 모델(Classification)Spark MLlib은 다양한 분류 모델을 제공하여, 여러 가지 문제에 적합한 모델을 선택할 수 있다. 대표적으로 DecisionTreeClassifier, RandomForestClassifier, GBTClassifier 등이 있으며, 데이터 특성에 따라 모델을 결정할 수 있다.주요 분류 모델과 하이퍼 파라미터 설정Spark의 분류 모델은 각각 고유의 학습 방식과 하이퍼 파라미터를 가진다. 예를 들어, RandomForestClassifier는 여러 개의 결정 트리를 결합해 예측의 안정성을 높인다.from pyspark.ml.classification import RandomForestClassifier# 랜덤 포레스트 분류 모델 설정rf = R..

Apache Spark ML 파이프라인과 하이퍼 파라미터 튜닝 - 모델 학습 최적화

1. Spark의 머신러닝 파이프라인 구축Spark MLlib은 대규모 데이터 환경에서의 머신러닝 모델 구축을 돕는 도구로, 데이터 전처리부터 모델 학습과 평가까지 일관성 있는 파이프라인을 구성할 수 있다. 파이프라인을 사용하면 데이터 전처리와 학습 단계를 통합하여 관리하기 편리하다.파이프라인(Pipeline) 설정과 구성 요소파이프라인은 여러 단계로 구성되어 있으며, 각 단계에서 데이터 전처리, 피처 엔지니어링, 모델 학습을 순차적으로 수행할 수 있다. Spark에서는 Pipeline 객체에 각 작업 단계를 정의하고 이를 순차적으로 연결한다.from pyspark.ml import Pipelinefrom pyspark.ml.feature import StringIndexer, StandardScaler..

Apache Spark 데이터 변형 및 집계 기능 - 대규모 데이터 효율화

1. Spark 데이터 변형 및 집계 최적화Spark는 데이터를 변형하고 요약하는 데 특화된 기능을 제공하며, 대규모 데이터 처리에서 효율적으로 동작한다. 특히 groupBy()와 같은 집계 메서드와 윈도우 함수(Window Function)를 통해 데이터를 그룹화하고 누적 계산할 수 있어, 대용량 데이터 분석에 유용하다.groupBy()와 집계 함수groupBy()는 특정 컬럼을 기준으로 데이터를 그룹화해 집계할 때 사용하는 메서드다. Spark는 다양한 집계 함수를 제공하여 대규모 데이터에서도 성능 저하 없이 통계 계산을 가능하게 한다. Pandas에서는 groupby()와 agg()로 유사한 작업을 수행한다.예를 들어, 특정 연령별 데이터 개수를 집계해보자.# Pandas에서 groupby와 집계 ..

Google C++ Style Guide(2024) - 12장 규칙 예외(Exceptions to the Rules)

12장 규칙 예외(Exceptions to the Rules)위에서 설명한 코딩 규칙들은 반드시 따라야 하는 필수 사항이다. 그러나 모든 좋은 규칙에 예외가 있듯이, 일부 경우에는 이러한 규칙에서 벗어날 수 있는 예외 상황이 있다. 여기서는 이러한 예외 사항에 대해 다룬다.12.1 기존의 스타일을 따르지 않는 코드 (Existing Non-conformant Code)이 스타일 가이드에 맞지 않는 기존 코드를 다룰 때는 규칙에서 벗어날 수 있다.가이드와 다른 방식으로 작성된 코드를 수정할 경우, 해당 코드의 로컬 규칙에 일관성을 맞추기 위해 이 가이드의 규칙에서 다소 벗어날 수 있다. 어떻게 해야 할지 확신이 서지 않을 때는 원 작성자나 현재 코드의 책임자에게 문의하는 것이 좋다. 일관성은 전체 코드뿐만..

Google C++ Style Guide(2024) - 11장 코드 형식 (Formatting)

11장 코드 형식 (Formatting)코딩 스타일과 형식은 다소 임의적일 수 있지만, 모든 사람이 같은 스타일을 사용하면 프로젝트를 훨씬 쉽게 이해할 수 있다. 개개인은 모든 형식 규칙에 동의하지 않을 수도 있고, 일부 규칙이 익숙해지는 데 시간이 걸릴 수 있지만, 모든 프로젝트 기여자가 규칙을 준수해야 서로의 코드를 읽고 이해하기 쉬워진다.코드를 올바르게 형식화하는 데 도움이 되도록, emacs 설정 파일을 제공하고 있다.프로젝트의 일관된 형식을 유지함으로써, 가독성이 향상되고 협업이 원활해진다.11.1 줄 길이 (Line Length)코드의 각 줄은 최대 80자를 초과하지 않도록 한다.이 규칙은 논란이 있을 수 있으나, 많은 기존 코드가 이미 이를 준수하고 있으며, 일관성을 유지하는 것이 중요하다...

Google C++ Style Guide(2024) - 10장 주석(Comments)

10장 주석(Comments)주석은 코드 가독성을 유지하는 데 매우 중요하다. 다음 규칙들은 주석을 어디에 어떻게 작성해야 하는지를 설명한다. 하지만 항상 기억해야 할 점은, 최상의 코드는 주석이 필요 없는 코드, 즉 스스로를 설명할 수 있는 코드다. 변수와 타입에 명확하고 의미 있는 이름을 부여하는 것이, 이해하기 어려운 이름을 사용하고 그 의미를 주석으로 설명하는 것보다 훨씬 좋다.주석을 작성할 때에는 다음에 코드를 이해해야 할 독자를 염두에 두어야 한다. 후속 작업자가 당신의 코드를 쉽게 이해할 수 있도록 친절하게 작성하라. 그 독자가 나중에 바로 당신이 될지도 모른다.10.1 주석 스타일 (Comment Style)주석에는 // 또는 /* */ 구문을 사용할 수 있다. 단, 일관성을 유지해야 한다..

Google C++ Style Guide(2024) - 9장 명명 규칙(Naming)

9장 명명 규칙(Naming)네이밍 규칙에서 가장 중요한 일관성 규칙은 이름을 통해 즉시 그 이름이 어떤 종류의 엔티티인지 알 수 있게 하는 것이다. 네이밍 스타일을 통해 타입인지, 변수인지, 함수인지, 상수인지, 매크로인지 등을 선언을 따로 확인하지 않고도 쉽게 알 수 있어야 한다. 우리 두뇌의 패턴 매칭 엔진은 이러한 네이밍 규칙에 크게 의존한다.네이밍 규칙은 다소 임의적일 수 있지만, 이 영역에서는 개인의 선호보다는 일관성이 더 중요하다. 규칙이 합리적이라고 느끼지 않더라도, 규칙은 규칙이므로 따라야 한다.주요 원칙타입명일반적으로 PascalCase 사용 (예: MyClass, AnotherType).변수명 및 함수명소문자로 시작하고 단어마다 대문자로 표기하는 camelCase 사용 (예: myVa..

Google C++ Style Guide(2024) - 8장 포괄적 언어(Inclusive Language)

8장 포괄적 언어(Inclusive Language)모든 코드에서, 네이밍 및 주석을 포함하여, 다른 프로그래머가 불쾌하거나 모욕적으로 느낄 수 있는 용어 사용을 피하고 포괄적 언어를 사용해야 한다. 예를 들어, "master"와 "slave", "blacklist"와 "whitelist", "redline" 등의 용어는 겉보기에는 중립적인 의미를 가질 수 있지만, 특정 집단에게는 불쾌하게 다가올 수 있으므로 사용하지 않는다.또한, 특정인을 지칭하지 않는 한 성 중립적인 언어를 사용해야 한다. 예를 들어, 성별이 지정되지 않은 사람을 지칭할 때는 "they"/"them"/"their"와 같은 단수형을 사용하며, 소프트웨어, 컴퓨터, 기타 사람이 아닌 것을 지칭할 때는 "it"/"its"를 사용한다.권장 ..