분류 전체보기 11

[DataCamp] Intermediate Docker

이 글에서는 데이터캠프의 Intermediate Docker 강의를 듣고 중급 도커 명령어의 핵심 개념과 활용 방법에 대해 설명한다. 도커에 대한 기초가 부족하다면, DataCamp의 초급 Docker 강좌를 먼저 학습해보길 추천한다.[1] Commands and FilesystemsCH1. Intermediate Docker Commands도커는 컨테이너 기반 애플리케이션을 실행하고 관리하기 위한 런타임 도구다.🧐❓ 컨테이너란 ❓컨테이너는 특정 애플리케이션과 그 애플리케이션이 실행되는 데 필요한 모든 의존성을 묶어놓은 독립 실행 환경이다.컨테이너는 이미지를 기반으로 만들어지며, 이미지는 도커 파일이라는 텍스트 파일로 정의된다.컨테이너의 특징독립적인 실행 환경 제공운영체제(OS)에 관계없이 동일하게 작..

[DataCamp] 9. Understanding Data Visualization

[1] Visualizing distributionsCH1. A plot tells a thousand words1-1. 데이터 인사이트를 얻는 방법요약 통계값(;중앙값, 평균, 최빈값 등) 사용통계 모델(;회귀 분석 등) 실행데이터 시각화1-2. 연속형 변수 & 범주형 변수연속형 변수 : 수치로 표현할 수 있는 데이터 (키, 몸무게 등)범주형 변수 : 텍스트로 분류할 수 있는 데이터 (색상, 국가 등)👉 일부 항목은 연속형과 범주형 모두 가능하여 자유롭게 처리할 수 있습니다. (나이-나이대, 시간-년도/월 등) CH2. Histograms히스토그램히스토그램은 연속적인 변수를 시각화하는 도구로, 데이터 분포의 형태를 보여줍니다.구간 너비 선택 : 구간 너비가 너무 좁거나 넓으면 데이터를 잘 파악할 수 ..

[DataCamp] 8. Introduction to Snowflake

[1] Introduction to Snowflake: Architecture, Competitors, and SnowflakeSQLCH1. What is Snowflake?1-1. Snowflake 란?Snowflake는 클라우드 기반 데이터 웨어하우스로, 데이터를 열(column) 단위로 저장하는 모델을 사용합니다.🧐❓ 클라우드 데이터 웨어하우스 ❓기존 온프레미스(On-premise) 기반 데이터 웨어하우스는 데이터가 많아질수록 더 많은 공간과 자원이 필요하게 되는데, 이를 클라우드 플랫폼으로 옮김으로써 문제를 해결할 수 있습니다.1-2. Snowflake 특징 및 장점1) 🗄️ Scalability (확장성) : 하드웨어 요구 사항이 적어 즉 클라우드 환경에 최적화 되어 있어 대용량 데이터를 처..

[Python] 파이썬 환경 공유하기(requirements.txt)

파이썬 프로젝트를 진행하다 보면 다른 사람과 동일한 환경을 공유할 필요가 생깁니다. 특히 여러 사람이 협업하거나, 다른 컴퓨터에서 같은 환경을 재현해야 할 때 정확히 어떤 패키지가 사용되고 있는지 기록하는 것이 중요합니다. 이를 위해 requirements.txt 파일을 사용하면 프로젝트에서 사용 중인 모든 패키지와 버전을 쉽게 공유할 수 있습니다. 이 글에서는 requirements.txt 파일을 생성하고 사용하는 방법을 알아보겠습니다.1. 파이썬 환경 공유하기requirements.txt는 프로젝트에서 사용하는 패키지 목록을 텍스트 파일로 기록한 것입니다. 이 파일을 통해 다른 사람도 동일한 패키지와 버전을 설치할 수 있어, 같은 환경을 쉽게 재현할 수 있습니다.1-1. 현재 사용 중인 패키지 목록 ..

IT/Trouble Shooting 2024.09.10

[Airflow] 1. 설치 및 환경 구축 3) Airflow 설치

Airflow 란?Airflow는 2014년 에어비앤비에서 만든 워크플로우 관리 솔루션으로, 파이썬을 이용해 워크플로우를 만들고 관리할 수 있는 오픈소스 기반 워크플로우 관리 도구Airflow의 주요 개념DAG (Directed Acyclic Graph): DAG는 Task(작업)을 연결해서 작업 순서를 정의하는 그래프 (❗중요❗: Task는 순환하지 않고 한 방향으로만 진행)Task: DAG 안에 포함된 개별 작업으로 DAG안에는 1개 이상의 Task가 존재Operator: Task를 정의할 때 사용하는 템플릿Scheduler: Cron 기반 DAG의 실행 일정을 관리0. 설치 순서'docker-compose.yaml' 파일 다운로드 ➜ 2. 작업 디렉토리 설정 ➜ 3. Airflow 설치1. 'doc..

IT/Airflow 2024.09.06

[Airflow] 1. 설치 및 환경 구축 2) Docker 설치

Docker 란?Docker는 애플리케이션을 실행할 때 필요한 모든 환경을 하나의 패키지(컨테이너)로 만들어주는 도구 (출처: 챗GPT)가상화 서버(VM) 대비 Guest OS가 없어 경량화된 가상화 서버로 볼 수 있으며, 어플리케이션을 독립적 환경에서 실행시킴으로써 안정성을 높여준다.Docker의 주요 개념이미지(Image): 애플리케이션과 그 실행에 필요한 모든 것을 포함한 '템플릿'. 이 이미지를 기반으로 컨테이너를 제작컨테이너(Container): 이미지를 실행한 상태, 즉 실제로 돌아가는 애플리케이션. 애플리케이션이 필요로 하는 모든 것(코드, 라이브러리, 설정 등)을 포함하고 있어서, 어디에서나 동일하게 실행될 수 있으며, 동시에 여러 개의 컨테이너 실행도 가능Airflow와 무슨 상관?Air..

IT/Airflow 2024.09.05

[Git] 특정 시점으로 돌아가기 (push 잘못했을 때/ push 기록 삭제)

작업을 하다보면 최종 수정본이라고 생각해서 push를 한 뒤, 오류를 발견해 다시 동일한 commit을 보내기 민망할 때가 있습니다. (예: "000 오류 수정"으로 push 했는데 000 오류 수정 사항이 더 있을 때)물론 "진짜 ## 오류 수정"이런 식으로 작업해도 되지만 굳이 기록하지 않아도 되는 history는 지우고 싶은 사람의 심리...그럴 때에는 git reset 명령어를 활용하면 됩니다.git reset 명령어는 로컬 리포지토리의 현재 HEAD를 지정한 커밋으로 이동시키는 데 사용됩니다. reset 명령어는 --hard, --mixed, --soft 세 가지 주요 옵션을 제공하며, 각각의 옵션은 커밋, 인덱스(스테이징 영역), 워킹 디렉토리에 미치는 영향이 달라집니다.git reset 주요..

IT/Git 2024.09.04

[SQL] SQL 문제 사이트 모음

프로그래머스문제가 많지는 않지만 질문 게시판에서 다른 사람들의 풀이를 볼 수 있어서 좋다.UI가 편리하다.가볍게 풀만한 문제들이 많고 정답 풀이를 쉽게 구할 수 있어서 sql 초보가 풀기에 좋은 것 같다.solvesqlmysql기반이 아니라 SQLite 기반이라 간혹 안 되는 함수가 있어 당황할 수 있다.데이터리안 분석 캠프를 수강하면 모든 문제를 풀 수 있지만 무료로도 실무와 유사해 보이는 문제들을 풀어볼 수 있다.자동 포맷팅 기능이 있어서 편리하다.HackerRank문제가 영어라서 문제 이해에도 조금 시간이 걸린다.단순히 데이터 추출/집계 뿐만 아니라 프로그래밍적 접근 문제도 제공한다. (문제 다양성 높음)

[Git] 기본 명령어 정리

1. 현재 상태 확인working directory, stage의 상태를 확인git status2. 변경 내용 가져오기(pull) ↔ 올리기(push)pull : repository 최근 작업 파일 가져오기git pull origin git pull origin gp_query_job_reviewpush : local 변경 사항 올리기# 1. 파일 스테이징: git addgit add (예: aaa.txt)# + 모든 변경사항 -> .(all)git add .# 2. 커밋 생성 : git commitgit commit -m " (예: Modified: ~)"# 3. 변경 사항 푸시git push origin # ex) git push origin master3. 버전 관리: branchbranch 생성..

IT/Git 2024.09.02