2025.09.06
출처
데이터 엔지니어링_스파크 실행 구조,Saprk_rdd action 함수
1.스파크 실행 구조 https://12bme.tistory.com/437 2.Action 함수 :transformation 연산을 통해 생성한 ...
데이터 엔지니어링_Shared Variables,broadcast 변수,accumulator
0.Shared Variables의 배경 일반적으로 클러스터 환경에서 실행될때, 함수에서 사용하는 변수는 각각의 ...
데이터엔지니어링_Dataframe in Spark
1.Spark Dataframe -판다스 df는 병렬처리가 안되지만 스파크 df는 가능해서 속도 향상 가능( 필요한 경...
데이터엔지니어링_Dataframe in Spark_Select,Where 함수, spark로 sql 사용하기
1.select() : 추출할 컬럼 명 선택-> 리스트로도 추출할 수 있음 2.col() colRegex(열) : 정규식에 부...
데이터 엔지니어링_DF in spark_GroupBy,OrderBy
1.structtype 사용하여 스키마정해서 csv 불러오기 2.groupby 문제 1)지역내 교육타입별 학생 숫자와 평균...
모든 관계는 말투에서 시작된다(추천)_김범준 지음(후기, 내용 정리)
지난 주말 현대아울렛에서 쉬기 좋은 공간을 다녀왔는데, 책을 구매해야 공간을 이용할 수 있어서 가볍게 ...
데이터 엔지니어링-주피터로 스파크 사용하기, RDD 생성, RDD 연산자
-하둡 : 분산 파일 시스템으로 컴퓨터 하드웨어적인 한계를 뛰어 넘을 수 있다. -스파크 : 정형 데이터 뿐...
데이터 엔지니어링_스파크로 판다스 사용하기, transformation연산자(filter, map, flapMap,distinct, zip, reduceByKey,sortBy)
pip install 로 pandas , numpy 설치 후 import 하기 2. 실행 여러 줄 하게 해주는 코드 from IPython.co...
데이터엔지니어링_Configuring the Hadoop Daemons,스파크 설치하기,컨테이너 간 링크하기(네트워크 없이)
컨테이너 실행하고 docker run 하고 big 환경으로 가기 2.Configuring Environment of Hadoop Daemons,...
데이터엔지니어링_dockerfile, compose.yaml
배경 : dockerfile을 만들어서 build 하고 compose 하는 이유. 아래 블로그 참고 https://blog.naver.com/h...