2025.09.06
출처
데이터 엔지니어링_DF in spark_GroupBy,OrderBy
1.structtype 사용하여 스키마정해서 csv 불러오기 2.groupby 문제 1)지역내 교육타입별 학생 숫자와 평균...
모든 관계는 말투에서 시작된다(추천)_김범준 지음(후기, 내용 정리)
지난 주말 현대아울렛에서 쉬기 좋은 공간을 다녀왔는데, 책을 구매해야 공간을 이용할 수 있어서 가볍게 ...
데이터 엔지니어링-주피터로 스파크 사용하기, RDD 생성, RDD 연산자
-하둡 : 분산 파일 시스템으로 컴퓨터 하드웨어적인 한계를 뛰어 넘을 수 있다. -스파크 : 정형 데이터 뿐...
데이터 엔지니어링_스파크로 판다스 사용하기, transformation연산자(filter, map, flapMap,distinct, zip, reduceByKey,sortBy)
pip install 로 pandas , numpy 설치 후 import 하기 2. 실행 여러 줄 하게 해주는 코드 from IPython.co...
데이터엔지니어링_Configuring the Hadoop Daemons,스파크 설치하기,컨테이너 간 링크하기(네트워크 없이)
컨테이너 실행하고 docker run 하고 big 환경으로 가기 2.Configuring Environment of Hadoop Daemons,...
데이터엔지니어링_dockerfile, compose.yaml
배경 : dockerfile을 만들어서 build 하고 compose 하는 이유. 아래 블로그 참고 https://blog.naver.com/h...
데이터 엔지니어링-도커 ln 명령어로 symbolic link 생성시, 단어를 포함하는 파일 찾기(grep,ls, '|(수직선' 사용)
0.cd / 로 최상위 디렉터리로 이동 후 cd 로 홈 디렉터리로 이동=> ~$ 로 홈 디렉터리인것 확인 2...
데이터엔지니어링_single cluster_포트정보 및 하둡 실행
기계적으로 설정을 마치고 끝내기 전에 의사분산모드에서의 동작과 구조를 공부. '네임노드 서버 구축...
데이터엔지니어링_일반 계정에서 sudo 사용 및 sudoers 파일 편집하기
미션 : 일반 계정에서 sudo 사용 및 sudoers 파일 편집하기 1.도커 컨테이너 조회하기 :윈도우 상태 2. 도...
데이터엔지니어링_single cluster 를 위한 하둡 설치, 하둡 환경설정
참고자료 : https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.h...