'reduce' 태그의 글 목록

Hadoop

Hadoop 2015. 2. 26. 14:15

Hadoop : MapReduce과 parallelDB의 장점을 모두 지님.

(DB가 스키마onWrite이라면, 하둡은 스키마onRead 이다)

: write-Once, read-many, noUpdate-but-Append임.
: 디폴트는 3개의 replica.(다른 racki들) - client는 가까운데서 읽음.

: metaData (NameNode=Master라고 부르며- single관리되므로 중요..) 는 모두 in-Memory.
: dataNode=Slave(들도 각자의 metaData을 보관함.)

-디폴트 128Mega block들로 구성

- CRC32체크로 분산데이타체크함.

- 512byte단위로 checksum관리해서 매번 체크함

?secodary Name Node는?

- Map & Reduce utubeREF - 카드로설명

: Map-데이터가 있는 곳으로 프로그램이 가서 동작하는 개념.

: Reduce-계산이 끝나면 다시 분리 함.

youtube소개 REF: 25petaByte까지 저장가능, 4500개 머신까지 동작가능.

Pig - 컴파일러

Hive - SQL유사 I/F

HBase - top level apache project - 메신저 메세지는 object형태로 저장가능

HCatalog - 메타data서버 (Hive에서 분리되어 나옴)

기타) Mahout - 머신 러닝 libray for MapReduce

Ambari, Galnglia, Nagios - cluster분석 툴

Sqoop - RDB와 I/F 툴

Cascading - 트랜스레이팅 툴 for Pig..?

Oozie - 스케줄러. workflow 코디네이션.. 언제 실행할지 등.

Flume - 스트리밍 input for Hadoop

Protobuf, Avro, Thrift 를 지원.

Fuse-DFS : os 레벨 access지원.

Posted by yongary

이전 1 다음