Hadoop : MapReduce과 parallelDB의 장점을 모두 지님.
(DB가 스키마onWrite이라면, 하둡은 스키마onRead 이다)
- HDFS : Data Centric Computing - 데이터 사이즈가 크므로 데이터가 있는 곳으로 이동해서 계산함
: write-Once,
read-many, noUpdate-but-Append임.
: 디폴트는 3개의 replica.(다른 racki들) - client는 가까운데서 읽음.
: metaData
(NameNode=Master라고 부르며- single관리되므로 중요..) 는 모두 in-Memory.
: dataNode=Slave(들도 각자의 metaData을 보관함.)
-디폴트 128Mega block들로 구성
- CRC32체크로 분산데이타체크함.
- 512byte단위로 checksum관리해서 매번 체크함
?secodary Name Node는?
- Map & Reduce utubeREF - 카드로설명
: Map-데이터가 있는 곳으로 프로그램이 가서 동작하는 개념.
: Reduce-계산이 끝나면 다시 분리 함.
youtube소개 REF: 25petaByte까지 저장가능, 4500개 머신까지 동작가능.
Pig - 컴파일러
Hive - SQL유사 I/F
HBase - top level apache project - 메신저 메세지는 object형태로 저장가능
HCatalog - 메타data서버 (Hive에서 분리되어 나옴)
기타) Mahout - 머신 러닝 libray for MapReduce
Ambari, Galnglia, Nagios - cluster분석 툴
Sqoop - RDB와 I/F 툴
Cascading - 트랜스레이팅 툴 for Pig..?
Oozie - 스케줄러. workflow 코디네이션.. 언제 실행할지 등.
Flume - 스트리밍 input for Hadoop
Protobuf, Avro, Thrift 를 지원.
Fuse-DFS : os 레벨 access지원.