最終更新:2011-04-12 (火) 21:39:07 (4762d)
Hadoop
Top / Hadoop
Hadoopは
から構成されています。Googleの基盤技術に対応させると、前者はGFS、後者はMapReduceに対応します
HadoopはすべてJavaで記述されており、MapReduce処理を書く場合も基本的にはJavaでプログラムを書くことが想定されています。ただしHadoop Streaming?という拡張パッケージを用いると、C言語/C++・Ruby・Pythonなど任意の言語と標準入出力を用いてMapReduce処理を書くことができます。
What Is Hadoop?
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing. Hadoop includes these subprojects:
- Hadoop Common: The common utilities that support the other Hadoop subprojects.
- Chukwa: A data collection system for managing large distributed systems.
- HBase: A scalable, distributed database that supports structured data storage for large tables.
- HDFS: A distributed file system that provides high throughput access to application data.
- Hive: A data warehouse infrastructure that provides data summarization and ad hoc querying.
- MapReduce: A software framework for distributed processing of large data sets on compute clusters.
- Pig: A high-level data-flow language and execution framework for parallel computation.
- ZooKeeper: A high-performance coordination service for distributed applications.
インストール
- ClouderaにrpmパッケージとAmazon EC2用のインスタンスが用意されているので使うと便利
参考
- http://codezine.jp/a/article/aid/2448.aspx
- http://techlife.cookpad.com/2009/09/16/cookpad-hadoop-introduction/
- http://www-06.ibm.com/jp/domino01/mkt/cnpages7.nsf/page/default-0041751B