我有一壶酒,足以慰平生。

0%

Hadoop集群环境搭建

阅读全文 »


Learn Regex


什么是正则表达式 ?

正则表达式是一种被用于从文本中检索符合某些特定模式的文本。

正则表达式是从左到右来匹配一个字符串的。”Regular Expression” 这个词太长了,我们通常使用它的缩写 “regex” 或者 “regexp”。
正则表达式可以被用来替换字符串中的文本、验证表单、基于模式匹配从一个字符串中提取字符串等等。

阅读全文 »

Flume

背景

flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一。

阅读全文 »

Hadoop生态学习之Shell封装脚本

Hadoop

hdfs 创建目录

hadoop-mkdir.sh

1
2
3
4
5
#!/bin/bash
#vi hadoop-mkdir.sh
#在hadoop的bin目录下创建

hadoop fs -mkdir -p $1

测试:

1
hadoop-mkdir.sh /test

image-20200730134326282

hafs 上传

阅读全文 »

Oozie

Oozie简介

Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。

阅读全文 »

Sqoop

sqoop概述

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

阅读全文 »

HBase

HBase概念

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

阅读全文 »

Zookeeper

概念

Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。

Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式。

阅读全文 »

Hive

数据仓库和数据库的区别

数据库:数据持久化操作(存储数据)。

数据仓库:对数据进行处理分析(没有增删改操作)。

image-20200713145956604

Java生成API文档

image-20200713150955522

Hive环境搭建

==hive是基于hadoop运行的,在搭建环境前必须保证hdfs环境可用。==

下载安装

hive官网

上传tar包至集群的namenode

解压安装命令如下:

阅读全文 »

HDFS前言

设计思想

分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;

在大数据系统中作用:

为各类分布式运算框架(如:mapreduce,spark……)提供数据存储服务

重点概念:

文件切块

副本存放

元数据

HDFS概述

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。

阅读全文 »