1、什么是fastDFS

1.1 fastDSF介绍

FastDFS是用c语言编写的一款开源的分布式文件系统,它是由淘宝资深架构师余庆编写并开源。FastDFS专为互联网量身定制,充分考虑了冗余备份、负载均衡、线性扩容等机制,并注重高可用、高性能等指标,使用FastDFS容易搭建一套高性能的文件服务器集群提供文件上传、下载等服务。

它的主要功能包括:文件存储,文件同步和文件访问,以及高容量和负载平衡。主要解决了海量数据存储问题,特别适合以中小文件(建议范围:4KB < file_size <500MB)为载体的在线服务。

为什么要使用fastDFS呢?

fastDFS不对文件进行分块,所以它就没有分块合并的开销,fastDFS网络通信采用socket,通信速度很快。

1.2 fastDSF架构

FastDFS 系统有三个角色: 跟踪服务器(Tracker Server)存储服务器(Storage Server)客户端(Client)。客户端请求Tracker server进行文件上传、下载,通过Tracker server调度最终由Storage server完成文件上传和下载。

1)Tracker Server :跟踪服务器
Tracker Server主要做调度工作,起到均衡的作用,负责管理所有的 storage server和 group,每个 storage 在启动后会连接 Tracker,告知自己所属 group 等信息,并保持周期性心跳。

FastDFS集群中的Tracker server可以有多台,Tracker server之间是相互平等关系同时提供服务,Tracker server不存在单点故障。客户端请求Tracker server采用轮询方式,如果请求的tracker无法提供服务则换另一个tracker。

2)Storage:存储服务器
Storage Server作用主要提供容量和备份服务;客户端上传的文件最终存储在Storage服务器上,Storage server没有实现自己的文件系统而是使用操作系统的文件系统来管理文件。以 group 为单位,每个 group 内可以有多台 storage server,数据互为备份。

Storage集群采用了分组存储方式。storage集群由一个或多个组构成,集群存储总容量为集群中所有组的存储容量之和。一个组由一台或多台存储服务器组成,组内的Storage server之间是平等关系,不同组的Storage server之间不会相互通信,同组内的Storage server之间会相互连接进行文件同步,从而保证同组内每个storage上的文件完全一致的。一个组的存储容量为该组内的存储服务器容量最小的那个,由此可见组内存储服务器的软硬件配置最好是一致的。

采用分组存储方式的好处是灵活、可控性较强。比如上传文件时,可以由客户端直接指定上传到的组也可以由tracker进行调度选择。一个分组的存储服务器访问压力较大时,可以在该组增加存储服务器来扩充服务能力(纵向扩容)。当系统容量不足时,可以增加组来扩充存储容量(横向扩容)。

Storage server会连接集群中所有的Tracker server,定时向他们报告自己的状态,包括磁盘剩余空间、文件同步状况、文件上传下载次数等统计信息。

3)Client:客户端
Client是上传下载数据的服务器,也就是我们自己的项目所部署在的服务器。

如下图:
分布式文件系统fastDFS研究.jpg

1.3、FastDFS的存储策略

为了支持大容量,存储节点(服务器)采用了分卷(或分组)的组织方式。存储系统由一个或多个卷组成,卷与卷之间的文件是相互独立的,所有卷的文件容量累加就是整个存储系统中的文件容量。一个卷可以由一台或多台存储服务器组成,一个卷下的存储服务器中的文件都是相同的,卷中的多台存储服务器起到了冗余备份和负载均衡的作用。

在卷中增加服务器时,同步已有的文件由系统自动完成,同步完成后,系统自动将新增服务器切换到线上提供服务。当存储空间不足或即将耗尽时,可以动态添加卷。只需要增加一台或多台服务器,并将它们配置为一个新的卷,这样就扩大了存储系统的容量。

1.4、FastDFS的文件上传流程

FastDFS向使用者提供基本文件访问接口,比如upload、download、append、delete等,以客户端库的方式提供给用户使用。

Storage Server会定期的向Tracker Server发送自己的存储信息。当Tracker Server Cluster中的Tracker Server不止一个时,各个Tracker之间的关系是对等的,所以客户端上传时可以选择任意一个Tracker。

当Tracker收到客户端上传文件的请求时,会为该文件分配一个可以存储文件的group,当选定了group后就要决定给客户端分配group中的哪一个storage server。当分配好storage server后,客户端向storage发送写文件请求,storage将会为文件分配一个数据存储目录。然后为文件分配一个fileid,最后根据以上的信息生成文件名存储文件。
分布式文件系统fastDFS研究2.jpg

客户端上传文件后存储服务器将文件ID返回给客户端,此文件ID用于以后访问该文件的索引信息。文件索引信息包括:组名,虚拟磁盘路径,数据两级目录,文件名。
分布式文件系统fastDFS研究3.jpg

  • 组名:文件上传后所在的storage组名称,在文件上传成功后有storage服务器返回,需要客户端自行保存。
  • 虚拟磁盘路径:storage配置的虚拟路径,与磁盘选项store_path*对应。如果配置了store_path0则是M00,如果配置了store_path1则是M01,以此类推。
  • 数据两级目录:storage服务器在每个虚拟磁盘路径下创建的两级目录,用于存储数据文件。
  • 文件名:与文件上传时不同。是由存储服务器根据特定信息生成,文件名包含:源存储服务器IP地址、文件创建时间戳、文件大小、随机数和文件拓展名等信息。

1.5、FastDFS的文件下载流程

客户端uploadfile成功后,会拿到一个storage生成的文件名,接下来客户端根据这个文件名即可访问到该文件。

跟upload file一样,在downloadfile时客户端可以选择任意tracker server。tracker发送download请求给某个tracker,必须带上文件名信息,tracke从文件名中解析出文件的group、大小、创建时间等信息,然后为该请求选择一个storage用来服务读请求。
分布式文件系统fastDFS研究4.jpg
tracker根据请求的文件路径即文件ID 来快速定义文件。
比如请求下边的文件:
分布式文件系统fastDFS研究3.jpg

  1. 通过组名tracker能够很快的定位到客户端需要访问的存储服务器组是group1,并选择合适的存储服务器提供客户端访问。
  2. 存储服务器根据“文件存储虚拟磁盘路径”和“数据文件两级目录”可以很快定位到文件所在目录,并根据文件名找到客户端需要访问的文件

1.6、FastDFS的文件同步

写文件时,客户端将文件写至group内一个storage server即认为写文件成功,storage server写完文件后,会由后台线程将文件同步至同group内其他的storage server。

每个storage写文件后,同时会写一份binlog,binlog里不包含文件数据,只包含文件名等元信息,这份binlog用于后台同步,storage会记录向group内其他storage同步的进度,以便重启后能接上次的进度继续同步;进度以时间戳的方式进行记录,所以最好能保证集群内所有server的时钟保持同步。

storage的同步进度会作为元数据的一部分汇报到tracker上,tracke在选择读storage的时候会以同步进度作为参考。

2、安装FastDFS环境

FastDFS 是 C 语言开发,建议在 linux 上运行,本教程使用 Centos 作为安装环境。

2.1、安装gcc环境

安装 FastDFS 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果没有 gcc 环境,需要安装。

yum install gcc-c++

2.2、安装 libevent

FastDFS 依赖 libevent 库,需要安装

yum -y install libevent

2.3、下载安装 libfastcommon

libfastcommon 是 FastDFS 官方提供的, libfastcommon 包含了 FastDFS 运行所需
要的一些基础库。

1) 下载libfastcommon

wget https://github.com/happyfish100/libfastcommon/archive/V1.0.7.tar.gz

2) 解压

tar -zxvf V1.0.7.tar.gz
cd libfastcommon-1.0.7

3) 编译、安装

./make.sh
./make.sh install

4) libfastcommon 安装好后会自动将库文件拷贝至/usr/lib64 下, 由于 FastDFS 程
序引用 usr/lib 目录,所以需要将/usr/lib64 下的库文件拷贝至/usr/lib 下。

需要拷贝的文件如下:

A4F039AFAFF045c4A6581B851AADFB93.png

cp /usr/lib64/libfastcommon.so /usr/lib/

2.4、下载安装FastDFS

1) 下载FastDFS

wget https://github.com/happyfish100/fastdfs/archive/V5.05.tar.gz

2) 解压

tar -zxvf V5.05.tar.gz
cd fastdfs-5.05

3) 编译、安装

./make.sh
./make.sh install

4) 默认安装方式安装后的相应文件与目录

  • 服务脚本:
/etc/init.d/fdfs_storaged
/etc/init.d/fdfs_tracker
  • 配置文件(这三个是作者给的样例配置文件)
/etc/fdfs/client.conf.sample
/etc/fdfs/storage.conf.sample
/etc/fdfs/tracker.conf.sample
  • 命令工具在 /usr/bin/ 目录下:
fdfs_appender_test
fdfs_appender_test1
fdfs_append_file
fdfs_crc32
fdfs_delete_file
fdfs_download_file
fdfs_file_info
fdfs_monitor
fdfs_storaged
fdfs_test
fdfs_test1
fdfs_trackerd
fdfs_upload_appender
fdfs_upload_file
stop.sh
restart.sh

2.5、配置FastDFS跟踪器(Tracker)

1)进入 /etc/fdfs,拷贝一份 FastDFS 跟踪器样例配置文件 tracker.conf.sample,并重命名为 tracker.conf。

cd /etc/fdfs

# 拷贝一份新的 tracker 配置文件:
cp tracker.conf.sample tracker.conf

#修改 tracker.conf
vim tracker.conf

2) 编辑tracker.conf。

# 提供服务的端口
port=22122

# Tracker 数据和日志目录地址(根目录必须存在,子目录会自动创建) base_path=/home/yuqing/FastDFS修改为(可自定义目录,我这里是放在/home下):
base_path=/home/fastdfs/tracker

# 其他的默认即可

3)创建tracker基础数据目录,即base_path对应的目录

mkdir -p /home/fastdfs/tracker

4) 启动Tracker

初次成功启动,会在 /home/fastdfs/tracker/ (配置的base_path)下创建 data、logs 两个目录。

/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf start

5) 查看 FastDFS Tracker 是否已成功启动

ps aux | grep fdfs

1C4BAC4F93FD41e798792AF9D2F2E695.png

6) 关闭Tracker命令

/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf stop

7) 重启Tracker命令

/usr/bin/fdfs_trackerd /etc/fdfs/tracker.conf restart

8) tracker server 目录及文件结构

Tracker服务启动成功后,会在base_path下创建data、logs两个目录。目录结构如下:

  |__data
  |   |__storage_groups.dat:存储分组信息
  |   |__storage_servers.dat:存储服务器列表
  |__logs
  |   |__trackerd.log: tracker server 日志文件 

2.6、配置 FastDFS 存储 (Storage)

1)进入 /etc/fdfs,拷贝一份 FastDFS 跟踪器样例配置文件 storage.conf.sample,并重命名为 storage.conf。

cd /etc/fdfs

# 拷贝一份新的 tracker 配置文件:
cp storage.conf.sample storage.conf

#修改 storage.conf
vim storage.conf

2) 编辑storage.conf。

# 指定此 storage server 所在 组(卷)
group_name=group1

# 提供服务的端口
port=23000

# storage数据和日志目录地址(根目录必须存在,子目录会自动创建) base_path=/home/yuqing/FastDFS修改为(可自定义目录,我这里是放在/home下):
base_path=/home/fastdfs/storage

# 逐一配置 store_path_count 个路径,索引号基于 0。如果不配置 store_path0,那它就和 base_path 对应的路径一样。
store_path0=/home/fastdfs/fdfs_storage

# 如果有多个挂载磁盘则定义多个 store_path,如下
# store_path1=.....
# store_path2=......

# 配置 storage服务器:IP
storage_server=(你的服务器IP):22122 

# 其他的默认即可

3)创建storage基础数据目录,即base_path对应的目录

mkdir -p /home/fastdfs/storage

# 这是配置的store_path0路径
mkdir -p /home/fastdfs/fdfs_storage

4) 启动Storage

启动Storage前确保Tracker是启动的。初次成功启动,会在 /home/fastdfs/storage/ (配置的base_path)下创建 data、logs 两个目录。

/usr/bin/fdfs_storaged /etc/fdfs/storage.conf start

5) 查看 FastDFS storage是否已成功启动

ps aux | grep fdfs

324B71571BB44913A9C6C4079C3D38FE.png

6) 关闭storage命令

/usr/bin/fdfs_storaged /etc/fdfs/storage.conf stop

7) 重启storage命令

/usr/bin/fdfs_storaged  /etc/fdfs/storage.conf restart

Q.E.D.