当前位置: 教学设备 > 技术文章 > 浅谈大数据实验室的建设

浅谈大数据实验室的建设

时间:2025-04-09 06:00:45 点击次数: 中人教仪厂

1建造设计目标

建造设计云实验平台,在该平台上完成了编程教学实验、数值库实验以及网盘应用系统;该平台技术上应用服务器虚拟化技术经过云管理平台完成了实验环境的快速部署;虚拟化平台基于磁盘阵列集中存储,应用FC SAN互联网架构。
现规划建造设计一个Hadoop 大数值实验室,使用已经建造设计好的平台,经过拓展资源池的方法部署,运用现有服务器虚拟化平台虚拟出大量虚拟机用来组建Hadoop 集群,主要用来学生实验以及科研用途。假定建造设计目标和规模如下:
建造设计目标:建造设计成校级实验室,适用学生做大数值实验和教师大数值科研。
建造设计规模:系统支持100个左右的虚机同时运行,功能适用学生大数值实验需求。
拓展性需求:系统需具备良好拓展能力,可以便利拓展系统容量(KV)和功能,以适用更多实验和科研需求。

2配备方案

本章节对组建大数值实验室所需要的硬件资源实行配备,从大数值实验资源需求出发来解析组建大数值实验室需要对现有物理服务器、磁盘阵列、FC交换机、IP互联网交换机的资源做哪些扩容。

2.1已有资源

云实验平台已经部署了10多台2路物理服务器,经过1台FC交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU、4GB内部存储、30GB虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。

2.2扩容资源需求

对资源需求实行估算是虚拟化系统硬件配备的基础依据。在大数值实验室中,资源可分为两大类:一类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内部存储资源和磁盘阵列的IOPS 资源,磁盘IOPS资源在大数值实验中需求相对较高;另一类是系统可以"放置"多少个虚机,这主要关注磁盘阵列的存储容量(KV)。
运行资源
假定虚机规格如下表中所示,该规格适用大数值实验环境下对功能的需求;则200个虚机同时运行,需提供下表中所需资源。

Linux虚机规格 同时运行虚机数量 虚拟资源池大小需求
CPU大小 2个逻辑CPU、2.0GHZ 100 CPU资源 200个逻辑CPU、200GHz
内部存储大小 4GB 内部存储大小 400GB
磁盘IOPS 100 磁盘IOPS 10000
当然,对于Hadoop集群中的Master虚机应当配备大些内部存储,比如8GB。
存储容量(KV)
磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要放置500个虚机,总共需要约210TB的存储空间。

Linux虚机规格 虚机总数 磁盘阵列存储空间需求
磁盘1(系统盘)大小 15GB 500 磁盘空间 107500GB(100TB)
磁盘2(数值盘)大小 200GB

2.3物理服务器扩容配备

作为虚拟化主机的物理服务器,目前可选用的配备主要有2路和4路,综合考虑CPU运用率、互联网成本等因素,我们建议选用2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。
首先计算总共需要多少物理的CPU资源和内部存储资源,计算以上述"运行资源"为基础依据,并考虑物理资源的80%用作运行虚拟机。

虚拟资源池大小 比例 物理资源池大小需求
CPU资源 200个逻辑CPU、200GHz 80% CPU资源 250个逻辑CPU 250GHz
内部存储资源 400GB 内部存储资源 500GB
物理服务器规格和所需数量如下表所示。
新增物理资源池大小 物理服务器规格 物理服务器数量
CPU资源 250个逻辑CPU 、250GHz CPU 2路10核、超线程(40个逻辑CPU)、2.0GHz 7
内部存储资源 500GB 内部存储 128GB 4
磁盘 1*240GB SSD盘
网口 4*1gb
FC口 1*8gb
按照估算,需要新增7台2路物理服务器即可适用计算功能需求,本项目中我们实际配备上述规格的物理服务器8台。

2.4磁盘阵列扩容配备

磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS功能和存储空间的要求。存储空间显然容易配备,而IOPS存在诸多变数,这是个无法准确估算的指标,为了使系统具备良好的功能,我们实行了仔细考量。
依据2.2节所估算的IOPS功能要求和存储空间要求,估算系统需要多少块SAS磁盘。

存储资源需求 单块SAS盘 需配备SAS磁盘数量
IOPS 10000 IOPS 200 50
存储容量(KV) 107500GB 容量(KV) 900GB 120
同时适用IOPS功能和容量(KV)需求需要新增约120块SAS盘,这个投资显得过高。为了降低存储上的投资,我们采取如下配备和部署的策略:
第1:使用高功能SSD盘集合SAS盘,提供较SAS盘更好的功能;该部分的空间主要用来虚机的系统盘。
第2:使用高功能SSD盘集合大容量(KV)SATA盘,主要适用系统容量(KV)的需求,并提供了接近SAS盘的功能;此部分存储空间主要用来虚机的数值盘。
现有磁盘阵列扩容配备配备如下表:

磁盘阵列扩容配备 可提供的规格、功能
控制器 (双活冗余控制器) IOPS 大于12000
缓存 (32GB) 存储容量(KV) 120TB裸容量(KV)
SSD盘 新增:4*200GB SSD缓存 支持
SAS盘 新增:12*900GB 精简置备 支持
SSD盘 新增:4*400GB 存储快照 支持
SATA盘 新增:28*4TB

2.5FC SAN互联网扩容配备

由于新多加了8台物理服务器,FC交换机需要新多加激活端口和相应模型块,数量为8个。

2.6IP互联网扩容配备

原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数值实验环境中,虚机之间存在大量的东西向数值流量,因此我们设计多加一台24口的千兆交换机用来大数值集群后端互联网流量通道。



2.7扩容配备表单

组建适用100个虚机同时运行的大数值实验平台,需要对现有云实验平台物理资源实行扩容,扩容含有概括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA盘、FC交换机多加激活端口、新增1台24口IP交换机,详细扩容配备表单如下表:
序号 名称 品牌/型号 扩容配备描述 数量 单位
云实验平台硬件扩容配备
1-1 虚拟化主机 云创cServer 2U机架式服务器带机架装配套件;CPU:2颗Xeon E5-2670 V3,内部存储:128GB;4个千兆网口;Disk:1块240GB SSD,板载支持Raid0,1,5 ,FC口:单口8Gb; 8
1-3 磁盘阵列 云创
rStor 7000
扩容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盘、28*4TB SATA盘,SSD缓存功能、精简配备功能、快照功能 0
1-4 光纤交换机 Brocade 300B 扩容新增:8个端口激活许可,8个端口8gb模型块; 0
1-5 千兆交换机 华为 S5700-28C-SI 24个10/100/1000Base-T,可插拔交流ACAC电源,交流ACAC供电 1
Hadoop教学培训服务
2-1       1
其他相关费用
3-1 机储物储物柜 1
3-2 定制研发        
3-3 装配调节测试        
3-4 培训服务        


3部署方案

3.1系统架构

系统架构在扩容前后基础没有改变,扩容后的整个虚拟化系统部署架构如下图所示。

与原先区别主要是资源池扩充了,新增的物理服务器包括一个新的集群,并而且经过新多加一台千兆交换机包括大数值实验虚机后端互联网流量通道。

3.2IP互联网部署

本项目中对于IP互联网的部署设计,除了考虑vSphere环境下一般性的部署注意事项外,还需要注意由虚机包括的Hadoop集群对IP互联网的需求。

上图是一台物理服务器的虚拟互联网和物理互联网连接示意图。
每个虚机配备2个虚拟千兆网口,一个用来虚机前端业务流量,一个用来Hadoop集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用一台、可以配备为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配备为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。这种部署设计完成了IP互联网全冗余,提供了故障变换和互联网负载均衡功能。

3.3Hadoop集群部署

经过虚机部署Hadoop集群,当然需要评估虚机资源的需求,即使评估有误也无关系,虚拟化的一大好处就在于资源可以灵活调节。
在部署和使用虚机时,我们可以集合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实验环境提供便利。
Hadoop集群含有了Master节点和Slave节点,可以实行Hadoop部署实验、HDFS实验、MapReduce实验、HBase实验、Hive实验等。下表是节点虚机配备参考。

Master节点配备参考 Slave节点配备参考
CPU 2*LCPU CPU 1-2*LCPU
MEM 8-16GB MEM 2-8GB
Disk1(sda) 15GB Disk1(sda) 15GB
Disk2(sdb) 20GB Disk2(sdb) 50-200GB
虚拟网卡1 千兆 虚拟网卡1 千兆
虚拟网卡2 千兆 虚拟网卡2 千兆
本项目部署时,需要注意一个细节点是:我们应该尽量将一个Hadoop集群内的全部虚机运行在一台物理服务器上,避免IP流量流出物理服务器。

3.4部署计划

下表给出本项目部署实施的一些主要任务和时间预估。
任务 时间
IP地址规划,VLAN规划 4H
Fabric Zone规划 1H
存储LUN规划 2H
虚机资源规划 1H
设备上架,完成物理装配 1D
磁盘阵列初始装配 2H
FC交换机配备 2H
IP互联网配备(交换机、路由器) 2H
存储完成配备 2H
vSphere装配配备 1.5D
虚机资源规划 2H
系统ISO导入,虚机模板创建 1H
第一个大数值集群建立 1D
使用测量试验,调节 2D
创建其他大数值集群  


常见问题:

1、如果我要购买浅谈大数据实验室的建设,是否有安装、培训服务呢?

答:我们的设备如果没有特别注明“不含安装”“裸机价”“出厂”等字样的,都是提供安装、培训服务的。

2、你们的浅谈大数据实验室的建设是否能开增值税专用发票?

答:可以的,我们是正规企业,并且已经升级到一般纳税人,可以开具增值税专用发票,如果您需要开浅谈大数据实验室的建设的发票,您需要提供开票资料。

3、你们的浅谈大数据实验室的建设都是自己生产的吗?都有什么产品资质?

答:我们公司是专业生产教学设备的企业,完全自主生产,并通过了最新版ISO9001认证,拥有多项专利与著作权。

本文来自网络,不代表本站立场,图片为参考图片,转载请注明出处:浅谈大数据实验室的建设

    沪ICP备15019043号-4,PLC实验台,实验室设备,电工实训台,机械传动机构,教学设备