一、Paramon简介
应用运行特征收集器 Paramon
高效管理集群
展现先进的运营管理能力
整体宏观,秒级刷新,震撼的视觉冲击
丰富的色彩指标,秒级动态刷新集群运行状态,行业同仁参访,生动直观展现先进的运营管理水平。
微观多级指标指导优化
多级指标关联分析,数据价值深入展现
同一窗口单节点CPU、内存、磁盘、网络等多级指标关联展现,直观发现和定位性能瓶颈。
提升人工智能程序效率
GPU分卡性能指标直观展现
面向人工智能使用GPU计算场景,清晰直观实时展现各GPU卡利用率、显存使用率以及温度等性能指标,一键快速查看各GPU卡使用模式等配置信息,助人工智能程序提速。
快速定位用户作业瓶颈
在大规模集群的数百用户作业中,快速按照用户作业维度定位目标作业节点及运行特征,通过鼠标滚轮便捷缩放节点窗口,通过同一界面多级指标关联分析,快速诊断用户作业性能瓶颈。
二、安装环境说明
1、总体介绍
如图所示:整个集群由四个计算节点(cluster1,cluster2,cluster3,cluster4)和一个管理登录节点(cluster0)组成,其中四个计算节点运行paramon后端采集程序,管理登录节点运行paramon服务端程序,前台系统可安装在管理登录节点上。
本文安装的是paramon旗舰版,只有旗舰版和管理员版有后台服务端系统,而且旗舰版能监控AVX指令集的使用情况,对于高性能超级计算来说非常重要,所以这里安装的是旗舰版。另外,本文操作使用的是手动安装,自动安装请根据官方文档尝试。
为了确保安装后能正常运行,请关闭集群节点的防火墙,或者确保 22、10011、10012、10089、10091、10093、10095、10803 这八个端口可通信。
本文安装时已经关闭所有防火墙。
2、硬件配置
计算节点(4个):
CPU:i5-5257U 2核2线程
内存:2GB DDR3L-2133Mhz
硬盘:SSD 20GB
GPU:无
管理登录节点:
CPU:i5-5257U 3线程
内存:4GB DDR3L-2133Mhz
硬盘:SSD 20GB
GPU:Intel iris pro 6100
3、软件环境
操作系统:CentOS 7 (只有管理登录节点安装了GNOME图形化桌面,计算节点安装的是minimal版本)
编译相关:gcc, gcc-c++,gcc-fortran,make,cmake,git
运行环境:mpich,openmpi,nfs
4、其它依赖安装
由于paramon-mgr-8.2.0-1007.centos7.x86_64.rpm包含了图形化界面,所以要安装几个图形库才能使用这个包。
rpm -ivh paramon-mgr-8.2.0-1007.centos7.x86_64.rpm
错误:依赖检测失败:
libGL.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libX11-xcb.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libX11.so.6()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libXext.so.6()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libXrender.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libfontconfig.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libperl.so()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
libxcb.so.1()(64bit) 被 paramon-mgr-8.2.0-1007.centos7.x86_64 需要
所以这里需要手动安装这些依赖库(GNOME桌面环境已经包含了上述库文件,就不用啦):
yum install -y libGL libXrender fontconfig perl-libs
三、安装配置Paramon之后端采集端
后端采集端将被安装在计算节点上。
1、下载安装包
下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。
2、安装paramon后端采集端
下载好后,切换到root用户,或者使用sudo执行以下命令:
rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm
准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]
显示以上信息就说明安装完成。
3、修改配置文件
修改这三个配置文件:
/etc/paratera/pcnt.conf
/etc/paratera/pcnt_exbasic.conf
/etc/paratera/pcnt_job.conf
将其中的缺省 IP 地址“127.0.0.1”修改为“后台服务器”具体的 IP 地址
4、启动服务
用root权限执行命令:
service paramon-cnt restart
出现Restarting paramon-cnt (via systemctl): [ OK ] 则说明启动成功
四、安装配置Paramon之后台服务端
后台服务端将被安装在登录管理节点上。
1、下载安装包
下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。
2、安装paramon后台服务端
下载好后,切换到root用户,或者使用sudo执行一下命令:
rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm
准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]
显示以上信息就说明安装完成。
3、修改配置文件
修改这三个配置文件:
/etc/paratera/pcnt.conf
/etc/paratera/pcnt_exbasic.conf
/etc/paratera/pcnt_job.conf
将其中的缺省 IP 地址“127.0.0.1”修改为“后台服务器”具体的 IP 地址
4、启动服务
用root权限执行命令:
service paramon-mgr restart
出现Restarting paramon-mgr (via systemctl): [ OK ] 则说明启动成功
另外,如果不想统计该登录管理节点的系统信息,即不作为计算节点来统计cpu内存IO等用量,请执行命令service paramon-cnt stop 关闭paramon-cnt服务。
五、安装paramon前台
前台程序可以被安装在任意需要使用paramon图形化监控界面的节点上,本文将它安装在登录管理节点上。
1、下载安装包
下载centos7版本的rpm安装包,其它版本请在官方下载页面下载。
2、安装paramon前台程序
下载好后,切换到root用户,或者使用sudo执行一下命令:
rpm -ivh paramon-mgr-ult-8.2.0-1007.centos7.x86_64.rpm
准备中… ################################# [100%]
正在升级/安装…
1:paramon-mgr-ult-8.2.0-1007.centos7 ################################# [100%]
Starting paramon-cnt (via systemctl): [ OK ]
显示以上信息就说明安装完成。
3、修改.pmon配置文件
然后修改文件扩展名为“.pmon”的集群配置文件:
/etc/paratera/nodelist.pmon
Paramon 对此配置文件格式要求严格,缺省内容如下:
#@127.0.0.1
#!CLUSTER:1
#$PARATERA = mgr:2 io:2 compute:8
#*ALIAS PARATERA = ParateraAlias
#&mgr = localhost localhost.localdomain
#&io = io1 io2
#&compute = compute1 compute2 compute[3-8]
需要根据具体集群的信息来配置,下面依次说明这个配置文件中各行的意义和修改方法:
第一行:指定“后台服务器”的 IP 地址,如果“前台”和“后台服务器”是同一台机器,那么这一行不用修改。
第二行:指定集群的数量,如果只配置一套集群,那么这一行不用改动,如果要配置多套集群,请把数字“1” 修改为具体的集群数目。
第三行:空行保持不变。
第四行:指定集群中的节点类型和节点数量,以“:”分隔某类节点的类型与数量,不同类别节点间以空格隔 开,缺省配置中列出了三类节点,分别是:
mgr:2 // 两个管理节点
io:2 // 两个 IO 节点
compute:8 // 八个计算节点
请根据具体集群的情况修改节点类型和数量,如果某类节点数量为 0,则不用列出这类节点,比如一个集群中 有一个管理节点和 4 个计算节点,没有单独设置 IO 节点,那么这一行配置如下:
PARATERA = mgr:1 compute:4
第五行:指定集群名和集群别名,格式为:#*ALIAS 集群名 = 集群别名。
第六行至第八行:分别对应第四行中所列的各类节点,指定具体的节点名(hostname)。以第六行为例,关键字 “#&io”表示这一行是 io 节点的节点名列表,“io1 io2”是具体每个计算节点的节点名。
另外各类节点的节点名(hostname)还支持数字通配形式表示。以第 7 行为例,关键字“#&compute”表示 这一行是计算节点的节点名列表,“compute[3-8]”是指“compute3”到“compute8”6 个节点的节点名。 在使用数字通配形式表示节点名时需要注意下面几点:
1.使用数字通配形式表示的节点名可以和普通节点名混用,二者之间必须用空格符号隔开,不能用任何 其他字符;
2.使用数字通配形式表示的节点名数字通配部分数字位数必须相等。
举个例子,一套集群有一个管理节点和 4 个计算节点,管理节点同时作为“前台”和“后台服务器”,管理节 点的“/etc/hosts”文件内容如下:
127.0.0.1 localhost.localdomain localhost
172.16.1.1 cluster1
172.16.1.2 cluster2
172.16.1.3 cluster3
172.16.1.4 cluster4
172.16.220.10 cluster0
那么这套集群的“.pmon”文件应当配置为:
#@127.0.0.1
#!CLUSTER:1
#$PARATERA = mgr:1 compute:4
#*ALIAS PARATERA = ParateraAlias
#&mgr = cluster0
#&compute = cluster[1-4]
配置好“.pmon”文件之后就可以运行 Paramon 了。
4、启动
paramon-admin-ult
六、激活
联系paratera购买软件许可或申请试用。
1、激活后台采集端
将得到的预授权软件证书文件(paramon-mgr-ult.lic )重命名为“paramon-cnt.lic”,然后拷贝到所有后台采集端节点的 “/etc/paratera/lic/”目录下。
最后在所有后台采集端节点上重新启动 Paramon 后台采集端服务:
# service paramon-cnt restart
2、激活前台客户端
对 于 Paramon 前 台 , 将 前 台 的 预 授 权 软 件 证 书 文 件(paramon-mgr-ult.lic )重命名为 “ paramon-mon.lic ” ,拷 贝 到使用前台程序的节点中 , 例 如 “/etc/paratera/lic/”目录下,然后在命令行启动 Paramon:
# paramon-admin-ult
Paramon 软件会自动检查证书设置并以 basic 模式启动,设置好paramon工作目录后,准备激活:选择“锁定证书”,点击“注册…”
选择锁定证书方式且选择之前拷贝好的预授权证书文件“/etc/paratera/lic/paramon-mon.lic”,然 后点击“确定”,如果证书验证成功,Paramon 软件主窗口标题栏会显示“Paramon 应用运行特征收集器-旗舰版”字样
七、使用
在打开集群时,选择第5步中,配置好的nodelist.pmon文件,就能打开我们上面所配置的集群了。
如图所示,cluster0是后台管理节点,以及paramon的后台服务端,只要能访问该节点,便能查看该集群的监控数据。
cluster1-4是计算节点,此时没有计算任务,故而基本都是黑色,利用率很低。
其它使用截图:
某个节点详情:
这些指标中有的是百分率,有的是绝对数值,下面是对这些指标的说明:
内存使用率:内存使用的百分比,上限为 100%
内存读速率和内存写速率:统称“内存带宽”,上限为 100GB/s
SWAP 实时使用率:SWAP 分区的实时使用百分比,上限为 100%
SWAP 使用率:SWAP 分区使用的百分比,上限为 100%
CPU ALL 使用率:CPU 总利用率所占的百分比,上限为 100%
CPU SYWA 使用率:内核态占 CPU 时间百分比+等待 IO 请求占 CPU 时间百分比,上限为 100%
CPU 有效计算比例:Gflops 占峰值的比例,上限为 100%
磁盘读/写速率:读写磁盘的速率,上限为 100MB/s
网络文件系统(NFS)接收/发送速率:网络文件系统的读写速度,上限为 100MB/s
网络接收/发送速率:网络的收发速度,上限为 120MB/s
IB 接收/发送速率:InfiniBand 网络的收发速度,上限为 1500MB/s
0 条评论