抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >
SGE+bash+awk+sed+Python+WebStackPage实现P级数据并发扫描与数据报表公示系统

立体感图片

一个引人入胜的场景:每周都涌现出大量的生物信息学数据,需要按照预定周期进行公示,以便在各个业务部门中找到相应的责任人、运营经理和生信专家,进而进行数据删除。这一流程还需要确保超期周期的可调整性。通过巧妙地运用 AWK 的 ARGIND 模块结合哈希算法,我们摆脱了以往 Bash 脚本在文件合并过程中所遭遇的缓慢、CPU 和内存资源占用过多的困扰。如今,文件合并不过是在短短几十秒内完成,而以前的 Bash 脚本在分析 279TB 的超期数据时需要耗费约 3 分钟,而 Python 脚本生成 Excel 表格并进行数据透视也只需大约 4 分钟。我们还打造了定时任务计划,确保数据的准确性,从而在自动化的同时,将网络界面上的公示与生信人员的主动获取结果巧妙地结合在一起。

为应对爆盘风险,每个部门都分配了多套存储与相应的配额。但当部门存储使用率高时,需要频繁调整配额,这造成了高度重复的工作、时间浪费以及误操作风险。为满足这一需求,我们提出了一种新的配置方法。各业务线根据指定格式编写调整需求,提交给运维,随后运维执行即可。这一流程极大地节省了运维人力,同时也显著降低了误操作风险。通过这种方式,我们在满足需求的同时提升了效率,创造了更加可靠的环境。

使用SGE(Sun Grid Engine)来管理多节点任务是一种高效的方式,特别是当你有多台机器和多个核心可供利用时。你可以在单一的控制节点上提交任务,无需关心任务分配到哪个节点上,这为用户提供了方便的资源调度方式。 例如,如果你有5台机器,每台机器有8个核心,总共有40个核心。当你从其中一台机器上提交了1000个作业,SGE将会智能地将这1000个作业分配给可用的40个核心来执行。这样的自动任务分配和资源管理使得任务调度更为高效,允许你更好地利用集群资源。

[toc] sge高性能集群的搭建与使用集群环境的准备 Node1(master) CentOS7.4 iptables/selinux(off) IP:10.180.66.11 hostname:node1 ali yum源 Node2(slave) CentOS7.4 iptables/selinux(off) IP:10.180.66.12 hostname:node2 ...