【金猿产品展】ModelWhale——高效好用的数据科学云端协作工具
和鲸科技产品
大数据产业创新服务媒体
——聚焦数据 · 改变商业
ModelWhale 是和鲸科技自主研发的一款数据科学云端协作工具,为数据工作者提供了即开即用的云端分析环境,用户可以高效地完成数据管理、编程分析、模型训练、模型管理、资源管理、任务管理等工作。此外, Jupyter Notebook 交互式和 Canvas 拖拽式两种分析界面,还可支持团队间的代码级协作与高效的成果流转,更有效地挖掘和利用数据价值,令数据科学团队的工作更加轻松、便捷。
目前,基于“社区+工具”的商业模式,和鲸的“数据科学协同平台”覆盖高校、科研机构、企业三大场景。中国气象局国家气象信息中心、医学信息研究所、鹏城实验室、IBM、中国联通、平安科技、百度、携程、快手、拍拍贷、同盾科技、好未来等企业已在部分业务场景中使用了和鲸社区和 ModelWhale 工具进行数据价值的创造。
以医学信息研究所为例,此机构拥有着丰富的文献资源、医学特色资源和医药卫生科学数据,并且希望能充分发挥医学数据的价值,建成能够对海量医学数据进行分析和建模的医学数据挖掘平台,助力行业培养更多专业的医学数据挖掘人才。同时,让研究所的科研人员快速进行数据建模、数据挖掘、模型训练等工作,最大化释放医学数据的研究价值,和鲸为其搭建了一个教学和科学研究一体化的医学数据挖掘平台,此平台依托于 ModelWhale 可按需配置应用模块的定制化功能,通过给学生和科研人员账号配置不同模块,实现教学和科研功能的区分,并帮助学院领导与导师在一个平台完成科研任务、教学任务的统一和协同管理。有效提升信息所内部教学和科研工作开展效率的同时,也构造了良好的人才培养和科研转化生态圈。
●ModelWhale 科研版
基于量化的科研生产与协作需求,为科研机构及团队提供的科研协作平台。支持 GPU、CPU 算力升级调用,提供开箱即用的 Python、R、Julia 语言生态,具备完善的论文生产功能,便捷的团队协作分享机制和一体化代码文献管理。帮助导师精准把控项目细节,加快研究进度,让团队成员摆脱繁复的基础工作,迅速进入研究重要阶段,大幅提升科研探索效率和论文质量。
随着科研数据体量、维度的大幅增加,科研课题的多元化。科研团队对于数据处理和团队协同难度逐渐提高,需要引入大量云资源,并需要为团队提供统一的协作系统,这不仅需要进行繁复的基础工作,对于一些没有计算机背景的团队成员更是十分困难。从硬件到软件,为科研实验室专门配置一套高性能计算能力的设备往往需要花费上百万甚至千万,而硬件技术的快速更迭使得高性能计算集群频繁换代,带来潜在且不菲的更新成本。
和鲸科技旗下的数据科学工具 ModelWhale 科研版,不仅提供了Python、R、Julia 语言的丰富生态,覆盖了上百种主流数据分析工具功能,也为团队提供了统一的云计算环境,只需一键环境配置和项目分享,从数据到模型甚至论文报告都可以一键共享,完成无缝实时协作。和鲸ModelWhale 科研版,实际上提供了一整套完整的数据科学相关科研解决方案。
对于科研导师来说,ModelWhale 科研版能够帮助导师精准把控项目细节,加快研究进度,让团队成员摆脱繁复的基础工作,迅速进入研究重要阶段,大幅提升科研探索效率和论文质量。同时也让科研团队直接跳过琐碎的运维管理,从繁重的基础工作中解放,无需任何硬件部署和运维,快速在应用层开展研究工作,根据任务需求弹性调度云算力,既高效又经济。
具备云资源弹性调度、开箱即用的环境配置、交互式编程、便捷的代码库、丰富的学习资源、多人实时在线协作、任务与权限灵活管理、论文复现等诸多优势的 ModelWhale 科研版,不仅在深度学习等前沿科研领域有着很好的应用前景,在历史、社科和经济学这些人文学科也有着丰富的应用。据悉,ModelWhale 科研版推出后,受到了众多高校与科研机构的广泛关注,并已经在国内的顶级高校如清华大学、上海交通大学的科研团队中得到应用。
●ModelWhale 教育版
除了科研版之外,和鲸还推出了 ModelWhale 教育版,包括实训教学平台、管理平台、课程体系、课程内容、实训项目、优质师资与师资培训、就业与企业需求对接等全方位服务,使得数据科学的教学工作更加简单高效,大幅提高学习效果与就业水平。教育版已被清华大学、北京大学、中国人民大学、上海交通大学、同济大学等知名院校以及中国医学科学院采用,作为在“数据科学与大数据技术”专业以及相关辅修专业、交叉学科中的数据科学教学平台。
ModelWhale 教育版基于高校的学科建设与发展需求,为高校提供数据科学与人工智能一站式教学解决方案,包括实训教学平台、管理平台、课程体系、课程内容、实训项目、优质师资与师资培训、就业与企业需求对接等全方位服务,使得数据科学的教学工作更加简单高效,让学生摆脱纯理论教学的桎梏,快速融入到实战式学习中,大幅提高学习效果与就业水平。
一、数据管理
●数据源接入:用户可将分析所需的各类格式数据文件上传至 ModelWhale ,进行安全统一的管理、展现与共享,也可远程访问数据库直接调取使用,无需下载、存储与重复维护等繁琐流程。文件形式数据可以以数据集形式进行管理。对于结构化数据文件,可自动生成描述性统计、频数可视化分布;对于关系型数据库可在线查看、筛选各数据库表与详细字段。
●数据源管理:ModelWhale 支持配置与管理不同数据源的访问路径、使用权限、描述文档等信息。使用权限上,支持以用户组形式对使用权限进行统一管理。针对数据集形式的数据源,挂载分析时可自动将该数据加载到分析环境中;针对数据库形式的数据源,在分析时将自动在环境中嵌入访问凭证,然后进行远程访问,避免出现访问凭证的安全泄漏。
二、分析工具
●Notebook 交互式分析:ModelWhale 提供针对数据分析流程进行专业优化的Jupyter Notebook 环境,支持版本管理、变量管理、资源监控等专业功能,拥有不断更新的数据科学常用算法代码片段,涵盖数据分析处理、可视化与常用模型功能,支持 Cell 输入输出的隐藏发布、PPT 模式演示、HTML、PDF 格式导出等多样化的呈现方式。
●Canvas 拖拽式分析:ModelWhale 可基于图形化、组件化的操作进行数据预处理、数据可视化、统计分析、机器学习建模工作,并支持一键转换为 Notebook 进行深度代码分析,帮助团队快速搭建分析流程,进一步提升数据工作效率与体验。
三、模型管理
●模型解析:ModelWhale 支持对主流机器学习框架输出的模型文件进行可视化解析,用户能够直观的获取模型的内部结构,查看模型组成、模型结构以及每层网络节点的输入、输出和对应的参数说明。
●训练记录:ModelWhale支持对每次模型训练记录当次使用的数据、运行的代码、训练过程中关注的参数以及运行中的性能情况进行查看,通过对比分析模型在训练过程中的各种重要评价和硬件使用情况,进一步优化大规模模型训练成本。
●模型服务:ModelWhale 支持将产出的模型文件通过一键部署的方式构建 RESTful API 服务。该服务以 API 的形式呈现,使得平台内开发者能够基于 API 进行模型的开发或调用,通过即时调用获取推断结果。此外,用户还可将已经部署的服务,例如数据读取、数据推断、数据可视化等灵活组合,构建新的服务供其他研究人员调用,以提高服务的便捷性和可复用性。
四、协作管理
●任务规划:ModelWhale 可进行任务拆解与分配、进度交流与分享,轻松同步团队进展;用户资料与成果在知识库中可轻松沉淀与梳理,方便协作者直接查看与使用。
●代码式协作:ModelWhale 可在项目中添加协作者实现团队协同,团队间可针对每个代码块的分析结果进行讨论和批注,甚至一键轻松 Fork 他人代码,实现 Notebook cell 级别代码版本的比对与合并,还可定义项目输出功能,支持基于数据和模型产出的工作流。
五、计算引擎
●镜像管理:ModelWhale 为用户提供即开即用的 Python 与 R 语言开发环境,并提供统一使用的数据科学镜像,镜像中包含常用机器学习框架与数据分析研究过程中的常用工具包,支持用户根据分析需求快速构建自定义镜像,以满足不同应用的分析需求。
●弹性算力调度:ModelWhale 提供基于 Kubernetes 的调度服务,每次项目运行时将从对应实例类型的集群中,调度对应配置的机器并提供计算服务。当项目关闭后,可以自动释放运算资源,使资源能够服务于其它业务,实现计算资源利用率和可复用性的有效提升。SaaS 模式支持跨云调度 AWS、阿里云、华为云、腾讯云的计算资源,私有化模式可支持在公有云和私有云环境的独立部署。
●离线训练任务:ModelWhale 离线训练任务可支持调度单机 CPU 实例、单机 GPU 实例与分布式 GPU 集群算力,用户可指定实例类型、Notebook、镜像进行离线训练,实时返回训练结果以及训练过程中的资源使用情况,并将训练结果在系统内进行同步与保存。GPU 集群支持基于 Horovod 的环状规约(Ring - AllReduce)架构下的分布式机器学习方法,它是高性能计算中常用的技术,相比传统的参数服务器架构,它可以显著分散网络传输的压力,且随着集群的规模增大性能线性增加。用户只需修改少量的单机代码就可以将训练脚本改为分布式的版本,大大优化调试成本。
细粒度的权限管理
对数据、算力、项目、成员进行细粒度的权限管理,保证企业内部的数据安全;通过自动测评模块高效管理算法模型,实现对算法的生命周期管理。
功能丰富的专业化分析界面
ModelWhale 通过自主研发的Notebook、Canvas可直观呈现研究过程,模型解析功能让成果更好地被诠释,云端分析环境支持研究结果一键复现。
业界领先的资源调度能力
统一的开发环境:ModelWhale 在容器中预安装所有主流数据科学的算法和框架,数据科学家一方面可以开箱即用地使用自己已经熟悉的算法,同时能够实时与他人同步自己的分析成果;提供实时存储的文件系统,云端保存数据分析的中间结果。
拖拉拽式编程
Modelwhale提供拖拉拽的Canvas模块化编程组件,组件搭建后,数据小白也可以轻松修改参数完成工作。
和鲸科技的核心产品 ModelWhale ,拥有了出色的用户体验和产品口碑,赢得了包括了中国气象局国家气象信息中心、医学信息研究所、金风科技、鹏城实验室、清华大学、上海交通大学、同济大学、华东师范大学、中国电信、中国银联、中电科等在内的,国内最优秀的一批机构客户的信任。使用人数已超100万人次。
资料经验分享,节约学习成本
ModelWhale 数据科学云端协同平台可支持一键分享自己的学习经验、人工智能算法及数据集,形成和鲸社区(目前已覆盖了130,000+优质数据人才)的开放学习文化,方便社区内的成员互相帮助及分享研究成果,从而可加速人才提升,并降低学习成本。
协作效率提升,人力消耗降低
ModelWhale 数据科学云端协同平台是基于云技术的原生平台,方便协作并能够提升数据科学技术的运用效率,可减少人工智能研发人员在协作过程中产生的相关人力资源浪费。
分析门槛降低,数据价值扩大
ModelWhale提供便捷的代码片段收藏与调用功能,更有拖拽式编程界面,降低数据科学技术使用成本,同时提供拖拉拽的Canvas模块化编程组件,组件搭建后,数据小白也可以轻松修改参数完成工作。
智能人才匹配,减少时间浪费
通过基于 ModelWhale 的人工智能及数据科学竞赛以及众包项目,能够为企业更加精准、快速的找到最合适的人才,大幅降低人才与企业需求的匹配成本。
创新兼顾风险,试错成本可控
ModelWhale 的人工智能及数据科学竞赛与众包项目,能够充分利用全社会人才之智,在降低人工智能创新成本与风险的同时,最大化的产出优秀成果,促进企业的业务创新与增值、提升企业的核心价值,从而推动企业快速发展。