浅谈人工智能的学习
人工智能(AI)的发展是一个从学术研究、行业验证、商业落地、行业平台到智能生态的一层层深入过程,这也是人工智能理想的发展阶段。人工智能的重要性无需赘述,对AI学习对我们来说同样重要,但是如何学习人工智能呢?
实践出真知
最好的学习方式是on-job learning,在工作中学习,把人工智能在工作中用起来!
对于电子商务而言,实时推荐系统对其的成功至关重要。深度神经网络(DNN)通过捕获用户项数据集中的非线性关系,显示出作为推荐系统的成功。利用不同类型的DNN可以构建高效的实时推荐系统,为不同的用户推荐产品。
零售业目前是机器学习和人工智能应用的主要行业之一。零售场景理解的主要挑战之一是物理世界中的产品识别。为零售商和制造商构建计算机视觉识别平台是一种不错的实践。
在外卖的个性化场景中,个性化产品形态包括:商家、商品、套餐等。外卖个的性化场景包括个性化搜索和个性化推荐。在外卖个性化中应用的AI技术包括:NLP,DNN,图像技术,强化学习等。通过构建搜索框架的原型,通过使用ML个性化餐厅搜索结果,了解给定用户购买历史的相关餐厅的构成,能够将机器学习应用于搜索相关系统,在高吞吐量系统中权衡搜索相关性和响应时间,将ML模型与ElasticSearch一起用于重新排序文档。
在线上财富管理领域中,AI技术是其中不可或缺的一环。财富管理可以细分为投资和实现财务目标两个方面,对于投资而言,一些具备强金融逻辑的变量可能更适合使用机器学习进行预测。而在资产价格的预测上,可以尝试使用AI和大数据技术获取更多的有价值信息。对于实现财务目标而言,基于NLP技术的语义理解、引导式对话是理解用户的关键,基于AI和大数据的KYC也是判断用户状态的有效工具,而一个融合了财务规划、投资和精算知识的专家系统则是定制级规划的核心。
在定量金融中使用人工智能技术,从而产生盈利的交易策略。被动投资(或量子投资)现在非常流行,深度学习、强化学习以及NLP和情绪分析等许多技术正被广泛用于新闻和地理位置数据等数据集。如果用LendingClub的真实借贷数据做为案例,可以帮助我们了解数据科学在互联网金融领域里在个人信用评估的价值;了解个人信用领域真实的数据科学流程和考虑方面;了解信用模型搭建中多种挑战的解决方案,从技术角度来看,我们能够深刻了解到评估机器学习模型整个生命周期偏差的3个关键步骤,了解如何在实际示例中使用关键机器学习概念,如特征重要性,类不平衡,模型分析,部分依赖性等。
从人工智能系统的构建方法入手,医院可以通过消化道病理影像辅助系统的研发过程获得诊断系统从部署到落地使用的一些经验,能够提高诊断效率,减少漏诊,提高准确率等等。
在出行领域,一个突出的挑战是分析地理空间大数据。地点和旅行提供的数据观察可以改进业务决策并更好地为用户服务。而越是在大数据场景中,地理空间数据分析越具有挑战性。对于这些分析请求,须实现效率、可用性和可伸缩性,以满足用户需求和业务需求。
保险行业,有着自己的数据特性。总结基于机器学习的技术,可以实现一个保险业人工智能场景的全流程:从场景研讨、数据加工提取到模型构建、模型效果评估、模型落地实施。探讨特征稳定性、样本不均衡、参数选择、模型可解释性等环节都有着不同的挑战。
在物联网领域,基于深度学习的时间序列预测占有很重要的位置。了解卷积和递归神经网络的基础知识及其在时间序列预测中有效的高级架构,进而决定何时在时间序列预测中使用深度学习模型而不是传统的时间序列模型。了解对于构建时间序列预测的深度学习模型,便于使用Keras训练和调整时间序列预测。
是不是可以认为,所有的控制平面都可以应用机器学习呢?所有基于冯诺伊曼结构的计算体系,都有着人工智能的应用场景呢?
随身学习
学习是终身的,鉴于人工智能庞大的体系结构,更是如此。本着学以致用的方式,框架、工具、模型及方法都是很好的学习入口。
框架与工具
PyTorch是一个用于Python的机器学习库,允许用户以极大的灵活性构建深度神经网络。其易于使用的API和GPU的无缝使用使其成为深度学习的热门工具。通过PyTorch的工作流程可以掌握使用真实数据集构建深度学习模型的知识。通过深入研究PyTorch框架,包括TorchScript和JIT编译器,部署支持,C ++接口等,能够在从自动驾驶汽车到医学成像等领域快速部署,Facebook就使用了PyTorch 1.0来为各种产品提供AI。
TensorFlow库提供了计算图形的使用,可以跨资源自动并行化。该架构非常适合实现神经网络。TensorFlow2.0是一个主要的里程碑,其重点是易用性,支持分布式策略和边缘部署(tensorflow-lite和tensorflow.js)等。
基于Apache Spark,可以完成一站式的机器学习,包括多种数据源的接入,构建复杂数据管线,利用数据可视化理解数据,通过可插拔的机制使用各种流行的机器学习框架,以及部署和监控模型。通过这种和大数据紧密结合的一站式机器学习,用户可以更加高效的建立和管理自己的机器学习项目,从而加速机器学习在业务中的落地。
Analytics Zoo实现了在Apache Spark上的分布式Tensorflow和Keras,提供了统一的分析AI平台,可将Spark,TensorFlow,Keras和BigDL程序无缝集成到一个集成的管道中; 然后,整个管道可以透明地扩展到大型Hadoop/Spark集群,以进行分布式训练或推理。例如,基于转移学习的图像分类,降水临近预报的序列到序列预测,推荐的神经协同过滤,无监督的时间序列异常检测等。可以面向生产环境设计,支持轻松部署、高性能和高效模式,为深度学习应用程序提供服务。
对于计算机视觉而言,英特尔的OpenVINO加速了从边缘到云的深度学习推理。英特尔OpenVINO™工具包能够用于深度学习部署和计算机视觉的模块,异步和异构计算的优化方法,低精度(INT8)推理,带性能库的指令集加速,并提供了OpenVINO内部的分析工具,通过将英特尔OpenVINO集成到商业和工业应用中能够实现非同一般的视频分析解决方案。
人工智能的相关框架和工具都是为应用而服务的,选择好合适的框架和工具,能够使AI的落地事半功倍。
模型及方法
由于Imagenet的竞争,转移学习在计算机视觉领域已经被证明是一个巨大的成功。自然语言处理领域在转移学习方面也取得了几项突破,即ELMo、Transformer、Ulmfit和Bert。
深度神经网络的成功归功于三个因素:更强的计算能力,更复杂的神经网络和更多的数据。然而,这些因素通常不适用于边缘应用,如自动驾驶,AR/VR,物联网等,应用AutoML、软硬件协同设计和域适应可以解决这些问题。
联合学习是一种跨参与设备组培训ML模型的方法,而不在集中位置收集数据。对比传统的和联合的ML工作流程,Google部署使用了该项技术,探索了当前和未来的去中心化机器学习用例。
图数据上的非监督学习在激活大数据的经济价值上有着广泛和不可替代的作用。PageRank能够发现重要的实体, 社区监测(community detection)可以找到具有某种特性的群体,紧密度中心性算法(Closeness Centrality)可以自动找到远离群体的个体。所有这些算法都是非监督的学习。在大数据上灵活应用这些开源算法,可以在一些具体的案例中展示他们的价值。
模型和方法是人工智能中的重要主题,所有的模型和方法都诞生于一定的应用场景,并应用于特定的应用场景。
知识付费
根据DIKW的金字塔模型,从数据和信息到知识,需要人们的主观能动性,为知识付费也是学习人工智能中不可或缺的方式。如果的知识付费种类很多,参加有关人工智能的技术大会是一种一站式的学习过程,带着问题参会,可以明确更多的学习方向。
2019年6月18日~21日,“AI Conference 2019北京站”大会将在北京国际饭店会议中心盛大举行。2018年的全球四站会议曾引起人工智能领域广泛关注和普遍好评,此次北京站大会也是今年O’REILLY联手INTEL的重磅回归。大会一如既往地将关注重点放在人工智能的实际应用上,宗旨就是为了弥合人工智能研究领域与产业商业应用之间的现实差距。
在这里有详细的案例剖析,最新成果的深入研究,学习如何在自己项目中实现人工智能,获得在人工智能工程和应用中正在出现的最佳实践,揭示人工智能的局限及未被发掘的机遇,并讨论人工智能将会如何改变商业世界的版图:
企业中的人工智能:执行简报,案例研究及用例,行业特定应用等。
人工智能对商业及社会的影响:自动化,安全,规范等。
实施人工智能项目:应用,工具,架构,安全等
与人工智能交互:设计,指标,产品管理,机器人等。
模型及方法:增强及机器学习,TensorFlow,深度学习,GAN,自然语言处理及理解,语音识别,计算机视觉等。