杨敏:深耕自然语言处理架起与机器沟通的桥梁
在CCF-A类学术会议和JCR一区期刊上发表高水平学术论文80余篇,获得中国人工智能学会2018年度最佳青年科技成果奖、2019年度CCF-腾讯犀牛鸟基金优秀专利奖,是中国科学院青年创新促进会成员……拥有这份亮丽简历的是来自天府之国的“90后”杨敏,抱着对自然语言处理技术的极大热情,她在香港大学攻读计算机科学专业博士之后,进入中国科学院深圳先进技术研究院数字所开启了她的科研之路,目前是副研究员兼博士生导师。
为什么选择深耕人工智能?杨敏表示兴趣与热爱是最大驱动力,“数据挖掘研究令人非常着迷,从大数据中常常能分析出有用和令人兴奋的信息。”同时,杨敏也十分看好人工智能技术的发展前景,她认为随着人类对先进便捷生活的不断追求,人工智能必将在当中扮演重要角色。
让机器听懂人话?从模拟人类行为开始
近年来,随着智能技术的普及,机器人逐渐在各个领域代替人工成为客服的主力军。然而,人们在“人机对话”中常常会遇到程序繁琐、答非所问的情况。如何让智能客服更好地理解人类的真实需求?如何更快、更精准地反馈问题的答案?这些都是自然语言处理技术亟待解决的问题。
“要让智能问答和人类问答达到相同程度,实际上是非常困难的。”杨敏说,“目前我们还处于弱人工智能时代,需要攻克认知智能,才能让机器真正地理解问题、进行推理和解决问题,目前看来还有一定距离。”
为了让机器读懂人类的语言,杨敏团队尝试根据人类行为设计深度神经网络模型。“比如人类在做一篇文章的阅读理解时,通常会先粗略浏览整个文章的大致内容,第二遍再带着问题精读寻找答案,第三遍确保答案正确。” 杨敏团队从人类阅读认知角度出发,模拟人类阅读认知过程中预读、精读、后读三个阶段,提出基于先验知识的交互感知模型、目标感知的语义蒸馏模型、基于强化学习的语义反馈模型等,以更贴近人类阅读认知的方式解决自然语言理解问题。
光有大数据不够!知识图谱给机器“补课”
当然,人工智能也有“过人之处”,强大的算力与大量的数据让机器能够快速获得学习的资源,但只有大数据还远远不能达到人类的水平。
“尽管通过大数据的挖掘分析能够得到很多有用的信息,但只有数据驱动是不够的,人类之所以能够快速做出决策,是因为拥有丰富的经验常识和背景知识。”杨敏表示,她们团队尝试用数据驱动和知识驱动相结合的方式,通过建立完善的知识图谱,补齐人工智能背景知识的“短板”。
此外,模型压缩也是杨敏团队主攻的技术方向。当对模型训练的强度越来越大,数据量越来越多,精度越来越高时,消耗也会越来越大。特别是在线上运行时,由于模型过于复杂,反馈结果的时间会从毫秒级拖延成秒级,导致用户体验效果不佳。
“通过模型压缩能够在不影响运算精度的情况下,让参数变少,效率提高,节省训练时间的同时,降低对数据的要求,提升用户体验。”据杨敏介绍,团队目前正与腾讯、神州泰岳等企业合作进行模型压缩的攻关研究,主要应用于自然语言理解和推荐系统任务。
得理法律平台
在应用落地方面,杨敏团队还与深圳市得理科技有限公司成立了“法律人工智能联合实验室”,将自然语言处理和推荐系统的核心算法应用到司法领域,开发案件判决预测、类案智能搜索、法律智能问答等系统。
为科技之城贡献力量
在杨敏加入深圳先进院之前,她曾在科技企业有过短暂的工作经历,她感到科研机构与企业最大的不同之处在于,在科研机构能够有机会深入研究一些“有难度又有研究价值的课题”,尽管短时间未必能很快看到结果,但能够投入更多时间和精力专注攻克,希望能取得突破性的进展。
不仅如此,深圳先进院对于产学研融合的大力支持,也让杨敏感到“能够真正将基础研究写在祖国大地上”,既能打破技术壁垒,又能快速找到产业界合作的落脚点,快速验证自己的算法是否实用。
来深3年,深圳带给川妹子杨敏最大的感受是“科技之城”,“科研技术公司非常多,对于我们寻找产业合作伙伴和学生寻找实习工作都非常有利。同时,深圳出台了非常多吸引高端人才的政策,使得深圳汇聚了全世界顶尖的人才,人才又反哺深圳,为深圳的发展作贡献,形成良性循环,对于我们年轻人而言,充满吸引力。”(刁雯蕙)