推荐 10 个经典的 NLP 项目!涉及预训练 Bert、知识图谱、智能问答、机器翻译、对话等

自然语言处理技术近几年发展非常快,像BERT、GPT-3、图神经网络、知识图谱等技术被大量应用于项目实践中。
今年大厂的NLP面试中对项目方面的考察深度也随之提升了很多,经常会被面试官揪着细节一步一步让你解释:“为什么这么做?效果如何?你如何调整模型,你思考的逻辑是什么?”
“说说自己在项目中具体负责的模块中用到的技术细节,遇到了什么问题?你使用的模型的损失函数、如何优化、怎么训练模型的、用的什么数据集?优化算法的选择做过哪些?为啥这么做?”

我们罗列了一些常见的大厂NLP项目深度考察问题:

  • BERT模型太大了,而且效果发现不那么好比如next sentence prediction, 怎么办?

  • 文本生成评估指标,BLUE的缺点

  • loss设计 triplet loss和交叉熵loss各自的优缺点,怎么选择

  • attention机制

  • ernie模型

  • 介绍一下flat及对于嵌套式语料的融合方式
  • 为什么使用lightGBM,比起xgboost的优点是什么

  • 样本不均衡问题的解决办法有哪些?具体项目中怎么做的?

  • 长文本的处理

  • 引入词向量的相似性对于结果有什么不好的影响

  • 如何引入知识图谱

  • 词向量中很稀疏和出现未登录词,如何处理

  • kmeans的k怎么选择

  • 新词发现怎么做

  • 模型选取、数据增强

  • 从数据标注的制定标准,到选取模型,再到改进模型、错误分析

  • NER数据中没有实体标注的句子过多解决方式

  • 同一句话两个一样字符串如何消岐

  • 模型好坏的评估,如何衡量模型的性能

  • 方面级情感分析的模型结构

  • 模型学习中,正负样本的训练方式不同有什么影响

  • 减轻特征工程的手段

你如果是一位面试候选人,上述问题你会“倒”在哪一关?

“实践出真知”,只有动手实践具体的项目,以解决问题为导向,在项目中理解技术本身,才能得到更深层次的理解。

你也许会在网络中找到很多资源和论文、但我们面临的问题并不是缺资源,而是找准资源并高效学习。很多时候你会发现,花费大量的时间在零零散散的内容上,但最后发现效率极低,浪费了很多宝贵的时间。

为了给初学者创造项目实践的需求,我们向你推荐业界口碑俱佳的“NLP工程师培养计划”的《自然语言处理项目集训营》第22期

实践项目介绍

本课程以实⽤为原则,通过10个产业级应用项目,知识覆盖了预训练、词法分析、信息抽取等基础知识,情感分析、知识图谱与智能问答、机器翻译、对话、文本自动生成等NLP应⽤技术和系统,掌握产业实践中的模型部署等。

本课程将带你全面掌握自然语言处理技术,以期更好地帮助各位同学学以致用。通过完成一系列项目课题任务,也有可能成为一个创业项目或者帮助你完成一次重要的技术转型。

项目学习目标:

以语种识别为任务,掌握NLP模型搭建的标准化流程与常用方法,结合机器学习模型完成对文本数据的识别与搭建任务,常应用于机器翻译,智能对话等场景中

项目学习重点:

Part1:特征工程
  • l  数据清洗、分词、数据降噪

Part2:文本向量化
  • l  机器学习:TF-IDF/CounterVector

  • l  深度学习:Word2vec、Word Embedding、ELMo

Part3:语种识别器建模
  • l  机器学习:朴素贝叶斯/SVM

  • l  深度学习:TextCNN/TextRNN

Part4:语种识别器部署:使用Flask部署应用

项目学习目标:

使用机器学习和深度学习的多种模型实现文本分类;文本分类被广泛应用于新闻分类、文本审核、电商评论分析、舆情监控以及智能客服等场景中。

项目学习重点:

Part1:NLP机器学习模型
  • l  Jieba中文分词处理

  • l  词频统计Wordcloud构建词云

  • l  TF-IDF/TextRank关键词提取

  • l  LDA主题模型建模

  • l  中文分类机器学习模型

  • BOW/N-gram/TF-IDF/Word2vec文本表示

  • Word Embedding/ELMo文本表示

  • NB/LR/SVM等机器学习分类模型

Part2:海量数据的中文分类方法:
  • l  Spark:使用pyspark解决分类问题

Part3:NLP的深度学习模型方法:
  • l  TextRNN、TextCNN、FastText

  • l  TextBiRNN、TextRCNN、TextAttBiLSTM

  • l  深度学习文本分类HAN实战

  • l  Tensorflow深度学习文本分类模型部署

可求职岗位:

NLP算法工程师、文本挖掘工程师

《自然语言处理项目集训营》第22期

 ☑ 智能客服  ☑ 知识图谱  ☑ 文本生成

 ☑ 文本分类  ☑ 情感分析  ☑ 金融法律

10大项目,助你成长为优秀的NLP工程师

对课程感兴趣的同学
请扫描二维码咨询
👇👇👇

项目学习目标:

学习NLP在用户情感分析应用中的解决方案,具体掌握:文本读取与清洗、关键词抽取(TF-IDF、TextRank)、中文分词、文本表示(Word2vec、Word Embedding、ELMo)、机器学习建模(LR、SVM、朴素贝叶斯、Fast Text)、深度学习建模(TextCNN、TextRNN、Aattention Model)

情感分析常应用于电商数据分析、市场分析、选举预测、消费分析以及可视化分析等领域

项目学习重点:

Part1:中文文本分类
  • l  自定义ELMo网络结构完成分类

Part2:中文情感分析
  • l  Bert模型训练

  • l  Tensorflow serveringinxing部署

Part3:法律场景下的NLP解决方案
  • l  TextCNN、Tide&textCNN以及Textdensenet模型融合

  • l  Fast Text、TextCNN、TextRCNN、TextRNN模型融合

  • l  采用机器学习stacking方式:

  • 构造TF-IDF Stacking及统计特征

  • 训练Doc2Vec模型

  • 构造Doc2Vec-DBOW stacking特征、Doc2Vec-DM stacking特征

  • 训练Word2vec模型、构造Word2vec特征

  • 使用XGBoost结合特征进行交叉验证

可求职岗位:

文本挖掘工程师、 NLP算法工程师

项目学习目标:

以不同场景的文本生成(诗词小说文本生成、对联生成、摘要生成等)为例,学习文本读取与清洗、语言模型、seq2seq模型、注意力机制、自注意力机制与Transformer在文本生成中的作用。

文本自动生成应用在自动撰写新闻稿件、金融财报、营销方案等场景。

项目学习重点:

Part1:诗歌生成

  • l  使用Tensorflow框架,自定义LSTM网络结构

Part2:seq2seq构建写对联AI
  • l  谷歌开源、自定义seq2seq模型

  • l  双向RNN, Attention注意力机制的解码器

可求职岗位:

文本挖掘工程师、NLP算法工程师

项目学习目标:

以搜索引擎下的用户数据为主要研究对象,通过用户检索query分析挖掘构建用户画像模型,掌握文本读取与清洗、关键词抽取、主题模型、用户属性模型构建与识别

项目学习重点:

  • l  查看并清洗掉无关数据

  • l  理解数据与任务之间的联系

  • l  选择合适的机器学习算法进行建模

  • l  定义baseline模型、深度学习模型训练

  • l  添加人工特征进行最终优化

  • l  复盘整个项目

可求职岗位:

用户画像工程师、NLP算法工程师

项目学习目标:

以对话机器人为主要场景,介绍对话机器人构建的核心算法依赖环节,实现生成式与检索式对话机器人,掌握文本语义相似度学习(TF-IDF检索、Siamese CNN、Siamese LSTM、DSSM、CDSSM、DSSM-LSTM)

项目学习重点:

Part1:智能问答系统构建

  • l  Jieba分词

  • l  Mysql数据库存储

  • l  TF-IDF检索模型

  • l  使用Doc2Vec模型进行问题匹配

Part2:深度学习文本匹配模型
  • l  深度语义匹配模型:DSSM、CDSSM、MV-DSSM

  • l  单语义文档表达的深度学习模型ARC-I

  • l  多语义文档表达的深度学习模型MV-LSTM

  • l  交互的文本相似度模型k-nrm

Part3:百度开源问答系统AnyQ
l  FAQ集合的问答系统框架
l  文本语义匹配工具SimNet

可求职岗位:

语音机器人算法工程师、语音助手开发工程师、NLP算法工程师

《自然语言处理项目集训营》第22期

 ☑ 智能客服  ☑ 知识图谱  ☑ 文本生成

 ☑ 文本分类  ☑ 情感分析  ☑ 金融法律

10大项目,助你成长为优秀的NLP工程师

对课程感兴趣的同学
请扫描二维码咨询
👇👇👇

项目学习目标:

深度学习领域中端到端方式构建并改进的一系列NLP新模型应用,如Transformer、Bert、ELECTRA等模型结合各大比赛案例进行讲解如何应用这些模型解决典型的分类任务、句对建模任务、知识抽取任务等。具体落地应用场景一般有海量文本去重、推荐系统等。

项目学习重点:

Part1:经典深度学习NLP建模

  • l  句子相似度判定Siamese Network

  • l  从神经语言模型到预训练语言模型发展史

Part2:新兴NLP模型
  • l  基于Transformer的文本分类

  • l  Bert及其变种在情感分析中的应用

  • l  新型模型ELECTRA及知识抽取案例讲解

可求职岗位:

深度学习算法工程师、NLP算法工程师

项目学习目标:

以NLP中最重要的语义匹配建模为学习任务,结合通用场景、金融领域场景、医疗领域场景,讲解深度学习的各种模型在文本语义匹配建模任务中的解决方案。并结合场景数据讲解在金融与医疗的垂直NLP应用领域(如智能客服)中对应的模型应用方法。

项目学习重点:

  • l  文本匹配问题

  • l  问答、对话与信息检索NLP核心技术

  • l  文本语义匹配场景:金融问答、闲聊、客服、问诊等

  • l  fancy-nlp、bert4keras工具库

  • l  语义相似度建模场景数据格式介绍

  • l  孪生网络结构分析与网络搭建

  • l  孪生网络相似度建模解决方案

    • 预处理、数据预处理与分析、数据增强

    • Word2vec、Word-embedding构建

    • 语义抽取子网络搭建

    • 孪生双塔结构搭建、不同损失函数构建

    • 模型训练与优化、语义相似度度量与预估

  • l  BERT句对建模网络搭建与解决方案

  • l  平安医疗、支付宝/微信的金融语义匹配建模

    • 预处理、数据预处理与分析、数据增强

    • NLP特征与业务文本特征

    • SiameseCNN、SiameseRNN模型搭建

    • Albert、SiameseBert句对建模方案与应用

可求职岗位:

NLP算法工程师、智能问答研发工程师、文本挖掘工程师

项目学习目标:

针对非结构化数据的掌握知识图谱中的实体和关系的抽取,neo4j图数据库的使用。知识图谱广泛应用于搜索引擎、问答系统、推荐系统、司法辅助、教育医疗、社交类业务等场景中。

项目学习重点:

Part1:NER命名实体识别
  • l  基于规则、特征模板、神经网络的NER方法

  • l  基于字的BiLSTM-CRF模型

Part2:关系抽取
  • l  TextCNN

  • l  PCNN抽取

    • 结合Multi-Instance Learning

    • 结合Sentence-Level Attention

  • l  TextCNN+Position Enbedding

Part3:知识图谱在电商和医疗领域的应用
  • l  深度学习端到端的NER及关系抽取

  • l  BiLSTM+CRF,Tree-LSTM

  • l  基于N-gram的匹配

  • l  Mysql进行标注,neo4j进行全量查询,

  • l  Odps做持久化数据版本管理

面向岗位:

知识图谱工程师、 智能问答工程师、NLP算法工程师

项目学习目标:

本项目学习知识图谱构建与应用全过程,包括数据采集、知识存储、知识抽取、知识计算、知识应用,还基于知识图谱构建了交互问答系统。整个过程使用到了多种NLP技术,从文本数据抽取与清洗、命名实体识别到用户意图识别,到实体关系抽取的系列模型,到问答与匹配技术,以及neo4j工具的使用和图挖掘的一些算法。

项目学习重点:

  • l  项目背景与项目内容

  • l  数据采集与信息抽取

  • l  实体提取、实体关系抽取

  • l  neo4j工具与图数据库进行图计算

  • l  基于RDF三元组数据库Apache Jena进行知识存储

  • l  Cypher语法与查询语句知识

  • l  数值、类别、时序特征构建与特征选择

  • l  图挖掘与图谱知识挖掘

  • l  Pyhanlp进行分词与实体识别

  • l  Feedforward-network意图识别

  • l  TextCNN/TextRNN/TextRCNN意图识别

  • l  使用字典形式进行槽填充(slot filling)

  • l  网络分析与路径查询

  • l  图计算与社区发现

  • l  知识图谱交互与可视化

  • l  实体与关系查询功能页面实现

  • l  基于图谱的问答系统实现

面向岗位:

知识图谱工程师、 智能问答工程师、NLP算法工程师

《自然语言处理项目集训营》第22期

 ☑ 智能客服  ☑ 知识图谱  ☑ 文本生成

 ☑ 文本分类  ☑ 情感分析  ☑ 金融法律

10大项目,助你成长为优秀的NLP工程师

对课程感兴趣的同学
请扫描二维码咨询
👇👇👇

业界独创的服务模式

  • 尊享8对1的VIP服务
    每一位学员都会配置独享服务群,配置8位专属服务老师全程陪伴
    包括:
    • 2位工业专家讲师、1位全职助教、1位工业助教、
    • 2位就业指导老师、1位督学班主任、1位课程顾问
  • 全天答疑保证有问必答,作业1对1批改,考试1对1批改

  • 免费提供GPU&CPU云平台(GPU有额度免费时长)

  • 作业和练习
    课程每个重要的知识点后都配置了对应的作业和练习,作业会得到助教的1V1批改反馈

  • 阶段考试
    每个学习阶段安排了考试,通过考核才能进入下一个阶段,对阶段性学习效果达成自检
  • 课程直播和录播相结合,学员可以灵活安排学习计划和进度

学员收获的offer

自本课程开设以来,已经有一大批毕业学员入职NLP领域的互联网公司、金融行业、科研院所、创业公司,甚至越来越的的传统行业也开始注重AI技术的应用如何在本行业中创造新的价值。下面是一部分学员的offer情况:

……左右滑动,观看更多……

《自然语言处理项目集训营》第22期

 ☑ 智能客服  ☑ 知识图谱  ☑ 文本生成

 ☑ 文本分类  ☑ 情感分析  ☑ 金融法律

10大项目,助你成长为优秀的NLP工程师

对课程感兴趣的同学
请扫描二维码咨询
👇👇👇

适合什么样的人

  • 机器学习或深度学习领域自学一段时间,停留在使用模型/工具上,有一定的算法理论基础,但非常缺乏NLP项目经验 

  • 有一定的编程经验,想通过技术转型进入NLP算法领域求职的,缺乏系统性学习

  • 非CS专业出身的本科或硕士生,希望获得算法岗实习或校招岗位的,缺乏计算机编程经验和算法理论知识学习

科学的课程进度

为满足不同基础的学员可以循序渐进的系统化学习,本课程可以根据学员自身的知识储备条件,选择从哪个阶段开始学习。完整的课程安排可以满足没有编程经验和算法基础的学员通过5-6个月的高强度学习入门NLP技术。

阶段一

Week1 |Python编程基础

Week2-3 |Python数据分析

Week4 | 人工智能的数统概基础

阶段二

Week5-6 | 大数据技术

Week7-9|机器学习与深度学习的算法基础与应用

阶段三

Week10-12|自然语言处理的算法基础

阶段四

Week13|项目1——语种识别器

Week13|项目2—新闻文本挖掘和分类(ML/DL)

Week14|项目3—ELMo、BERT情感分析与法律NLP应用

Week15|项目4—文本自动生成

Week16|项目5—搜索引擎用户画像项目

阶段五

Week17|项目6—智能客服与聊天机器人

Week18|项目7—最新深度学习NLP模型案例应用

Week19|项目8—金融与医疗场景的语义匹配建模应用项目

Week20|项目9—知识图谱的实体与关系抽取

Week21|项目10—知识图谱构建与知识挖掘及问答系统

阶段六

就业推荐与面试辅导

(0)

相关推荐

  • 【Github】NLPer-Interview: NLP 算法工程师相关的面试题

    周末推荐一下老宋同学整理的Github项目:songyingxin/NLPer-Interview ,该仓库主要记录 NLP 算法工程师相关的面试题: https://github.com/songy ...

  • 【信息抽取】NLP中关系抽取的概念,发展及其展望

    事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...

  • ACL 2019论文| 揭秘认知图谱!从多跳阅读理解问答开始

    "机器的阅读理解与问答"一直以来被认为是"自然语言理解(NLU)"的核心问题之一,随着BERT等模型的兴起,单段落的简单阅读理解任务取得了重大突破:研究者将目光 ...

  • 金融知识图谱的构建与应用

    编辑整理:朱瑞杰 出品平台:DataFunTalk.AI启蒙者 导读:金融机构在过去积累了大量的数据,包括结构化数据和非结构化数据.如何利用这些数据来构建金融知识图谱,并将构造好的知识图谱应用到具体的 ...

  • 面试题:文本摘要中的NLP技术

    解析: 人类很难手动汇总大型文本文档.文本摘要是NLP为源文档创建简短.准确和流畅的摘要问题. 随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长. 通过首先计算 ...

  • 知识图谱的系统工程观

    知识图谱的系统工程观

  • 常识性概念图谱建设以及在美团场景中的应用

    常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱.本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介 ...

  • 为什么数据分析师需要懂点算法?

    正文开始 通过和一些朋友交流,发现目前一些数据分析师,其实不是很清楚机器学习可以如何应用于业务,也不清楚自己到底要不要去学习算法知识.实际业务中一些复杂算法场景例如商品推荐.内容推荐.匹配策略等,其实 ...

  • NLP任务增强:通过引入外部知识来提供额外信息

    NewBeeNLP 永远有料,永远有趣 186篇原创内容 公众号 0.前言 NLP任务中,常见的做法是根据「当前输入」进行建模,进而设计出我们的模型,通常用到的信息只有「当前局部的信息」. 这和人类最 ...

  • ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

    来自:朴素人工智能 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

  • ACL 2021 | 丁香园知识增强预训练模型

    背景 使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量.其中,引入外部知识无疑是最热门的话题之一.丁香园NLP联合华师大何晓丰老师团队,在今年的ACL ...

  • 小米在知识表示学习的探索与实践

    编辑整理:孟航程 出品平台:DataFunTalk 导读:知识表示是知识获取与应用的基础,贯穿了小米知识图谱的构建与应用.本文将结合小米知识图谱的构建及小爱问答场景,介绍融合文本和知识图谱的知识表示学 ...

  • 关于NLP相关技术全部在这里:预训练模型、信息抽取、文本生成、知识图谱、对话系统

    我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习.其次,即便网络上的资源非常多,学习是需要成本的,而且越有深度的内容越难找到好的学 ...