彩世界平台-彩世界时时app-彩世界开奖app苹果下载

热门关键词: 彩世界平台,彩世界时时app,彩世界开奖app苹果下载

您的位置:彩世界平台 > 彩世界平台 > TensorFlow深度学习笔记 文本与序列的深度模型

TensorFlow深度学习笔记 文本与序列的深度模型

发布时间:2019-09-06 01:47编辑:彩世界平台浏览(166)

    转载请注明作者:梦里风林Github工程地址:

    Deep Models for Text and Sequence

     

    与其他机器学习不同,在文本分析里,陌生的东西(rare event)往往是最重要的,而最常见的东西往往是最不重要的。

    Rare Event

    与其他机器学习不同,在文本分析里,陌生的东西(rare event)往往是最重要的,而最常见的东西往往是最不重要的。

    • 一个东西可能有多个名字,对这种related文本能够做参数共享是最好的
    • 需要识别单词,还要识别其关系,就需要过量label数据

    语法多义性

    一个东西可能有多个名字,对这种related文本能够做参数共享是最好的需要识别单词,还要识别其关系,就需要过量label数据

    无监督学习

    不用label进行训练,训练文本是非常多的,关键是要找到训练的内容遵循这样一个思想:相似的词汇出现在相似的场景中不需要知道一个词真实的含义,词的含义由它所处的历史环境决定

    • 不用label进行训练,训练文本是非常多的,关键是要找到训练的内容
    • 遵循这样一个思想:相似的词汇出现在相似的场景中
    • 不需要知道一个词真实的含义,词的含义由它所处的历史环境决定

    Embeddings

    将单词映射到一个向量(Word2Vec),越相似的单词的向量会越接近新的词可以由语境得到共享参数

    Word2Vec

    图片 1

    将每个词映射到一个Vector列表(就是一个Embeddings)里,一开始随机,用这个Embedding进行预测 Context即Vector列表里的邻居目标是让Window里相近的词放在相邻的位置,即预测一个词的邻居用来预测这些相邻位置单词的模型只是一个Logistics Regression, just a simple Linear model

    • 将单词映射到一个向量,越相似的单词的向量会越接近
    • 新的词可以由语境得到共享参数

    Comparing embeddings

    比较两个vector之间的夹角大小来判断接近程度,用cos值而非L2计算,因为vector的长度和分类是不相关的:

    图片 2

    最好将要计算的vectZ喎�"" target="_blank" class="keylink">vcra8uenSu7uvDQo8aDMgaWQ9"predict-words">Predict Words

    图片 3

    单词经过embedding变成一个vector 然后输入一个WX+b,做一个线性模型输出的label概率为输入文本中的词汇问题在于WX+b输出时,label太多了,计算这种softmax很低效解决方法是,筛掉不可能是目标的label,只计算某个label在某个局部的概率,sample softmax

    图片 4

    t-SNE

    查看某个词在embedding里的最近邻居可以看到单词间的语义接近关系将vector构成的空间降维,可以更高效地查找最近单词,但降维过程中要保持邻居关系(原来接近的降维后还要接近) t-SNE就是这样一种有效的方法

    • 将每个词映射到一个Vector列表(就是一个Embeddings)里,一开始随机,用这个Embedding进行预测
    • Context即Vector列表里的邻居
    • 目标是让Window里相近的词放在相邻的位置,即预测一个词的邻居
    • 用来预测这些相邻位置单词的模型只是一个Logistics Regression, just a simple Linear model

    类比

    实际上我们能得到的不仅是单词的邻接关系,由于将单词向量化,可以对单词进行计算可以通过计算进行语义加减,语法加减

    图片 5

    图片 6

    本文由彩世界平台发布于彩世界平台,转载请注明出处:TensorFlow深度学习笔记 文本与序列的深度模型

    关键词:

上一篇:深度学习的应用总结(翻译)

下一篇:没有了