Doc2Vec Tutorial
目录
- gensim简单使用
- Doc2Vec(PV-DM)
- Doc2Vec(PV-DBOW)
gensim简单使用
模型参数说明:
- dm=1 PV-DM dm=0 PV-DBOW。
- size 所得向量的维度。
- window 上下文词语离当前词语的最大距离。
- alpha 初始学习率,在训练中会下降到min_alpha。
- min_count 词频小于min_count的词会被忽略。
- max_vocab_size 最大词汇表size,每一百万词会需要1GB的内存,默认没有限制。
- sample 下采样比例。
- iter 在整个语料上的迭代次数(epochs),推荐10到20。
- hs=1 hierarchical softmax ,hs=0(default) negative sampling。
- dm_mean=0(default) 上下文向量取综合,dm_mean=1 上下文向量取均值。
- dbow_words:1训练词向量,0只训练doc向量。
卷积神经网络CNN初识
目录
- 1.引入
- 2.卷积神经网络的结构
- 3.卷积神经网络的正式表达
- 4.理解卷积
译自:Conv Nets: A Modular Perspective, Understanding Convolutions
1.引入
在最近几年间,深度神经网络为模式识别领域的很多难题带来了突破性的进展,比如计算机视觉和语音识别领域。这些突破性进展其实都来源于一种特别的神经网络,我们称之为卷积神经网络。
正负样本不平衡的处理方法
1 通过过抽样和欠抽样解决样本不均衡
抽样是解决样本分布不均衡相对简单且常用的方法,包括过抽样和欠抽样两种。
过抽样
过抽样(也叫上采样、over-sampling)方法通过增加分类中少数类样本的数量来实现样本均衡,最直接的方法是简单复制少数类样本形成多条记录,这种方法的缺点是如果样本特征少而可能导致过拟合的问题;经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本,例如SMOTE算法,它构造新的小类样本而不是产生小类中已有的样本的副本,即该算法构造的数据是新样本,原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了更多的新生数据。具体可以参见原始论文。
递归神经网络RNN初识 - LSTM
目录
- 1.循环神经网络
- 2.长期依赖的问题
- 3.LSTM 网络
- 4.LSTM的变种
- 5.结论
译自:Understanding LSTM Networks
1.循环神经网络
人类不会每秒钟都从头开始思考。在阅读本文时,你可以根据以前单词的理解来理解每个单词。你不要把所有东西都扔掉,再从头开始思考。 你的想法有持久性。 在这方面,传统神经网络不能做到这一点,这是一个很大的缺点。 例如,想象一下,当你想要分析电影中剧情的发展。 传统神经网络是不能够利用电影中以前的事件来推理以后的事情的。 而循环神经网络解决了这个问题。 它们是具有循环的网络,允许信息影响持续存在。
SMOTE过采样技术
目录
- 类别不平衡问题
- 类别不平衡引发的问题
- 解决不平衡问题的方法
- SMOTE算法
论文:SMOTE Synthetic Minority Over-sampling Technique
1. 类别不平衡问题
类不平衡 (class-imbalance) 是指在训练分类器中所使用的训练集的类别分布不均。 比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类别不平衡。
反向传播 BP & BPTT
目录
- 反向传播BP
- 随时间反向传播BPTT
1. 反向传播BP
[Calculus on Computational Graphs: Backpropagation,英文原版]、 [详解反向传播算法,中文翻译理解]
解释了为什么从上而下计算梯度。一言以蔽之:从下而上会有重复计算,当参数数量太多,时间耗费太严重;从上而下每个节点只计算一次。