LINE Tutorial

发表于 2018-07-13 更新于 2021-03-22 分类于深度学习

写作动机
引子
问题定义
LINE:大规模信息网络嵌入

写作动机

当前大多数图形嵌入方法不能对包含数百万个节点的真实信息网络进行扩展，分析大型信息网络在学术界和行业中一直受到越来越多的关注。而现在的大多数嵌入方法在小型网络中适用性非常不错，但当网络包含数百万乃至数百亿节点时，就看起来并不那么有效，其时间复杂度至少是节点数的二次方。最重要的是，它们着重于关注节点之间的一阶相似性，及两点之间是否直接相连，而忽略了其二阶相似性(即拥有许多共同的邻节点)。因此LINE模型就是为了在信息网络嵌入至低维空间时保留其一阶相似以及二阶相似。

阅读全文 »

Doc2Vec Tutorial

发表于 2018-07-08 更新于 2021-03-22 分类于深度学习

gensim简单使用
Doc2Vec(PV-DM)
Doc2Vec(PV-DBOW)

gensim简单使用

模型参数说明：

dm=1 PV-DM dm=0 PV-DBOW。
size 所得向量的维度。
window 上下文词语离当前词语的最大距离。
alpha 初始学习率，在训练中会下降到min_alpha。
min_count 词频小于min_count的词会被忽略。
max_vocab_size 最大词汇表size，每一百万词会需要1GB的内存，默认没有限制。
sample 下采样比例。
iter 在整个语料上的迭代次数(epochs)，推荐10到20。
hs=1 hierarchical softmax ，hs=0(default) negative sampling。
dm_mean=0(default) 上下文向量取综合，dm_mean=1 上下文向量取均值。
dbow_words:1训练词向量，0只训练doc向量。

阅读全文 »

卷积神经网络CNN初识

发表于 2018-06-28 更新于 2021-03-22 分类于深度学习

1.引入
2.卷积神经网络的结构
3.卷积神经网络的正式表达
4.理解卷积

译自：Conv Nets: A Modular Perspective， Understanding Convolutions

1.引入

在最近几年间，深度神经网络为模式识别领域的很多难题带来了突破性的进展，比如计算机视觉和语音识别领域。这些突破性进展其实都来源于一种特别的神经网络，我们称之为卷积神经网络。

阅读全文 »

正负样本不平衡的处理方法

发表于 2018-06-21 更新于 2021-03-22 分类于机器学习

1 通过过抽样和欠抽样解决样本不均衡

抽样是解决样本分布不均衡相对简单且常用的方法，包括过抽样和欠抽样两种。

过抽样

过抽样（也叫上采样、over-sampling）方法通过增加分类中少数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法，它构造新的小类样本而不是产生小类中已有的样本的副本，即该算法构造的数据是新样本，原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本，然后选择其中一个样本，并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声，每次处理一个属性。这样就构造了更多的新生数据。具体可以参见原始论文。

阅读全文 »

递归神经网络RNN初识 - LSTM

发表于 2018-06-20 更新于 2021-03-22 分类于深度学习

1.循环神经网络
2.长期依赖的问题
3.LSTM 网络
4.LSTM的变种
5.结论

译自：Understanding LSTM Networks

1.循环神经网络

人类不会每秒钟都从头开始思考。在阅读本文时，你可以根据以前单词的理解来理解每个单词。你不要把所有东西都扔掉，再从头开始思考。你的想法有持久性。在这方面，传统神经网络不能做到这一点，这是一个很大的缺点。例如，想象一下，当你想要分析电影中剧情的发展。传统神经网络是不能够利用电影中以前的事件来推理以后的事情的。而循环神经网络解决了这个问题。它们是具有循环的网络，允许信息影响持续存在。

阅读全文 »