Word2Vec Tutorial
目录
- Word2Vec - CBOW
- Word2Vec - Skip-Gram
- Word2Vec的Tricks
自己根据网上资料及自己的理解对word2vec源码阅读并加上注释, 放在我的github weizhaozhao/annotated_word2vec上了, 有兴趣的同学可以一起学习一下,其中的很多tricks都可以尝试应用在实际的工业生产环境中。
sklearn-GridSearchCV & hyperopt & hyperopt-sklearn 调参
目录
- sklearn-GridSearchCV
- hyperopt
- hyperopt-sklearn
sklearn-GridSearchCV
常用参数
sklearn.model_selection.GridSearchCV
参数 | 含义 | 其他 |
---|---|---|
estimator | 所使用的模型 | 假定这是scikit-learn中模型接口。该模型可以提供score方法或scoring参数 |
param_grid | dict或list | 带有参数名称作为键的字典,例如param_grid=param_test, param_test={'n_estimators': range(1, 6)} |
scoring | 评价标准,默认为None | 字符串,或是可调用对象,需要其函数形式如:score(estimator, X, y);如果是None,则使用estimator的误差估计函数 |
cv | 交叉验证参数,默认为None,使用三折交叉验证 | 整数指定交叉验证折数,也可以是交叉验证生成器 |
refit | 默认为True | 在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集 |
iid | 默认为True | 默认为各个样本fold概率分布一致,误差估计为所有样本之和,而非各个fold的平均 |
verbose | 默认为0 | 日志冗长度。0:不输出训练过程;1:偶尔输出;>1:对每个子模型都输出 |
n_jobs | 并行数,int类型 | -1:跟CPU核数一致; 1:默认值 |
pre_dispatch | 指定总共分发的并行任务数 | 当n_jobs大于1时,数据将在每个运行点进行复制,这可能导致OOM,而设置pre_dispatch参数,则可以预先划分总共的job数量,使数据最多被复制pre_dispatch次 |
随机森林 Random Forest
随即森林 - Random Forest
目录
- 基本概念
- 袋外错误率(out of bag error, oob error)
- 例子
- 特点及细节
TODO 分布式实现原理 https://www.jianshu.com/p/d90189008864 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/
GBDT & XGBoost
GBDT & XGBoost
目录
- 符号定义
- GBDT = GBRT = MART
- XGBoost
- 正则化
- GBDT与XGBoost的比较
1. 符号定义
决策树 \[ f(x; \lbrace R_j, b_j\rbrace ^{J}_1) = \sum_{j=1}^J b_j I(x\in R_j) \] \( \lbrace R_j \rbrace ^{J}_1 \)和\( \lbrace b_j \rbrace ^{J}_1 \)表示决策树的参数,前者为分段空间(disjoint空间),后者为这些空间上的输出值[其他地方称为打分值],\(J\)是叶子结点的数量,下文中用\(f(x)\)省略表示\( f(x; \lbrace R_j, b_j\rbrace ^{J}_1) \)
Adaboost & 前向分布算法
Support Vector Machines - Part 4
支持向量机 - SVM(Support Vector Machines)Part 4
支持向量机 - SVM(Support Vector Machines)Part 1
- 线性可分支持向量机学习算法 - 最大间隔法
- 线性可分支持向量机的对偶算法
Support Vector Machines - Part 2
支持向量机 - SVM(Support Vector Machines)Part 2
支持向量机 - SVM(Support Vector Machines)Part 1
- 线性可分支持向量机学习算法 - 最大间隔法
- 线性可分支持向量机的对偶算法