最长回文子串

发表于 2018-05-10 更新于 2021-03-22 分类于 LeetCode

题目

给定一个字符串 s，找到 s 中最长的回文子串。你可以假设 s 的最大长度为1000。

示例1：

1
2
3

输入: "babad"
输出: "bab"
注意: "aba"也是一个有效答案。

示例2：

1 2	输入: "cbbd" 输出: "bb"

阅读全文 »

Word2Vec Tutorial

发表于 2018-05-03 更新于 2021-03-22 分类于深度学习

Word2Vec - CBOW
Word2Vec - Skip-Gram
Word2Vec的Tricks

自己根据网上资料及自己的理解对word2vec源码阅读并加上注释，放在我的github weizhaozhao/annotated_word2vec上了, 有兴趣的同学可以一起学习一下，其中的很多tricks都可以尝试应用在实际的工业生产环境中。

阅读全文 »

EM算法

发表于 2018-04-28 更新于 2021-03-22 分类于机器学习

最大似然
Jensen不等式
算法推导
算法收敛性
算法举例
代码

最大似然(极大似然)

最大似然估计是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大，当然不会再去选择其他小概率的样本，所以就把这个参数作为估计的真实值。

阅读全文 »

sklearn-GridSearchCV & hyperopt & hyperopt-sklearn 调参

发表于 2018-04-23 更新于 2021-03-22 分类于机器学习

sklearn-GridSearchCV
hyperopt
hyperopt-sklearn

sklearn-GridSearchCV

常用参数

sklearn.model_selection.GridSearchCV

参数	含义	其他
estimator	所使用的模型	假定这是scikit-learn中模型接口。该模型可以提供score方法或scoring参数
param_grid	dict或list	带有参数名称作为键的字典,例如param_grid=param_test, param_test={'n_estimators': range(1, 6)}
scoring	评价标准，默认为None	字符串，或是可调用对象，需要其函数形式如：score(estimator, X, y)；如果是None，则使用estimator的误差估计函数
cv	交叉验证参数，默认为None，使用三折交叉验证	整数指定交叉验证折数，也可以是交叉验证生成器
refit	默认为True	在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集
iid	默认为True	默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均
verbose	默认为0	日志冗长度。0：不输出训练过程；1：偶尔输出；>1：对每个子模型都输出
n_jobs	并行数，int类型	-1：跟CPU核数一致； 1:默认值
pre_dispatch	指定总共分发的并行任务数	当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

阅读全文 »

随机森林 Random Forest

发表于 2018-04-21 更新于 2021-03-22 分类于机器学习

随即森林 - Random Forest

基本概念
袋外错误率(out of bag error, oob error)
例子
特点及细节

TODO 分布式实现原理 https://www.jianshu.com/p/d90189008864 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/

阅读全文 »

GBDT & XGBoost

发表于 2018-04-12 更新于 2021-03-22 分类于机器学习

GBDT & XGBoost

符号定义
GBDT = GBRT = MART
XGBoost
正则化
GBDT与XGBoost的比较

1. 符号定义

决策树 \[ f(x; \lbrace R_j, b_j\rbrace ^{J}_1) = \sum_{j=1}^J b_j I(x\in R_j) \] \( \lbrace R_j \rbrace ^{J}_1 \)和\( \lbrace b_j \rbrace ^{J}_1 \)表示决策树的参数，前者为分段空间(disjoint空间)，后者为这些空间上的输出值[其他地方称为打分值]，\(J\)是叶子结点的数量，下文中用\(f(x)\)省略表示\( f(x; \lbrace R_j, b_j\rbrace ^{J}_1) \)

阅读全文 »