Weiguo's Station

  • 博客首页

  • 文章归档

  • 分类专栏

  • 各种标签

  • 站点搜索

最长回文子串

发表于 2018-05-10 更新于 2021-03-22 分类于 LeetCode

题目

给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为1000。

示例1:

1
2
3
输入: "babad"
输出: "bab"
注意: "aba"也是一个有效答案。

示例2:

1
2
输入: "cbbd"
输出: "bb"
阅读全文 »

Word2Vec Tutorial

发表于 2018-05-03 更新于 2021-03-22 分类于 深度学习

目录

  • Word2Vec - CBOW
  • Word2Vec - Skip-Gram
  • Word2Vec的Tricks

自己根据网上资料及自己的理解对word2vec源码阅读并加上注释, 放在我的github weizhaozhao/annotated_word2vec上了, 有兴趣的同学可以一起学习一下,其中的很多tricks都可以尝试应用在实际的工业生产环境中。

阅读全文 »

EM算法

发表于 2018-04-28 更新于 2021-03-22 分类于 机器学习

目录

  • 最大似然
  • Jensen不等式
  • 算法推导
  • 算法收敛性
  • 算法举例
  • 代码

最大似然(极大似然)

最大似然估计是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。 最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,当然不会再去选择其他小概率的样本,所以就把这个参数作为估计的真实值。

阅读全文 »

sklearn-GridSearchCV & hyperopt & hyperopt-sklearn 调参

发表于 2018-04-23 更新于 2021-03-22 分类于 机器学习

目录

  • sklearn-GridSearchCV
  • hyperopt
  • hyperopt-sklearn

sklearn-GridSearchCV

常用参数

sklearn.model_selection.GridSearchCV

参数 含义 其他
estimator 所使用的模型 假定这是scikit-learn中模型接口。该模型可以提供score方法或scoring参数
param_grid dict或list 带有参数名称作为键的字典,例如param_grid=param_test, param_test={'n_estimators': range(1, 6)}
scoring 评价标准,默认为None 字符串,或是可调用对象,需要其函数形式如:score(estimator, X, y);如果是None,则使用estimator的误差估计函数
cv 交叉验证参数,默认为None,使用三折交叉验证 整数指定交叉验证折数,也可以是交叉验证生成器
refit 默认为True 在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集
iid 默认为True 默认为各个样本fold概率分布一致,误差估计为所有样本之和,而非各个fold的平均
verbose 默认为0 日志冗长度。0:不输出训练过程;1:偶尔输出;>1:对每个子模型都输出
n_jobs 并行数,int类型 -1:跟CPU核数一致; 1:默认值
pre_dispatch 指定总共分发的并行任务数 当n_jobs大于1时,数据将在每个运行点进行复制,这可能导致OOM,而设置pre_dispatch参数,则可以预先划分总共的job数量,使数据最多被复制pre_dispatch次
阅读全文 »

随机森林 Random Forest

发表于 2018-04-21 更新于 2021-03-22 分类于 机器学习

随即森林 - Random Forest

目录

  • 基本概念
  • 袋外错误率(out of bag error, oob error)
  • 例子
  • 特点及细节

TODO 分布式实现原理 https://www.jianshu.com/p/d90189008864 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/

阅读全文 »

GBDT & XGBoost

发表于 2018-04-12 更新于 2021-03-22 分类于 机器学习

GBDT & XGBoost

目录

  • 符号定义
  • GBDT = GBRT = MART
  • XGBoost
  • 正则化
  • GBDT与XGBoost的比较

1. 符号定义

决策树 \[ f(x; \lbrace R_j, b_j\rbrace ^{J}_1) = \sum_{j=1}^J b_j I(x\in R_j) \] \( \lbrace R_j \rbrace ^{J}_1 \)和\( \lbrace b_j \rbrace ^{J}_1 \)表示决策树的参数,前者为分段空间(disjoint空间),后者为这些空间上的输出值[其他地方称为打分值],\(J\)是叶子结点的数量,下文中用\(f(x)\)省略表示\( f(x; \lbrace R_j, b_j\rbrace ^{J}_1) \)

阅读全文 »

Adaboost & 前向分布算法

发表于 2018-04-10 更新于 2021-03-22 分类于 机器学习

Adaboost & 前向分布算法

目录

  • Adaboost
  • 前向分布算法
  • 前向分布算法推导Adaboost
  • Adaboost特点

1. Adaboost

Adaboost提高那些被前一轮弱学习器错误分类样本的权值,而降低那些被正确分类样本的权值。这样没有正确分类的样本在下一轮学习中将获得更大的关注;之后Adaboost采用加权多数表决的方法,加大错误率低的弱学习器的权值,减小错误率高的弱学习器的权值。

阅读全文 »

使用sklearn大规模机器学习

发表于 2018-04-03 更新于 2021-03-22 分类于 机器学习

[转]使用sklearn大规模机器学习

目录

  • 核外学习(out-of-core learning)
  • 磁盘上数据流式化
  • sklearn 中的 SGD
  • 流式数据中的特征工程
  • 总结

转载自:吴良超的学习笔记


核外学习(out-of-core learning)

核外学习指的是机器的内存无法容纳训练的数据集,但是硬盘可容纳这些数据,这种情况在数据集较大的时候比较常见,一般有两种解决方法:sampling 与 mini-batch learning。

阅读全文 »

Support Vector Machines - Part 4

发表于 2018-03-28 更新于 2021-03-22 分类于 机器学习

支持向量机 - SVM(Support Vector Machines)Part 4

支持向量机 - SVM(Support Vector Machines)Part 1

  • 线性可分支持向量机学习算法 - 最大间隔法
  • 线性可分支持向量机的对偶算法

支持向量机 - SVM(Support Vector Machines)Part 2

阅读全文 »

Support Vector Machines - Part 2

发表于 2018-03-28 更新于 2021-03-22 分类于 机器学习

支持向量机 - SVM(Support Vector Machines)Part 2

支持向量机 - SVM(Support Vector Machines)Part 1

  • 线性可分支持向量机学习算法 - 最大间隔法
  • 线性可分支持向量机的对偶算法

支持向量机 - SVM(Support Vector Machines)Part 2

阅读全文 »
1…6789
WeiguoZHAO

WeiguoZHAO

Welcome to my blog~
87 日志
13 分类
49 标签
GitHub E-Mail
大牛们
  • colah's blog
  • 王喆的Github
  • 刘建平的Github
  • 美团技术团队
© 2021 WeiguoZHAO
0%