Good Project To Learn

置顶 | 发表于 2038-10-10 更新于 2021-03-22 分类于 TODO

看透论文的整个流程

TO Learn

MacOS支持写NTFS格式硬盘

发表于 2021-03-23 分类于小工具

MacOS 从雪豹开始已经支持写 NTFS 格式硬盘，但是系统默认挂载是只读的，可通过手动 mount 打开写入支持：

接入移动硬盘，待自动挂载完成后，在 terminal 中输入命令 mount，可看到类似如下结果：

mount
/dev/disk1s1 on / (apfs, local, journaled)
devfs on /dev (devfs, local, nobrowse)
/dev/disk1s4 on /private/var/vm (apfs, local, noexec, journaled, noatime, nobrowse)
map -hosts on /net (autofs, nosuid, automounted, nobrowse)
map auto_home on /home (autofs, automounted, nobrowse)
/dev/disk2s1 on /Volumes/Elements (ntfs, local, nodev, nosuid, read-only, noowners)

阅读全文 »

关于推荐中重排序的思考

发表于 2020-12-18 更新于 2021-03-22 分类于推荐系统

整理自个人工作经历和相关博客、论文。

1. 重排的问题定义

工业推荐系统中重排的主要任务和其中存在的四个主要挑战，分别为上下文感知、排列特异性、复杂度和业务要求，分析这四个特性和达到序列收益最优的关系。通过融入更多的信息，来修正并且得到每个商品更加准确的预估分数，并且采用基于贪婪的策略来进行排序，以期用户能够尽早地与他更感兴趣的商品进行交互。然而，现有的基于贪婪的策略的重排方法忽略了最终推荐列表之间的上下文关系，因此不能保证其达到序列最优。

阅读全文 »

gauc&timeauc

发表于 2020-11-27 更新于 2021-03-22 分类于基础知识

1. AUC

AUC是评估模型对pair数据，将正样本的预测分数大于负样本的预测分数的能力；

计算方式，scala写的：

// 预测值 + 标签
case class LabeledPred(predict: Double, label: Int)

def auc(points: Seq[LabeledPred]) = {
    val posNum = points.count(_.label > 0)
    val negNum = points.length - posNum

    if (posNum == 0 || negNum == 0) {
      println("Error: Lables of all samples are the same.")
      0.0
    } else {
      val sorted = points.sortBy(_.predict)

      var negSum = 0
      // pos greater than neg
      var posGTNeg = 0
      for (p <- sorted) {
        if (p.label > 0) {
          posGTNeg = posGTNeg + negSum
        } else {
          negSum = negSum + 1
        }
      }

      posGTNeg.toDouble/(posNum * negNum).toDouble
    }
}

阅读全文 »

Transformer学习

发表于 2020-09-18 更新于 2021-03-22 分类于机器学习

视频教程： Transformer-李宏毅老师

转自： 10分钟带你深入理解Transformer原理及实现

0. 模型架构

model structure

今天的示例任务为中译英: 中文输入为 我爱你，通过 Transformer 翻译为 I Love You。

Transformer 中对应的超参数包括：

阅读全文 »

LearnToRank的由来和分类

发表于 2020-09-18 更新于 2021-03-22 分类于算法常识

学习排序 Learning to Rank：从 pointwise 和 pairwise 到 listwise，经典模型与优缺点推荐系统中的排序学习

Ranking 是信息检索领域的基本问题，也是搜索引擎背后的重要组成模块。本文将对结合机器学习的 ranking 技术 — Learning2Rank 做个系统整理，包括 pointwise、pairwise、listwise 三大类型，它们的经典模型，解决了什么问题，仍存在什么缺陷。本文主要参考刘铁岩老师的《Learning to Rank for Information Retrieval》和李航老师的《Learning to rank for information retrieval and natural language processing》。

阅读全文 »

交叉熵损失函数区别及应用场景

发表于 2020-09-18 更新于 2021-03-22 分类于损失函数

对于机器学习中常用的损失函数 tf.nn.sigmoid_cross_entropy_with_logits (Binary Cross Entropy, BCE) 和 tf.nn.softmax_cross_entropy_with_logits_v2(Cross Entropy, CE)，想必有过时间的同学都已经能都熟练描述出他们的运行原理。但是在什么场景，用哪个损失函数呢？在不同的场景，这两个交叉熵损失又有哪些区别和联系呢？

阅读全文 »

肯德尔Rank相关系数(Kendall rank correlation coefficient)

发表于 2020-05-21 更新于 2021-03-22 分类于基础知识

肯德尔Rank相关系数(Kendall rank correlation coefficient)，又叫 Kendall's tau 是数学统计中一个常用的系数，用来描述两个序列的相关系数。如果两个序列完全一致，则 Kendall's tau 值为1，两个毫不相关的序列的 Kendall's tau 值为0，而两个互逆的序列的 Kendall's tau 系数为-1。

阅读全文 »

SSH远程执行任务

发表于 2020-05-18 更新于 2021-03-22 分类于小工具

转自: SSH远程执行任务

SSH 是 Linux 下进行远程连接的基本工具，但是如果仅仅用它来登录那可是太浪费啦！ SSH 命令可是完成远程操作的神器啊，借助它我们可以把很多的远程操作自动化掉！下面就对 SSH 的远程操作功能进行一个小小的总结。

1. 远程执行命令

阅读全文 »

Python终端调试

发表于 2020-05-17 更新于 2021-03-22 分类于小工具

运行 python -m pdb test.py，会自动停在第一行，等待调试，这时你可以看看帮助

(Pdb) h

同时可以在所需要调试的程序开头中 import pdb，并在需要调试的代码处加入断点 pdb.set_trace()

1. 关键命令

1.1 断点设置

(Pdb)b 10 #断点设置在本py的第10行
或(Pdb)b ots.py:20 #断点设置到 ots.py第20行
删除断点（Pdb）b #查看断点编号
(Pdb)cl 2 #删除第2个断点

阅读全文 »