期权记-ETF期权开户导航 期权记是专业的50ETF300ETF期权开户投资交易导航

相似图片搜索的原理(二)

二年前,我写了《相似图片搜索的原理》,介绍了一种最简单的实现方法。 昨天,我在isnowfy的网站看到,还有其他两种方法也很简单,这里做一些笔记。 一、颜色分布法 每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图
作者:期权小韭菜 分类:网络日志 浏览:

TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通
作者:期权小韭菜 分类:网络日志 浏览:

TF-IDF与余弦相似性的应用(一):自动提取关键词

这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息
作者:期权小韭菜 分类:网络日志 浏览:

泊松分布与美国枪击案

去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。 资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。 去年有这么多枪击案,这是巧合,还是表明美国治安恶化了? 前几天,我
作者:期权小韭菜 分类:网络日志 浏览:

高斯模糊的算法

通常,图像处理软件会提供"模糊"(blur)滤镜,使图片产生模糊的效果。 "模糊"的算法有很多种,其中有一种叫做"高斯模糊"(Gaussian Blur)。它将正态分布(又名"高斯分布")用于图像处理。 本文介绍"高斯模糊"的算法,你会看到这是一个
作者:期权小韭菜 分类:网络日志 浏览:

贝叶斯推断及其互联网应用(三):拼写检查

(这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。) 使用谷歌的时候,如果你拼错一个单词,它会提醒你正确的拼法。 比如,你不小心输入了 seperate。 谷歌告诉你,这个词是不存在的,正确的拼法
作者:期权小韭菜 分类:网络日志 浏览:

虚数的意义

有人在Stack Exchange问了一个问题:   "我一直觉得虚数(imaginary number)很难懂。   中学老师说,虚数就是-1的平方根。      可是,什么数的平方等于-1呢?计算器直接显示出错!   直到今天,我也没有搞懂。谁能解释,虚数
作者:期权小韭菜 分类:网络日志 浏览:

基于用户投票的排名算法(六):贝叶斯平均

(这个系列实在拖得太久,今天是最后一篇。) 上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。 举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,
作者:期权小韭菜 分类:网络日志 浏览:

基于用户投票的排名算法(五):威尔逊区间

迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。 但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。 这时,时间因素就不需要考虑了。这个系列的最后两篇,就研究不考虑时间因
作者:期权小韭菜 分类:网络日志 浏览:

基于用户投票的排名算法(四):牛顿冷却定律

这个系列的前三篇,介绍了Hacker News,Reddit和Stack Overflow的排名算法。 今天,讨论一个更一般的数学模型。 这个系列的每篇文章,都是可以分开读的。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企
作者:期权小韭菜 分类:网络日志 浏览: