算法原理
不拐弯抹角,直接算法思路:
1、缩小尺寸,如缩小到8x8,总64个像素。这一步的作用是去除图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸、比例带来的图片差异;
2、简化色彩,将缩小后的图片,转为64级灰度。也就是说,所有像素点总共只有64种颜色;
3、计算平均值,计算所有64个像素的灰度平均值;
4、比较像素的灰度,将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0;
5、计算哈希值,将上一步的比较结果,组合在一起,就构成了一个64位的整数。
这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序就行了。
得到指纹以后,就可以对比不同的图片,看看64位中有多少位是不一样的。
在理论上,这等同于计算"汉明距离"(Hamming distance)。
如果不相同的数据位不超过5,就说明两张图片很相似;如果大于10,就说明这是两张不同的图片。
- 优点是简单快速,不受图片大小缩放的影响
- 缺点是图片的内容不能变更。如果在图片上加几个文字,它就认不出来了。
所以,它的最佳用途是根据缩略图,找出原图。
实际应用中,往往采用更强大的 pHash 算法和 SIFT 算法,它们能够识别图片的变形。只要变形程度不超过25%,它们就能匹配原图。这些算法虽然更复杂,但是原理与上面的简便算法是一样的,就是先将图片转化成Hash字符串,然后再进行比较。
其他算法
1、颜色分布法:
每张图片都可以生成颜色分布的直方图(color histogram)。如果两张图片的直方图很接近,就可以认为它们很相似。
寻找相似图片就变成了找出与其最相似的向量。这可以用皮尔逊相关系数或者余弦相似度算出,但是汉明距离在这里是不合适的。
2、内容特征法(重点):
除了颜色构成,还可以从比较图片内容的相似性入手。
首先,将原图转成一张较小的灰度图片,假定为50x50像素。然后,确定一个阈值,将灰度图片转成黑白图片。如果两张图片很相似,它们的黑白轮廓应该是相近的。
于是,问题就变成了,第一步如何确定一个合理的阈值,正确呈现照片中的轮廓?
显然,前景色与背景色反差越大,轮廓就越明显。这意味着,如果我们找到一个值,可以使得前景色和背景色各自的"类内差异最小"(minimizing the intra-class variance),或者"类间差异最大"(maximizing the inter-class variance),那么这个值就是理想的阈值。
1979年,日本学者大津展之证明了,"类内差异最小"与"类间差异最大"是同一件事,即对应同一个阈值。他提出一种简单的算法,可以求出这个阈值,这被称为"大津法"(Otsu's method)。下面就是他的计算方法。
假定一张图片共有n个像素,其中灰度值小于阈值的像素为 n1 个,大于等于阈值的像素为 n2 个( n1 + n2 = n )。w1 和 w2 表示这两种像素各自的比重。
再假定,所有灰度值小于阈值的像素的平均值和方差分别为 μ1 和 σ1,所有灰度值大于等于阈值的像素的平均值和方差分别为 μ2 和 σ2。
类内差异 = w1(σ1的平方) + w2(σ2的平方)
类间差异 = w1w2(μ1-μ2)^2
可以证明,这两个式子是等价的:得到"类内差异"的最小值,等同于得到"类间差异"的最大值。不过,从计算难度看,后者的计算要容易一些。
找到这个阈值后,根据当前像素的灰度值,当少于这个阈值的灰度值的像素是背景,当大于这个阈值的则为前景。在计算50x50像素的黑白缩略图,根据阈值进行判断得到了一个50x50的0-1矩阵。
矩阵的每个值对应原图的一个像素,0表示黑色,1表示白色。这个矩阵就是一张图片的特征矩阵。
两个特征矩阵的不同之处越少,就代表两张图片越相似。这可以用"异或运算"实现(即两个值之中只有一个为1,则运算结果为1,否则运算结果为0)。对不同图片的特征矩阵进行"异或运算",结果中的1越少,就是越相似的图片。“汉明距离”和“余弦相似度”都可以在这里使用。
延伸
JS版实现上面提到的所有算法
https://juejin.cn/post/6844904016686628877
几点延伸:
1、用户侧的设备,如pc,手机,其性能是强大的,同时也是过剩的,用户在大多数的使用场景下是吃不满设备的性能的。一些手机甚至会有额外的浮点运算芯片来加速,很多时候这个芯片在拍摄录像,视频图片编辑的时候才会启动。
2、通过用户设备上的硬件,合理利用好用户的设备进行部分运算,实现运算前置,即可大大减轻服务器的资源。在一些众包场景下,如审核或者标注的工作,如果能把一些运算前置的任务前置到的工作者的设备上,即可大大减轻服务器的压力,减低成本,更有竞争力。
3、关键技术点就是客户端的技术,例如能运行在浏览器上的 tensorflow.js。
客户端技术的现况:
一些现成的、被包装成NPM包的模型
MobileNet(图像分类):
@tensorflow-models/mobilenetwww.npmjs.com/package/@tensorflow-models/mobilenet
COCO-SSD(物体检测):
@tensorflow-models/coco-ssdwww.npmjs.com/package/@tensorflow-models/coco-ssd
PoseNet(人体姿态识别):
@tensorflow-models/posenetwww.npmjs.com/package/@tensorflow-models/posenet
SpeechCommands(声音识别):
@tensorflow-models/speech-commandswww.npmjs.com/package/@tensorflow-models/speech-commands
另外还有一些第三方开发的现成模型包,比如ML5,里面有pix2pix,SketchRNN等好玩的模型。
ml5js/ml5-librarygithub.com/ml5js/ml5-library
还有人脸识别和关键点标注的face-api.js
https://itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07itnext.io/face-api-js-javascript-api-for-face-recognition-in-the-browser-with-tensorflow-js-bcc2a6c4cf07
如果有一个 python 训练好的模型想要在网页里面做推断,可以使用TensorFlow.js Converter进行转换
1、针对Keras模型:
js.tensorflow.org/tutorials/import-keras.html
2、针对TensorFlow SavedModel
js.tensorflow.org/tutorials/import-saved-model.html
思考
现有的审核和标注产品模型,是否存在被颠覆的可能性,我认为是会发生的,为什么呢?
现在的产品模型是重服务器的,这一类模型相对成本高,迭代维护成本高,在商业社会里,谁成本更低,谁就有优势,谁就能打倒成本高的一方,脱颖而出,赢得市场。目前两种趋势,一种是通过减低硬件成本的方式,如自制gpu芯片,还有一种是众包模式,使用用户侧的硬件来做运算。
本文由 Chakhsu Lau 创作,采用 知识共享署名4.0 国际许可协议进行许可。
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名。
欢迎大佬回归!大佬失踪好多年了