论文投稿百科

dcnn人脸关键点检测论文翻译

发布时间:2024-07-05 10:04:58

dcnn人脸关键点检测论文翻译

推荐下计算机视觉这个领域,依据学术范标准评价体系得出的近年来最重要的9篇论文吧: (对于英语阅读有困难的同学,访问后可以使用翻译功能) 一、Deep Residual Learning for Image Recognition  摘要:Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers—8× deeper than VGG nets [40] but still having lower complexity. An ensemble of these residual nets achieves error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers. The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we obtain a 28% relative improvement on the COCO object detection dataset. Deep residual nets are foundations of our submissions to ILSVRC & COCO 2015 competitions1, where we also won the 1st places on the tasks of ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation. 全文链接: 文献全文 - 学术范 () 二、Very Deep Convolutional Networks for Large-Scale Image Recognition 摘要:In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16-19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision. 全文链接: 文献全文 - 学术范 () 三、U-Net: Convolutional Networks for Biomedical Image Segmentation 摘要:There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks. Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at . 全文链接: 文献全文 - 学术范 () 四、Microsoft COCO: Common Objects in Context 摘要:We present a new dataset with the goal of advancing the state-of-the-art in object recognition by placing the question of object recognition in the context of the broader question of scene understanding. This is achieved by gathering images of complex everyday scenes containing common objects in their natural context. Objects are labeled using per-instance segmentations to aid in precise object localization. Our dataset contains photos of 91 objects types that would be easily recognizable by a 4 year old. With a total of million labeled instances in 328k images, the creation of our dataset drew upon extensive crowd worker involvement via novel user interfaces for category detection, instance spotting and instance segmentation. We present a detailed statistical analysis of the dataset in comparison to PASCAL, ImageNet, and SUN. Finally, we provide baseline performance analysis for bounding box and segmentation detection results using a Deformable Parts Model. 全文链接: 文献全文 - 学术范 () 五、Rethinking the Inception Architecture for Computer Vision 摘要:Convolutional networks are at the core of most state of-the-art computer vision solutions for a wide variety of tasks. Since 2014 very deep convolutional networks started to become mainstream, yielding substantial gains in various benchmarks. Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as enough labeled data is provided for training), computational efficiency and low parameter count are still enabling factors for various use cases such as mobile vision and big-data scenarios. Here we are exploring ways to scale up networks in ways that aim at utilizing the added computation as efficiently as possible by suitably factorized convolutions and aggressive regularization. We benchmark our methods on the ILSVRC 2012 classification challenge validation set demonstrate substantial gains over the state of the art: 21:2% top-1 and 5:6% top-5 error for single frame evaluation using a network with a computational cost of 5 billion multiply-adds per inference and with using less than 25 million parameters. With an ensemble of 4 models and multi-crop evaluation, we report 3:5% top-5 error and 17:3% top-1 error on the validation set and 3:6% top-5 error on the official test set. 全文链接: 文献全文 - 学术范 () 六、Mask R-CNN 摘要:We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, ., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without tricks, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code will be made available. 全文链接: 文献全文 - 学术范 () 七、Feature Pyramid Networks for Object Detection 摘要:Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But pyramid representations have been avoided in recent object detectors that are based on deep convolutional networks, partially because they are slow to compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using a basic Faster R-CNN system, our method achieves state-of-the-art single-model results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 5 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available. 全文链接: 文献全文 - 学术范 () 八、ORB: An efficient alternative to SIFT or SURF 摘要:Feature matching is at the base of many computer vision problems, such as object recognition or structure from motion. Current methods rely on costly descriptors for detection and matching. In this paper, we propose a very fast binary descriptor based on BRIEF, called ORB, which is rotation invariant and resistant to noise. We demonstrate through experiments how ORB is at two orders of magnitude faster than SIFT, while performing as well in many situations. The efficiency is tested on several real-world applications, including object detection and patch-tracking on a smart phone. 全文链接: 文献全文 - 学术范 () 九、DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 摘要:In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First , we highlight convolution with upsampled filters, or ‘atrous convolution’, as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second , we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third , we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed “DeepLab” system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching percent mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online. 全文链接: 文献全文 - 学术范 () 希望对你有帮助!

人体姿态识别的过程中我们首先需要进行关键点检测,我们需要生成高分辨率的heatmap,但是传统的特征提取网络如VGG网络会将我们的feature map分辨率降 的很低,损失了空间结构。我们知道VGG的结构是穿行结构,使用HRNet则是将VGG的穿行结构改变成了并行结构,将不同分辨率的feature map进行并联,下面我们看下HRNet系列吧。 应用领域: 人体姿态检测 方法:只选择高分辨率特征图 应用领域:人脸关键点检测 方法:利用所有分辨率的特征图,对低分辨率特征图上采样后与高分辨率特征图拼接,经过1*1卷积,softmax层生成分割预测图 应用领域:图像分类 方法:HRNet-Wx-C:4张不同分辨率特征图经过bottleneck层,通道数翻倍后,从高分辨率图依次经过strided convolution与低分辨率图进行元素加操作,在经过1*1卷积使通道翻倍(1024->2048),全局平均池化后送入分类器。 应用领域:目标检测 方法:HRNetV2p:将HRNetV2拼接后的特征图经过不同尺度的平均池化操作产生不同级别的特征表示,经过1*1的卷积后形成特征金字塔 参考: [1] 关于HRNet的简介 [2] [论文阅读]HRNetV1,HRNetV2,HRNetV2p

人脸关键点检测论文阅读笔记

本文主要用于介绍Kaiming He, rbg等大神于2017年提出的Mask R-CNN网络,该网络架构是在其前作Fast R-CNN上的升级改进版可以用于实例分割。本笔记主要为自我温习回顾,以备后用。

论文链接: github主页: rbg大神个人主页: 恺明大神的演讲视频:

为更好的理解该论文,建议先行阅读Faster R-CNN网络的相关论文,这里也附上本菇之前写的1篇论文笔记供大家参考~ Faster R-CNN理解

基本目录如下:

------------------第一菇 - 摘要------------------

我们从概念上提出了一种简单,易变和通用的框架用于目标实例分割。我们的方法能够高效的在一张图片中检测出物体同时对于该物体生成高质量的分割蒙版(segmentation mask),我们称此方法为,“Mask R-CNN”,其本质也是由Faster R-CNN衍化而来的,就是在Faster R-CNN后面多加了一个分支用于预测目标的蒙版,跟预测目标的识别和位置的分支是平行的。Mask R-CNN也易于去训练,仅仅只比Faster R-CNN慢一点,运行效率达到5fps。另外,Mask R-CNN也能够十分简单的被转移去训练其他的任务,比如去预测人体的姿态关键点。我们在COCO数据集上运用该模型训练了多个任务,包括实例分割,目标框预测和人体关键点检测,均取得不错的成绩。我们希望Mask R-CNN能够成为业界新的标杆,并能被广泛运用于新领域的研究。

------------------第二菇 - 核心思想------------------

整体架构十分容易理解,就是在RPN之后新添了一个分支用于预测mask的。网上其他的讲解资料也很多,这里我只记录一下Mask R-CNN中的重点,RoIAlign。不过我们还是先来温习一下,什么是RoIPool的实现原理。

为了搞明白原理,我们先问一个问题,为什么需要RoIPool? 原因就是经过RPN生成的候选区域大小不一样,无法直接连接全连接层进行后续的分类及定位处理,因此需要RoIPool层将其转为固定维度大小的特征。当然这是很明确的一个原因,不过还有一个潜在的原因可以理解为特征的二次提取。因为在RPN中,特征只被共享卷积层提取过一次,而为了提升后续的定位及分类准确率,对于每一个候选区域进一步提取特征也是符合逻辑的,贴一张示意图,方便理解,

原理很简单,我们再来看具体的细节处理,会产生的像素偏差。

第一个就是从输入图上的RoI到特征图上的RoI Feature,

假如现在我们输入了一张 的图像,图像中有2个目标(狗和猫),其中狗的识别框为 ,经过VGG16网络后,图像得到对应的feature map为 (5次池化操作),而对应的狗的识别框就变为 了,因此这里就会有一个误差,于是这里就有了第一个量化操作,即取整,使其结果变为 ,如下所示(右图中未能重叠的部分就是误差了~)

第二个误差就是将每个特征转化为固定大小维度的时候所产生的。比如现在要将 的特征映射到 上,对应的大小就是 了,因此同上这里又会有一个误差,于是就有了第二个量化操作,也是取整。即原先由 大小生成的值,现在只由 的大小生成了~虽然看起来这是一个很小很小的误差,但是要知道,这时候我们的感受野已经是32倍了,相当于原图 的像素差了~

这里也贴一张网上流行的RoIPool的示意图,帮助理解,

因此以上两种取整的量化操作,对于分类问题来说可能影响不大,但是对于实例分割这种像素级别的,细微的像素误差可能就会导致最终结果的崩坏。因此,本文才会提出了RoIAlign,其主要目的就是为了消除这种误差的。

简单来讲,RoIAlign的作用就是用双线性插值的办法取代了之前的取整操作,从而使得每个RoI取得的特征能更好的对齐原图上的RoI区域。具体来讲,双线性插值是一种比较理想的图像缩放算法,他通过拟合一个虚拟的点(该点的值由其周围4个确定点的像素值决定),从而将那些浮点数的点的值给表达出来,如下图所示,

作者同时也强调了一件事情,即,

We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.

也就是说该方法对采样点的个数和位置并不是十分敏感在意的~而且采用了这种方法以后,准确率有了很大的提升~!

至此,整一个新的RoIAlign层的作用及原理算是讲明白了。

剩下的网络架构类的,实现细节等不再多记录了。

------------------第三菇 - 总结------------------

本文主要是记录了Mask R-CNN中的一个创新难点,ROIAlign的作用及实现方法,其他有关Mask R-CNN的相信不难理解。

参考文献: 【1】

本文作为OC-SORT的论文阅读记录,中间可能会加入自己的看法,由于是tracking这块的初学者,文中若有错误的认识麻烦读者帮忙修正。

OC-SORT是来自 CVPR2022 的一篇文章,采用的范式是MOT中的TBD(Tracking by Detection)。虽然学术界中JDE的研究越来越多,2022年开始也有很多基于Transformer的方法效果非常不错,但是目前工业界还是使用TBD这种方式比较多,类似还有Bytetrack等等,基本都可以满足跟踪的需求。

TBD范式中比较出名的一系列就是SORT系列,这其中笔者了解的有最初的鼻祖SORT,还有后期衍生出来的DeepSORT, StrongSORT, StrongSORT++, ByteTrack,还有本文要讨论的OC-SORT。

关于SORT系列方法具体解析可以参考下面的博客和帖子,个人认为写的很详细和易懂,方便随时查阅:

通过回顾SORT方法,作者提出三个问题作为方法设计的动机:

文章提出三项改进:

这种在线平滑方式通过当前帧检测到的结果和之前帧的轨迹位置,来生成更多的虚拟点,以此辅助KF做预测。具体通过⼀个虚拟的轨迹对参数进行在线平滑,回溯到目标检测丢失的时候,可以修复在时间间隔内累积的误差。

在计算IOU度量矩阵的时候,把速度/方向计算成代价矩阵放在原来的度量矩阵中,(个人理解类似模型训练的trick):

这部分看的不是很懂…

OCR用于恢复轨迹,这部分依赖于检测值而不是错误的估计值。当轨迹丢失后检测目标再出现时,直接将丢失轨迹时检测值和重新出现的检测值相关联以恢复轨迹。

人脸特征点检测论文

Viola-jones人脸检测算法是一种基于滑动窗口的目标检测算法,但它却克服了滑动窗口检测带来的低效问题,可以用于实时人脸检测,主要归功于以下三点:

我参考论文[1]实现了Viola Jones中提到的attention cascade检测框架,此处是 github传送门 。

下面进一步详细介绍整个检测原理。

基于滑窗的目标检测基本原理很简单,首先构建一个classifier(分类器),以人脸检测为例,分类器的工作是判断给定大小的图像的是否为人脸,用该分类器从左至右从上到下扫描整幅图像,扫描获取的部分图像称为子窗(文章中子窗大小为24x24像素),当分类器判断子窗是人脸时,即完成了人脸检测。

这样处理有个问题,如果图像中包含的人脸变大了,此时采用固定大小的子窗就无法进行检测。通常有两种解决方法,1. 采用image-pyramid(图像金字塔),也就是通过resize获得多种不同大小图像并堆叠在一起,用固定大小分类器同时对所有图像进行扫描;2. 采用不同大小的分类器进行扫描。文章中用到的是第二种方法,尽管如此,虽然避免了调整图像大小带来的计算开销,但不同大小的分类器意味着有更多子窗需要进行处理。

如何构建一个足够快的分类器来对每个子窗进行快速判断。

分类器的构建有两种方式,一种是pixel-based(基于像素),另一种是feature-based(基于特征)。当把神经网络作为图像分类器时,输入是图像的像素值,即基于像素的分类器。用图像像素作为输入不包含任何和待分类目标有关的特定信息,往往训练这种分类器需要大量数据,并且分类过程较慢。基于特征的分类器就是先针对图像进行特征提取(HOG特征,SIFT特征等),再利用获取的特征进行分类。这种分类器不需要大量训练数据,且计算量一般会在特征计算部分,相对较小。

文章采用的是基于特征的分类器,选取了一种较为简单的特征即haar-like特征。利用矩形个数对可以将haar-like特征分为三类,分别由两个,三个,和四个 大小相同 的矩形组成。全部列举出来可以分为以下(a)(b)(c)(d)(e)五类(注意是五类不是五个,具体有多少个haar-like特征是由子窗大小决定的)。如下图所示(文章[1]中的图)。

当子窗大小给定后,我们可以用五个参数唯一确定 一个 haar-like特征,即特征种类(a/b/c/d/e),左上角x轴坐标,左上角y轴坐标,矩形的长,矩形的宽。对应的特征值等于位于白色矩形框中像素值总和减去位于黑色矩形框中的像素值总和。文章中用到的子窗大小为24x24像素,可以计算出来总共有162336个特征(把在子窗中所有可能位置和可能大小的特征全部列举出来)。利用haar-like特征进行分类只需两步:

haar-like特征有两个优点,第一是它是scale-invariant(不随图片大小而改变)的,第二是可以通过积分图像快速计算。简单的说下第一点的含义,例如我们用24x24像素的训练样本训练获取一组haar-like特征和对应的门限值,当对图像进行扫描时,子窗大小调整为SxS像素,此时只需将特征中的矩形大小按同样比例进行缩放(门限值同样需要缩放),计算所得的特征值依然是有效的。 积分图像是受卷积的微分性质启发而定义一种数据结构。积分图像定义: 其中 为积分图像, 为原图像。积分图像中 位置处的像素值等于原图中位于 的左侧和上方的所有像素值之和。有了积分图像我们就可以快速计算haar-like特征,以特征(a)为例,如下图所示。

S1到S6是积分图像在这六个顶点上的值。该特征值等于位于A中的像素总和减去位于B中的像素总和,而A中像素总和等于S5+S1-S2-S4,B中像素总和等于S6+S2-S3-S5,并且无论矩形多大,我们总能在固定时间内计算出特征值(6次索引操作和少量的加法乘法计算)。积分图像只需计算一次后续可以一直使用,事实上在算法实现时,我们只需保存样本的积分图像,原图像反而不用保存。

现在找到了一类特征用于构建分类器,和快速计算该类特征的方法。分类器是由一组特征构成的,而不是一个,如何找到一组有效的特征。

文章列举了前人的一些特征选取方法(此处就不列举了),它们虽然取得了一定的效果,但最终选出来的特征数量还是太多。文章将adaBoost算法用于特征选取(创新点),即每次训练的弱分类器的过程看做特征选取的过程,一次从162336个特征中选取一个特征(同时还包括了对应的门限值,极性,加权误差)。

adaboost算法就不详细介绍了,它的基本思想是训练一系列“弱”分类器,组成一个committee(即每个弱分类器都有投票权,但是权重不同,加权误差越小的弱分类器权重越大)。adaboost采用迭代训练方式,给定一个t阶committee,如何寻找第t+1个弱分类器和对应的权重,以最小化在一定分布下的训练样本的加权指数损失。这个优化过程可以转换为对训练样本的分布进行调整(即增大上一轮错误判断的样本的权重,减小正确判断的样本权重),在调整后的样本分布下寻找最小化加权0-1损失的弱分类器并计算对应的加权0-1损失。

可以利用adaboost找到一组特征构成分类器,使得该分类器有极高的准确率和召回率(这种分类器势必会有较大的计算量),这样会导致图像中的每一个子窗都享有同等的计算量,扫描一整幅图会有几十万甚至上百万子窗,总体计算量依然很大。实际上一幅图像中只有极少可能包含人脸的位置是我们感兴趣的,其他不包含人脸的子窗我们希望能够快速筛除,将更精细的计算用于包含人脸的子窗。

文章引入了attention-cascade的机制(注意力级联),即训练多个分类器进行级联,替代单一的分类器。结构如下图所示(文章[3]中的图)。

上图所示的分类器有三级,上一级的输出是下一级的输入,只有预测为正的样本才能传递给下一级,预测为负的样本直接舍弃。大部分非人脸子窗往往在前几级分类器就被舍弃,这样使得扫描每个子窗所需的平均计算量大大减小。

分类器是一级一级训练之后级联起来的,训练分类器时,整个级联分类器的假负率(fpr_overall)有一个训练目标(文章[1]中设置为10e-7),同时每一级有一对训练目标,即假正率和假负率。每级分类器训练的思想是在假负率极低的情况下(文章[1]中设置为)尽量得到一个较低的假正率(文章中[1]中设置为),即我们保证在正样本尽可能多的通过该级分类器的情况下尽量筛除更多的负样本。文章[3]通过一个松弛量来调节假正率和假负率。

下一级用到的训练数据是由所有的正样本和上一级输出的假正样本组成的,这样训练的好处是可以让处于级联后半部分的分类器“看到”更多负样本数据,缺点是训练后期假正样本很难获取,训练时间会比较长。

尽管我们获取了一个级联分类器,但依然不能保证对同一幅图中的一张人脸只会检测到一次(子窗相对人脸有所便宜或者缩放子窗大小都可能导致重复检测),如何消除重复检测,获得更好的检测效果。

文章[3]中说的较为简略,主要是针对检测框构建并查集,并对并查集中的候选框求平均得出最终的检测框。

文章[1]中是采用连通分量算法,计算每种大小检测框的置信度,根据置信度选取最终结果,但前提是检测器在图像中扫描的步进必须是1个像素,处理时间可能会比较长。

只能用于正脸检测,如果人脸朝屏幕内外或者在屏幕平面上旋转均有可能失效 在背景较亮,人脸较暗的情况下可能失效。 在有遮挡的情况下大概率失效。

Deepfake,是由“deep machine learning”(深度机器学习)和“fake photo”(假照片)组合而成,本质是一种深度学习模型在图像合成、替换领域的技术框架,属于深度图像生成模型的一次成功应用。 其实该技术最早版本在2018年初就被提出了,当时在构建模型的时候使用了Encoder-Decoder自编解码架构,在测试阶段通过将任意扭曲的人脸进行还原,整个过程包含了:获取正常人脸照片=>扭曲变换人脸照片=> Encoder编码向量 => Decoder解码向量 => 还原正常人脸照片五个步骤。而ZAO在Encoder-Decoder的框架之上,又引入了GAN(生成对抗网络)技术,不但降低了同等条件下的模型参数量和模型复杂度,同时使生成的人脸更为清晰,大大降低了对原图的依赖,显著提升了换脸的效果,而且基于GAN技术的Deepfake改进版已经在Github开源。 尽管「Deepfake」这类应用非常吸引人,但落到实处还是会引发很多的问题,不论是伦理还是隐私。后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案,也许大规模应用还能进一步催生效果更好、算力更少的解决方案。 直观而言,GAN 这类生成模型可以生成非常逼真的人脸图像,那么现在需要将某个人的特点迁移到另一张人脸上,这就需要更多的模块来定义需要迁移的位置与特点。 总体上,「Deepfakes」换脸主要分为以下过程: 其中人脸定位已经非常成熟了,一般定位算法可以生成人脸的特征点,例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型,它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景,从而达到只改变人脸的效果。 当然,如果生成 ZAO 这种小视频,那么还需要一帧帧地处理图像,然后再将处理后的结果重新拼接成小视频。 人脸定位也就是抽取原人脸的表情特征,这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取,但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」,从而找到人脸显著的特征点。 如上是一些人脸特征点,如果我们想换脸的表情更加真实和准确,那么也可以使用目前主流的人脸识别算法,它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力,尤其是在处理高分辨率图像时。 首先对于变分自编码器(VAE),我们知道它希望通过无监督的方式将人脸图像压缩到短向量,再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息,例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。 所以如果我们用某个编码器学习所有人,那么它就能学习到人脸的共性;如果再用某个解码器学习特定的某个人,那么就能学习到他的特性。简单而言,当我们用通用编码器编码人脸 A,再使用特定解码器 B 解码隐藏向量,那么就能生成出拥有 A 的人脸表情,但却是 B 人脸的图像。 这就是 VAE 的解决方案,对于 GAN 来说,它会利用抽取的人脸特征点,然后根据生成器生成对应的目标人脸图像。这时候,编码器同样也会将真实的目标人脸编码,并和生成的目标人脸混合在一起。因此,如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别,那么生成的人脸就非常真实了。 如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案,它只需要几张目标人脸图,就能根据原人脸的特征点生成极其逼真的效果。 知道了如何制作换脸视频,我们还要掌握一些识别换脸视频的技术,因为这些换脸技术给大众带来欢乐的同时,也在被不少人滥用。这种滥用不仅给公众人物造成了困扰,甚至还威胁到了普通大众。 由于用来训练神经网络的图像数据往往是睁着眼睛的,因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。 去年,奥尔巴尼大学(University of Albany)的研究人员发表了一篇论文,提出了一种可以检测这种不自然眨眼的技术。有趣的是,这项技术使用的也是深度学习,和制作假视频的技术是一样的。研究人员发现,利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段,找出非自然眨眼运动的一系列帧。结果发现,Deepfake 视频中人物的眨眼不符合正常的生理学规律,由此可以识别出哪些是原始视频,哪些是 Deepfakes 视频。 每个人都有独特的头部运动(如开始陈述事实时点头)和面部表情(如表达观点时得意得笑),但 Deepfakes 中人物的头部动作和面部表情都是原人物而非目标人物的。 基于此,加州大学伯克利分校的研究者提出了一种检测换脸的 AI 算法。其基本原理是:利用一个人的头部动作和面部表情视频训练一个神经网络,然后拿这个神经网络去检测另一个视频中的人物动作和表情是否属于这个人。模型准确率达到 92%。 (a)原始人物;(b,c)分别是 Deepfake 人物。 论文地址: 制作换脸视频和识别换脸就像一场猫鼠游戏,造假技术日新月异,打假技术也在不断迭代。但仅在技术层面打击这一技术的滥用是不够的,我们还需要法律的支持。 参考链接:

关键点检测论文

cornerNer论文链接: github: CenterNet论文链接: github: CornerNe-Lite论文链接: github: 所谓基于关键点进行目标检测,其实就是使用one-stage网络将目标边界框检测为一对关键点(即边界框的左上角和右下角)。通过将目标检测为成对关键点,就可消除现有的one-stage检测网络中对一组anchors的需要,这个最近火热的anchor-free也是不谋而合。接下来,先简单介绍下CornetNet和CenterNet这两个基于特征点的目标检测网络。最后对CornerNet-Squeeze做个简单介绍! CornerNet网络的整体思路是,首先通过Hourglass Network网络进行特征提取,紧接着将网络得到的特征输入到两个模块: Top-left Corner pooling 和 Bottom-right Corner pooling 提取关键点的特征,对于每个Corner Pooling模块都会进行目标框的左上角关键点和右下角关键点的类别分类( Heatmaps ),并找到每个目标的一对关键点( Embeddings ),以及减少基于坐标回算目标目标位置时的偏置( offsets )。网络的整体结构图如下: 很显然,CornerNet的核心是四个部分: 最终,如下图所示,上半支路的网络结果如下所示,网络最终是由两条支路组成的。 CenterNet网络主要是基于CornerNet网络存在的问题,而提出的基于关键点目标检测的网络。其实现了目前为止在one-stage系类算法中最高的MAP。CenterNet的作者发现,CornerNet是通过检测物体的左上角点和右下角点来确定目标,但在此过程中CornetNet使用corner pooling仅仅能够提取到目标边缘的特征,而导致CornetNet会产生很多的误检。基于此,CenterNet利用关键点 三元组 即 中心点、左上角关键点和右下角关键点 三个关键点而不是两个点来确定一个目标,使得网络能够获取到目标内部的特征。而CornerNet在论文中也说道了,约束其网络性能最重要的部分是关键点的提取,因此CenterNet提出了 Center Pooling 和 cascade corner Pooling 用来更好的提取本文提出的三个关键点。 作者基于Corner Pooling的系列思想,提出了Center Pooling的思想,使得网络提取到的中心点特征能够更好的表征目标物体。 最终,CenterNet在CornerNet的基础上增加了中心点的预测,以及修改了关键点特征的提取方式,大大减小了网络的误检,并且实现了one-stage系列算法中的最好效果。 普林斯顿大学在4月19号提出了两种更高效的基于关键点的目标检测算法,分别为: CornetNet-Saccade 和 CornetNet-Squeeze ,若将两种策略结合则称为 CornerNet-Lite 。以下是Cver对这两个网络的介绍,个人感觉写的很好,我就不造轮子了: 最终我最感兴趣的网络CornerNet-Squeeze和YOLOv3进行对比,达到了如下图所示的效果。 然而,就在我学习并总结这篇文章的过程中,我发现CornerNet-Squeeze是基于CornerNet改进的,但正如上文中介绍CenterNet的时候提到过的CornerNet所具有的那些弊端,我总觉得CornerNet-Squeeze在误检的部分不一定会很优秀,所以接下来就是看源码阶段了,希望CornerNet-Squeeze能够不负我望哈~

在Cver上看到一篇推文,总结了多篇类似anchor-free论文: : Unifying Landmark Localization with End to End Object Detection Only Look Once: Unified, Real-Time Object Detection : Detecting Objects as Paired Keypoints Object Detection by Grouping Extreme and Center Points Selective Anchor-Free Module for Single-Shot Object Detection : Fully Convolutional One-Stage Object Detection Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches : Beyond Anchor-based Object Detector DenseBox, 这是一篇百度2016年挂出来的论文,距离现在比较早的文章了,现在又被拿出来重提了,因为其中anchor-free的特点,我把它找出来了。发现这是一篇百度的神作,有很多极其超前的思路。出现了特征融合,多任务训练,多尺度,通过添加任务分支进行关键点检测(直到2017年mask-rcnn才公布通过添加掩码在Faster-rcnn进行上进行分割任务)。 对于分类{0,1},这个模型使用L2损失,并没使用hinge loss or cross-entropy loss,按照作者说法这个简单的L2损失也能工作的很好。 坐标也是l2损失 网络添加Conv5_2_landmark和Conv6_3_det输出,对于检测N个关键点的任务,Conv5_2_landmark有N个热图,热图中的每个像素点表示改点为对应位置关键点的置信度。对于标签集中的第i个关键点(x,y) ,在第i个feature map在(x,y) 处的值是1,其它位置为就是关键点的分数热力图。 参考: 目标检测:Anchor-Free时代 那些酷炫的深度学习网络图怎么画出来的? CVPR2019-Code 人脸检测之DenseBox

对于毕业生来说,最大问题就是毕业论文,论文完成后就需要进行查重。那么如何进行论文查重呢,下面小编来给大家讲一讲。1、查重要求:首先看一下论文查重的范围,一般是从摘要到结论,脚注不参与查重。一般要求重复率在20%以内。如果没有达到学校设置的标准,论文就无法通过审核,然后学校会判断这篇论文是抄袭的。2、查重的价格:正常情况下,学生要支付使用查重平台进行论文检测的费用。然而,有些学校可能会为每个人提供一两次查重机会。查重单价官网都是有介绍的,比如paperfree、papertime查重系统,收费是千字元,大家需要多少字数,按照整数进行充值即可,并且通过官网查重还能领取免费字数。3、查重的内容:基于强大的数据库,论文中的任何一句话都可能出现在各种学术论文中,可能不是100%相同,但内容相似。这时候,就需要对重复内容进行降重。降重的方法也很简单,只需把重复的句子换成另一种表达方式,在不改变原意的情况下改变语言表达方式。4、降重的方式:一定要注意一个关键点,就是主题不变,原框架不变。然后要处理红色部分,比如改变句子的表达方式,比如把主动句改成被动句或者倒装句等等。对于一些关键的核心词,我们可以通过替换来达到降重的效果。当然,也可以删除一些不相关的文字,或者对文字内容进行图表化,这也是降重的方法之一。

关键点检修检测论文

论三相异步电动机维修及故障排除摘要:介绍三相异步电动机的结构特点及损坏情况,根据近几年在三相异步电动机检修中的经验,总结出三相异步电动机的检修方法及在试运转试验中常见的几种故障及排除方法。关键词:三相异步电动机检修定子绕组试验我公司自1993年开始进行三相异步电动机的维修,经过多年的摸索,不断总结实践经验,目前为止三相异步电动机的检修质量和判断故障点的速度都得到了很大的提高,得到了广大客户的认可。三相异步电动机又叫感应电动机,它是一种结构简单、坚固耐用、使用和维护方便、运行可靠的电动机,它主要是由定子和转子组成。目前绝大多数动力设备,如机床、起重设备、运输机械、鼓风机、各种泵类以及日常生活中的电扇、医疗设备等装置中广泛应用。三相异步电动机要定期检修,方能保证可靠运行。它的检修有一般维修,也有恢复性大修。随着使用年限的增长,使用数量的增多,损坏情况也不断增加,恢复性大修数量也逐年上升。我修复过各种大小规格的电动机,功率从~300kW。1结构特点及损坏情况三相异步电动机是由固定部分—定子和转动部分—转子组成的,定子与转子之间留有相对运动所必须的空气隙。定子是电动机的静止部分,主要由定子铁心、定子绕组和机座等部件组成。定子铁心它作为电动机的磁路,一般由~的硅钢片叠压而成,钢片的表面涂有绝缘漆,内圆表面冲有均匀分布的槽,槽内嵌放定子绕组。定子绕组的作用是通入三相交流电流,产生旋转磁场。通常绕组是用高强度漆包线绕制成各种型式的线圈,嵌入定子槽内。机座是固定定子铁心和定子绕组,并以两个端盖支承转子,同时起到保护整个电动机和发散电动机运行中所产生热量的作用。转子是电动机的旋转部分,主要由转子铁心、转子绕组、转轴、端盖等部件组成。转子铁心它作为电动机的磁路是由~的硅钢片叠压而成,固定在转轴上。转子表面冲有均匀分布的槽,槽内嵌放转子绕组。转子绕组用以切割定子磁场,产生感应电势和电流,并在旋转磁场作用下使转子转动。转轴用以传递转矩,支撑转子的重量,一般由钢及合金经过机械加工而成。端盖一般为铸铁件装在机座的两侧,起支撑转子的作用。三相异步电动机主要有下面几种损坏情况:(1)滚动轴承安装不正确造或润滑脂不合适,造成轴和轴承发生磨擦,使轴磨损严重而损坏。(2)定子绕组损坏。主要原因是电机过载、匝间、相间、短路、对地击穿等造成定子绕组损坏。2三相电动机的定期检修为了避免和减少三相异步电动机突然损坏事故,三相异步电动机需要定期保养和检修。如遇有电动机过热和定子绕组绝缘太低时,须立即进行检修。三相异步电动机的检修方法是:将电动机进行解体,对各零件先进行清理,再对它们作表观检查,是否有异常。然后对关键部位的尺寸进行测量,对电机绕组作电气检查。(1)机械检查。检查电机的外壳和端盖是否有裂缝现象,如有裂缝应进行焊接和更换。检查转子由一侧到另一侧的轴向游隙,测量时将长500~600mm的塞尺,塞入定、转子之间,按4个或8个等分位置来测量气隙,然后取其平均值。表1列出了三相异步电动机气隙大小的参考数值,该数值系指两边尺寸的总和。如平均值与参考值偏差较大,则应检查转轴是否弯曲,装配工艺是否妥当。另外用手拨动转子,看是否能转动,如转不动看是否有异物卡住,轴承是否良好。然后根据情况更换轴承、轴套。测量检查叶轮的上、下外止口和与它们相配合的扣环及电机内径的尺寸,这两个配合间隙是否在检修标准规定的范围内,超差时需更换零件或采取其它措施(如:堆焊、镶套)使配合间隙达到规定要求。否则将影响电机的性能、轴向平衡力等。观察检查定、转子的表观情况,尤其要注意焊缝处有无异常情况。(2)电气检查。直流电阻检查:三相电阻的不平衡度不得超过2%。绝缘电阻检查:三相异步电动机绕组的绝缘电阻一般能达到100MΩ以上。如低于5MΩ时需分析原因,绝缘是否受潮,或绕组因绝缘不好而接地等,如经电桥实验检测三相电阻平衡无问题,则纯属绝缘受潮,需进行干燥处理,如定子三相电阻不平衡,则需对电机线圈三相分别做对地耐压实验及匝间实验,查出接地点。多采用F级绝缘。漆包线,槽绝缘、槽楔、绝缘套管、引接线及浸渍漆等均需采用H级绝缘的材料。75kW以下的定子绕组更换大多采用B级绝缘。漆包线,槽绝缘、槽楔、绝缘套管、引接线及浸渍漆等均需采用B级绝缘的材料。电机更换绕组的原则是:按原样修复,尤其是线圈匝数不可随意变动,匝数变化将明显影响电机的主要性能,线径则只要接近原总面积即可,绕组形式、线圈跨距也不要变动。(2)总装和检查性试验。在完成定、转子的修理后,备好合格的轴承、轴套、密封圈等即可进行总装。装配完成后用手转动转子,转动应均匀、灵活,转子应有一定的轴向窜动量,其窜动量应在检修标准规定的范围内:完成总装后再检查一下直流电阻和绝缘电阻等,认为电气性能正常后,将三相异步电动机做耐压实验,最后进行试运转观察其电流、转速、振动等有无异常。4常见试运转试验的故障及排除方法(1)通电后电动机不能转动,但无异响,也无异味和冒烟。则检查电源回路开关,熔丝、接线盒处是否有断点,如有则进行修复。(2)通电后电动机不转,然后熔丝烧断则说明可能缺一相电源或定子绕组相间短路、定子绕组接地、定子绕组接线错误等原因。然后一一排除这些故障。首先检查刀闸是否有一相未合好,电源回路是否有一相断线,如有则进行修复电源回路,若无则用兆欧表、万用表、耐压机、匝间试验仪、电桥逐一排除查找出故障点。(3)电动机空载电流不平衡,三相相差大则可能是重绕时,定子三相绕组匝数不相等、绕组首尾端接错、电源电压不平衡、绕组存在匝间短路、线圈反接等故障。通过绕组匝间冲击耐电压试验仪、电桥试验等逐一排除和消除这些故障。(4)电动机空载电流平衡,但数值大。可能是修复时,定子绕组匝数减少过多,或Y接电动机误接为Δ,或电机装配中,转子装反,使定子铁芯未对齐,有效长度减短。或大修拆除旧绕组时,使用热拆法不当,使铁芯烧损。这些问题则通过逐一排除进行修复,若是匝数减少的问题,则重绕定子绕组恢复正确匝数。若是接法错误,则改接为Y,若是装配错误和铁芯烧损则重3三相异步电动机的恢复性大修绕组损坏的三相异步电动机,需进行恢复性大修。损坏情况一般是定子绕组发生对地、相间击穿,线圈匝间短路,过载而造成绕组烧毁。均需更换定子线圈。(1)定子绕组更换。75kW以上的定子绕组更换大电动机的容量k ~~22~~1520~4050~75100~180200~250正常气隙m 增大的气隙m 正常气隙m 增大的气隙m ~1500r/min电动机转速3000r/min表1三相异步电动机的平均气隙值新装配,检修铁芯等来解决。5结论通过对三相异步电动机的近十年维修,不断总结实践经验,使我公司检修的电动机的质量有了很大的提高。我们不仅初步理顺了电动机的管理体制,建立了一套较规范的检修管理制度,使维修工作走上规范化管理道路。今后我们将通过进一步强化管理,巩固取得的成果,使维修工作再上一个新台阶。

汽修系统的嵌入式平台研究 第1章 绪论10-20 汽车检修技术概况10-11 汽车检修技术的国内外研究现状11-14 国外汽车检修技术的发展状况11-12 国内汽车检修技术的发展状况12-14 基于嵌入式系统的汽修技术14-18 嵌入式系统分析14-18 基于嵌入式系统的汽修系统18 课题介绍和目标18-19 论文结构19-20第2章 汽修系统的嵌入式平台分析20-34 汽修系统和嵌入式平台的基本功能20-22 主处理器选型22-30 嵌入式操作系统选型30-31 WINCE操作系统31-34第3章 基于ARM的硬件平台设计34-60 平台的硬件框架34 基于ARM核S3C2410X处理器34-39 SDRAM接口电路设计39-40 NANDFLASH接口电路设计40-42 触摸屏接口电路设计42-44 LCD接口电路设计44-47 SD卡接口电路设计47-48 UART和USB串行接口电路设计48-50 电源管理电路设计50-51 平台PCB设计51-55 PCB设计一般原则51-55 本系统PCB板设计55 系统硬件调试55-60 初步调试55-56 JTAG调试56-60第4章 基于ARM的软件平台设计60-73 Windows CE构成60-61 引导程序开发61-62 PB定制操作系统62-69 应用程序开发69-73第5章 本平台在汽车检修系统中的应用实例与性能分析73-75 本平台在汽车检修系统中的应用实例介绍73 本平台在汽车检修系统中的性能分析73-75第6章 总结

把你学到的知识和掌握的技术概括的总结出来就可以啦。

相关百科
热门百科
首页
发表服务