百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

「人脸识别实战二」服务器端设计与实现

haoteby 2025-05-02 18:28 13 浏览

1、前言

本文是《人脸识别实战》系列文章的第二篇,主要描述服务器端各模块的详细设计,包括网络处理模块的处理流程,图像处理模块中的人脸检测与人脸识别算法的集成,以及数据库管理模块的业务逻辑与数据表的设计与实现。

人脸识别实战项目的源码地址为:

https://github.com/Oreobird/face_id.git

2、网络处理模块

2.1 消息处理流程

使用Reactor模式实现高并发处理,负责处理客户端网络连接与数据接收及发送。Reactor采用多线程+epoll的处理方式实现,同时使用单例模式定义Req_Mgt管理类,将Reactor分发来的消息请求入队,再定义Req_Processor线程取出队列中的请求作相关的业务处理,最终通过消息接口类Msg_Oper将结果发送给客户端。流程设计如下:

2.2 消息数据格式

消息格式使用Json数据,通过opencv读取的图像数据经过cv::imencode()编码为二进制数据后,再使用base64编码嵌入到Json的数据段中。封装好的Json数据使用 数据长度+数据负载 的格式进行发送和接收。具体的Json协议字段可在AIPlayer查看。

3、人脸图像处理模块

3.1 人脸检测

3.1.1 MTCNN原理简介

MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,可以认为它是一个级联的神经网络。和很多处理图像问题的卷积神经网络模型,该模型也用到了图像金字塔、边框回归非最大值抑制等技术。MTCNN总体可分为P-Net、R-Net和O-Net三层网络结构。这三个级联的网络分别是:

  • P-Net,用于快速生成候选窗口。首先基于3层简单的CNN提取特征,然后通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步定位。该部分最终将输出多张可能存在人脸的区域,并作为R-Net的输入进行下一步的处理。P-Net本质上是一个单输入多输出结构的多任务卷积神经网络,包括了一个分类任务和两个回归任务。
  • R-Net,用于进行高精度候选窗口过滤选择。在结构上与P-Net类似,只是最后一层使用了全连接层,对特征的选择会更加的准确。该网络最后也是由一个人脸特征分类任务和边框回归及关键点回归任务组成,最后将输出较为可信的人脸区域,供O-Net使用。
  • O-Net,用于生成最终边界框与人脸关键点。在网络结构的最后同样是一个更大的256的全连接层,保留了更多的图像特征,同时再进行人脸判别、边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。

3.1.2 算法集成

系统通过Mtcnn_Detector()类集成了基于ncnn框架的实现的MTCNN,开源的项目地址为:


https://github.com/cpuimage/MTCNN
,其中ncnn是Tencent开源的一个为手机端优化的高性能神经网络前向计算框架(
https://github.com/Tencent/ncnn
)。

3.2 人脸对齐

在人脸特征提取之前,往往需要对检测到的人脸进行对齐。在实际场景中,检测器检测到的人脸常常会有一定的旋转角度,而对齐的作用就是将人脸调整到一个比较正面的角度。

本系统的人脸对齐方法比较简单,使用OpenCV的仿射变换来进行人脸的矫正。具体做法是根据MTCNN检测出的人脸区域及两个眼睛的坐标点,计算出旋转矩阵后,再调用仿射变换接口来获得对齐后的人脸图像。

3.3 人脸识别

3.3.1 FaceNet

FaceNet的网络架构与普通的卷积神经网络基本一致,但是FaceNet并没有使用传统的Softmax去进行分类学习,而是直接进行了端到端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别。如下图所示,Deep Architecture是卷积神经网络去掉softmax后的结构,经过L2的归一化之后得到特征表示Embedding,基于这个特征表示计算三元组的损失函数。

所谓的三元组就是三个样例:anchor,positive和negative。其中,anchor与positive是同一类,anchor与negative是异类,那么学习的过程就是学到一种表示,使得对于尽可能多的三元组中,anchor与positive的距离小于anchor与negative的距离,即类内距离小于类间距离。

因为很少的样本数据就可以产生大量的三元组,这对模型的收敛速度有着很大的影响。在FaceNet中使用了在线方法来选择三元组,即每训练一次mini-batch,根据当前的embedding,选择一次三元组,然后在这些三元组上计算triplet-loss,再对embedding进行更新,不断重复,直到收敛或训练到指定迭代次数。系统中使用了基于Tensorflow实现的版本,项目地址为https://github.com/davidsandberg/facenet/.

3.3.2 InsightFace原理

InsightFace算法基本流程如上图所示,它是在CosFace和SphereFace算法基础上对损失函数做了改进,在CNN网络得到特征向量后,利用余弦函数计算人脸特征和目标权重之间的夹角,然后在目标角度上增加一个附加的角余量,通过余弦函数再次得到目标logit。最后,用一个固定的特征范数重新缩放所有logits,并且后续步骤与softmax loss中的步骤完全相同。系统中使用了基于Tensorflow实现的版本,项目地址为https://github.com/luckycallor/InsightFace-tensorflow

3.4 算法集成设计与实现

3.4.1 类接口设计

为了方便对不同的人脸检测及识别算法进行扩展,采用模版模式的设计方法:编写接口类Face_Detector及Face_Recognizer,并以此为类型参数编写模板类Face_Handler。具体的类图如下所示:

3.4.2 算法集成实现

这一小节主要描述如何集成Tensorflow实现的InsightFace算法。

(1)模型载入

首先通过ReadBinaryProto()读取模型的图结构定义,然后对GPU的内存使用情况进行设置,最后根据图定义及设置创建Session,后续的预测推理需要以此Session来进行处理。

int InsightFace_Recognizer::init_session(const string &graph_path)
{
  tensorflow::GraphDef graph_def;
  tensorflow::SessionOptions opts;
  TF_CHECK_OK(ReadBinaryProto(tensorflow::Env::Default(), graph_path, &graph_def));
  //graph::SetDefaultDevice("/gpu:0", &graph_def);
  opts.config.mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.5);
  opts.config.mutable_gpu_options()->set_allow_growth(true);
  m_session.reset(tensorflow::NewSession(opts));
  TF_CHECK_OK(m_session->Create(graph_def));
  return 0; 
}

(2)特征提取

  • 定义输入Tensor

因为输入图像使用OpenCV中的cv::Mat结构,而Tensorflow以tensorflow::Tensor作为模型的输入数据,所以需要将cv::Mat转为tensorflow::Tensor,转换的核心代码如下:

// copying the data into the corresponding tensor
for (int y = 0; y < height; ++y)
{   
  const double* source_row = imgs[i].ptr<double>(y);  
  for (int x = 0; x < width; ++x)  
  {      
    const double* source_pixel = source_row + (x * depth);      
    for (int c = 0; c < depth; ++c)      
    {          
      const double* source_value = source_pixel + (2 - c); //BGR2RGB          
      input_tensor_mapped(i, y, x, c) = *source_value;      
    }  
  }
}
  • 推理获取特征

首先根据模型结构确定输入层与输出层的名称,然后定义相应的输入Tensor,接着根据之前创建好的session执行预测推理,最后获取输出的特征向量保存在vector中。基本的代码如下:

const string input_layer_1 = "input_images:0";
const string input_layer_2 = "train_phase_bn:0";
const string input_layer_3 = "train_phase_dropout:0";
const string output_layer = "embeddings:0";
Tensor train_phase(tensorflow::DT_BOOL, tensorflow::TensorShape());
train_phase.scalar<bool>()() = false;
Tensor train_phase_last(tensorflow::DT_BOOL, tensorflow::TensorShape());
train_phase_last.scalar<bool>()() = false;
std::vector<Tensor> outputs;
tensorflow::Tensor face_tensor(tensorflow::DT_FLOAT, tensorflow::TensorShape({1, height, width, depth}));
//推理
Status run_status = m_session->Run({{input_layer_1, face_tensor},          
		{input_layer_2, train_phase},         
		{input_layer_3, train_phase_last}},          
		{output_layer},          
		{},          
		&outputs);
//获取特征向量
auto feature = outputs[0].tensor<float, 2>();
std::vector<float> feat_vec;
for (int i = 0; i < feature.size(); ++i)
{    
  feat_vec.push_back(feature(i));
}

(3)相似度计算

在人脸特征比对中,使用欧式距离来进行特征比较,在某一设定阈值范围内取相似度最相近的作为识别的结果。

float cal_similarity(vector<float> &user_feat, vector<float> &face_feat)
{  
  cv::Mat user_feat_mat = cv::Mat(user_feat);  
  cv::Mat face_feat_mat = cv::Mat(face_feat);  
  return cv::norm(user_feat_mat, face_feat_mat, cv::NORM_L2);
}

for (int i = 0; i < m_users->size(); ++i)
{   
  float diff = cal_similarity(m_users->at(i).feat_vec, (*iter).feat_vec);  
  if (diff < threshhold && diff < min_diff)  
  {      
    min_diff = diff;     
    idx = i;  
  }
}

4、特征数据库管理模块

4.1 业务交互流程

  • 数据库初始化流程
  • 用户注册流程

4.2 数据库表设计

(1)用户表内容为:

(2)初始化用户表脚本

#!/bin/bash
user=AIPlayer
password=123456
mysql_exec="/usr/bin/mysql -h127.0.0.1 -u$user -p$password"
##########################
#【用户人脸特征数据库】
##########################
db=face_db
$mysql_exec -e "drop database $db"
$mysql_exec -e "create database $db"
#-------------------------# 用户表#-------------------------
echo "begin create ${db}.tbl_user table";  
$mysql_exec $db -e "CREATE TABLE ${db}.tbl_user(   
	id varchar(18) COMMENT '唯一用户ID编号',    
	name varchar(100) COMMENT '用户名称',   
	feat_vec varchar(10000) COMMENT '人脸特征',
  created_at bigint unsigned COMMENT '创建时间戳', 
  updated_at bigint unsigned COMMENT '上次更新时间戳',   
  PRIMARY KEY(id)  
) ENGINE=InnoDB DEFAULT  CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci";

4.3 人脸特征存储格式

提取的人脸特征是float类型的1xn维数据,在存储到数据库前需要将其转化为string类型,这里的处理方式是以逗号为连接符组合每个特征数据。

相关推荐

网站seo该怎么优化

一、网站定位在建设一个网站之前,我们首先要做的就是一个网站清晰的定位,会带来转化率相对较高的客户群体,我们建站的目的就是为了营销,只有集中来做某一件事,才会更好的展现我们的网站。在做SEO优化的同时...

3个小技巧教你如何做好SEO优化

  想半路出家做SEO?可是,怎么才做的好呢?关于SEO专业技术弄懂搜索引擎原理,咱们做搜索引擎排名的首先就是要了解搜索引擎的工作原理,对SEO优化有更深入了解之后再来做SEO,你就能从搜索引擎的视点...

SEO指令分享:filetype指令

filetype用于搜索特定的文件格式。百度和谷歌都支持filetype指令。比如搜索filetype:pdf今日头条返回的就是包含今日头条这个关键词的所有pdf文件,如下图:百度只支持:pdf...

网站seo优化技巧大全

SEO在搜索引擎中对检索结果进行排序,看谁最初是在用户的第一眼中看到的。实际上,这些排名都是通过引擎的内部算法来实现的。例如,百度算法很有名。那么,对百度SEO的优化有哪些小技巧?下面小编就会说下针对...

小技巧#10 某些高级的搜索技巧

由于某些原因,我的实验场所仅限百度。1.关键词+空格严格说来这个不能算高级,但关键词之间打空格的办法确实好用。我习惯用右手大拇指外侧敲击空格键,这个习惯在打英文报告时尤其频繁。2.site:(请不要忽...

MYSQL数据库权限与安全

权限与安全数据库的权限和数据库的安全是息息相关的,不当的权限设置可能会导致各种各样的安全隐患,操作系统的某些设置也会对MySQL的安全造成影响。1、权限系统的工作原理...

WPF样式

UniformGrid容器<UniformGridColumns="3"Rows="3"><Button/>...

mysql自动备份,并zabbix检测备份文件是否正常,备份文件大小

推荐...

MySQL学到什么程度?才有可以在简历上写精通

前言如今互联网行业用的最多就是MySQL,然而对于高级Web面试者,尤其对于寻找30k下工作的求职者,很多MySQL相关知识点基本都会涉及,如果面试中,你的相关知识答的模糊和不切要点,基...

jquery的事件名称和命名空间的方法

我们先看一些代码:当然,我们也可以用bind进行事件绑定。我们看到上面的代码,我们可以在事件后面,以点号,加我们的名字,就是事件命名空间。所谓事件命名空间,就是事件类型后面以点语法附加一个别名,以便引...

c#,委托与事件,发布订阅模型,观察者模式

什么是事件?事件(Event)基本上说是一个用户操作,如按键、点击、鼠标移动等等,或者是一些提示信息,如系统生成的通知。应用程序需要在事件发生时响应事件。通过委托使用事件事件在类中声明且生成,且通过...

前端分享-原生Popover已经支持

传统网页弹窗开发需要自己处理z-index层级冲突、编写点击外部关闭的逻辑、管理多个弹窗的堆叠顺序。核心优势对比:...

Axure 8.0 综合帖——新增细节内容

一、钢笔工具与PS或者AI中的钢笔工具一样的用法。同样有手柄和锚点,如果终点和起点没有接合在一起,只要双击鼠标左键即可完成绘画。画出来的是矢量图,可以理解为新的元件。不建议通过这个工具来画ICON图等...

PostgreSQL技术内幕28:触发器实现原理

0.简介在PostgreSQL(简称PG)数据库中,触发器(Trigger)能够在特定的数据库数据变化事件(如插入、更新、删除等)或数据库事件(DDL)发生时自动执行预定义的操作。触发器的实现原理涉及...

UWP开发入门(十七)--判断设备类型及响应VirtualKey

蜀黍我做的工作跟IM软件有关,UWP同时会跑在电脑和手机上。电脑和手机的使用习惯不尽一致,通常我倾向于根据窗口尺寸来进行布局的变化,但是特定的操作习惯是依赖于设备类型,而不是屏幕尺寸的,比如聊天窗口的...