「人脸识别实战二」服务器端设计与实现
haoteby 2025-05-02 18:28 64 浏览
1、前言
本文是《人脸识别实战》系列文章的第二篇,主要描述服务器端各模块的详细设计,包括网络处理模块的处理流程,图像处理模块中的人脸检测与人脸识别算法的集成,以及数据库管理模块的业务逻辑与数据表的设计与实现。
人脸识别实战项目的源码地址为:
https://github.com/Oreobird/face_id.git
2、网络处理模块
2.1 消息处理流程
使用Reactor模式实现高并发处理,负责处理客户端网络连接与数据接收及发送。Reactor采用多线程+epoll的处理方式实现,同时使用单例模式定义Req_Mgt管理类,将Reactor分发来的消息请求入队,再定义Req_Processor线程取出队列中的请求作相关的业务处理,最终通过消息接口类Msg_Oper将结果发送给客户端。流程设计如下:
2.2 消息数据格式
消息格式使用Json数据,通过opencv读取的图像数据经过cv::imencode()编码为二进制数据后,再使用base64编码嵌入到Json的数据段中。封装好的Json数据使用 数据长度+数据负载 的格式进行发送和接收。具体的Json协议字段可在AIPlayer查看。
3、人脸图像处理模块
3.1 人脸检测
3.1.1 MTCNN原理简介
MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,可以认为它是一个级联的神经网络。和很多处理图像问题的卷积神经网络模型,该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。MTCNN总体可分为P-Net、R-Net和O-Net三层网络结构。这三个级联的网络分别是:
- P-Net,用于快速生成候选窗口。首先基于3层简单的CNN提取特征,然后通过一个人脸分类器判断该区域是否是人脸,同时使用边框回归和一个面部关键点的定位器来进行人脸区域的初步定位。该部分最终将输出多张可能存在人脸的区域,并作为R-Net的输入进行下一步的处理。P-Net本质上是一个单输入多输出结构的多任务卷积神经网络,包括了一个分类任务和两个回归任务。
- R-Net,用于进行高精度候选窗口过滤选择。在结构上与P-Net类似,只是最后一层使用了全连接层,对特征的选择会更加的准确。该网络最后也是由一个人脸特征分类任务和边框回归及关键点回归任务组成,最后将输出较为可信的人脸区域,供O-Net使用。
- O-Net,用于生成最终边界框与人脸关键点。在网络结构的最后同样是一个更大的256的全连接层,保留了更多的图像特征,同时再进行人脸判别、边框回归和人脸特征定位,最终输出人脸区域的左上角坐标和右下角坐标与人脸区域的五个特征点。
3.1.2 算法集成
系统通过Mtcnn_Detector()类集成了基于ncnn框架的实现的MTCNN,开源的项目地址为:
https://github.com/cpuimage/MTCNN,其中ncnn是Tencent开源的一个为手机端优化的高性能神经网络前向计算框架(
https://github.com/Tencent/ncnn)。
3.2 人脸对齐
在人脸特征提取之前,往往需要对检测到的人脸进行对齐。在实际场景中,检测器检测到的人脸常常会有一定的旋转角度,而对齐的作用就是将人脸调整到一个比较正面的角度。
本系统的人脸对齐方法比较简单,使用OpenCV的仿射变换来进行人脸的矫正。具体做法是根据MTCNN检测出的人脸区域及两个眼睛的坐标点,计算出旋转矩阵后,再调用仿射变换接口来获得对齐后的人脸图像。
3.3 人脸识别
3.3.1 FaceNet
FaceNet的网络架构与普通的卷积神经网络基本一致,但是FaceNet并没有使用传统的Softmax去进行分类学习,而是直接进行了端到端学习一个从图像到欧式空间的编码方法,然后基于这个编码再做人脸识别。如下图所示,Deep Architecture是卷积神经网络去掉softmax后的结构,经过L2的归一化之后得到特征表示Embedding,基于这个特征表示计算三元组的损失函数。
所谓的三元组就是三个样例:anchor,positive和negative。其中,anchor与positive是同一类,anchor与negative是异类,那么学习的过程就是学到一种表示,使得对于尽可能多的三元组中,anchor与positive的距离小于anchor与negative的距离,即类内距离小于类间距离。
因为很少的样本数据就可以产生大量的三元组,这对模型的收敛速度有着很大的影响。在FaceNet中使用了在线方法来选择三元组,即每训练一次mini-batch,根据当前的embedding,选择一次三元组,然后在这些三元组上计算triplet-loss,再对embedding进行更新,不断重复,直到收敛或训练到指定迭代次数。系统中使用了基于Tensorflow实现的版本,项目地址为https://github.com/davidsandberg/facenet/.
3.3.2 InsightFace原理
InsightFace算法基本流程如上图所示,它是在CosFace和SphereFace算法基础上对损失函数做了改进,在CNN网络得到特征向量后,利用余弦函数计算人脸特征和目标权重之间的夹角,然后在目标角度上增加一个附加的角余量,通过余弦函数再次得到目标logit。最后,用一个固定的特征范数重新缩放所有logits,并且后续步骤与softmax loss中的步骤完全相同。系统中使用了基于Tensorflow实现的版本,项目地址为https://github.com/luckycallor/InsightFace-tensorflow
3.4 算法集成设计与实现
3.4.1 类接口设计
为了方便对不同的人脸检测及识别算法进行扩展,采用模版模式的设计方法:编写接口类Face_Detector及Face_Recognizer,并以此为类型参数编写模板类Face_Handler。具体的类图如下所示:
3.4.2 算法集成实现
这一小节主要描述如何集成Tensorflow实现的InsightFace算法。
(1)模型载入
首先通过ReadBinaryProto()读取模型的图结构定义,然后对GPU的内存使用情况进行设置,最后根据图定义及设置创建Session,后续的预测推理需要以此Session来进行处理。
int InsightFace_Recognizer::init_session(const string &graph_path)
{
tensorflow::GraphDef graph_def;
tensorflow::SessionOptions opts;
TF_CHECK_OK(ReadBinaryProto(tensorflow::Env::Default(), graph_path, &graph_def));
//graph::SetDefaultDevice("/gpu:0", &graph_def);
opts.config.mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.5);
opts.config.mutable_gpu_options()->set_allow_growth(true);
m_session.reset(tensorflow::NewSession(opts));
TF_CHECK_OK(m_session->Create(graph_def));
return 0;
}
(2)特征提取
- 定义输入Tensor
因为输入图像使用OpenCV中的cv::Mat结构,而Tensorflow以tensorflow::Tensor作为模型的输入数据,所以需要将cv::Mat转为tensorflow::Tensor,转换的核心代码如下:
// copying the data into the corresponding tensor
for (int y = 0; y < height; ++y)
{
const double* source_row = imgs[i].ptr<double>(y);
for (int x = 0; x < width; ++x)
{
const double* source_pixel = source_row + (x * depth);
for (int c = 0; c < depth; ++c)
{
const double* source_value = source_pixel + (2 - c); //BGR2RGB
input_tensor_mapped(i, y, x, c) = *source_value;
}
}
}
- 推理获取特征
首先根据模型结构确定输入层与输出层的名称,然后定义相应的输入Tensor,接着根据之前创建好的session执行预测推理,最后获取输出的特征向量保存在vector中。基本的代码如下:
const string input_layer_1 = "input_images:0";
const string input_layer_2 = "train_phase_bn:0";
const string input_layer_3 = "train_phase_dropout:0";
const string output_layer = "embeddings:0";
Tensor train_phase(tensorflow::DT_BOOL, tensorflow::TensorShape());
train_phase.scalar<bool>()() = false;
Tensor train_phase_last(tensorflow::DT_BOOL, tensorflow::TensorShape());
train_phase_last.scalar<bool>()() = false;
std::vector<Tensor> outputs;
tensorflow::Tensor face_tensor(tensorflow::DT_FLOAT, tensorflow::TensorShape({1, height, width, depth}));
//推理
Status run_status = m_session->Run({{input_layer_1, face_tensor},
{input_layer_2, train_phase},
{input_layer_3, train_phase_last}},
{output_layer},
{},
&outputs);
//获取特征向量
auto feature = outputs[0].tensor<float, 2>();
std::vector<float> feat_vec;
for (int i = 0; i < feature.size(); ++i)
{
feat_vec.push_back(feature(i));
}
(3)相似度计算
在人脸特征比对中,使用欧式距离来进行特征比较,在某一设定阈值范围内取相似度最相近的作为识别的结果。
float cal_similarity(vector<float> &user_feat, vector<float> &face_feat)
{
cv::Mat user_feat_mat = cv::Mat(user_feat);
cv::Mat face_feat_mat = cv::Mat(face_feat);
return cv::norm(user_feat_mat, face_feat_mat, cv::NORM_L2);
}
for (int i = 0; i < m_users->size(); ++i)
{
float diff = cal_similarity(m_users->at(i).feat_vec, (*iter).feat_vec);
if (diff < threshhold && diff < min_diff)
{
min_diff = diff;
idx = i;
}
}
4、特征数据库管理模块
4.1 业务交互流程
- 数据库初始化流程
- 用户注册流程
4.2 数据库表设计
(1)用户表内容为:
(2)初始化用户表脚本
#!/bin/bash
user=AIPlayer
password=123456
mysql_exec="/usr/bin/mysql -h127.0.0.1 -u$user -p$password"
##########################
#【用户人脸特征数据库】
##########################
db=face_db
$mysql_exec -e "drop database $db"
$mysql_exec -e "create database $db"
#-------------------------# 用户表#-------------------------
echo "begin create ${db}.tbl_user table";
$mysql_exec $db -e "CREATE TABLE ${db}.tbl_user(
id varchar(18) COMMENT '唯一用户ID编号',
name varchar(100) COMMENT '用户名称',
feat_vec varchar(10000) COMMENT '人脸特征',
created_at bigint unsigned COMMENT '创建时间戳',
updated_at bigint unsigned COMMENT '上次更新时间戳',
PRIMARY KEY(id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci";
4.3 人脸特征存储格式
提取的人脸特征是float类型的1xn维数据,在存储到数据库前需要将其转化为string类型,这里的处理方式是以逗号为连接符组合每个特征数据。
相关推荐
- 一日一技:用Python程序将十进制转换为二进制
-
用Python程序将十进制转换为二进制通过将数字连续除以2并以相反顺序打印其余部分,将十进制数转换为二进制。在下面的程序中,我们将学习使用递归函数将十进制数转换为二进制数,代码如下:...
- 十进制转化成二进制你会吗?#数学思维
-
六年级奥赛起跑线:抽屉原理揭秘。同学们好,我是你们的奥耀老师。今天一起来学习奥赛起跑线第三讲二进制计数法。例一:把十进制五十三化成二进制数是多少?首先十进制就是满十进一,二进制就是满二进一。二进制每个...
- 二进制、十进制、八进制和十六进制,它们之间是如何转换的?
-
在学习进制时总会遇到多种进制转换的时候,学会它们之间的转换方法也是必须的,这里分享一下几种进制之间转换的方法,也分享两个好用的转换工具,使用它们能够大幅度的提升你的办公和学习效率,感兴趣的小伙伴记得点...
- c语言-2进制转10进制_c语言 二进制转十进制
-
#include<stdio.h>intmain(){charch;inta=0;...
- 二进制、八进制、十进制和十六进制数制转换
-
一、数制1、什么是数制数制是计数进位的简称。也就是由低位向高位进位计数的方法。2、常用数制计算机中常用的数制有二进制、八进制、十进制和十六进制。...
- 二进制、十进制、八进制、十六进制间的相互转换函数
-
二进制、十进制、八进制、十六进制间的相互转换函数1、输入任意一个十进制的整数,将其分别转换为二进制、八进制、十六进制。2、程序代码如下:#include<iostream>usingna...
- 二进制、八进制、十进制和十六进制等常用数制及其相互转换
-
从大学开始系统的接触计算机专业,到现在已经过去十几年了,今天整理一下基础的进制转换,希望给还在上高中的表妹一个入门的引导,早日熟悉这个行业。一、二进制、八进制、十进制和十六进制是如何定义的?二进制是B...
- 二进制如何转换成十进制?_二进制如何转换成十进制例子图解
-
随着社会的发展,电器维修由继电器时代逐渐被PLC,变频器,触摸屏等工控时代所替代,特别是plc编程,其数据逻辑往往涉及到数制二进制,那么二进制到底是什么呢?它和十进制又有什么区别和联系呢?下面和朋友们...
- 二进制与十进制的相互转换_二进制和十进制之间转换
-
很多同学在刚开始接触计算机语言的时候,都会了解计算机的世界里面大多都是二进制来表达现实世界的任何事物的。当然现实世界的事务有很多很多,就拿最简单的数字,我们经常看到的数字大多都是十进制的形式,例如:我...
- 十进制如何转换为二进制,二进制如何转换为十进制
-
用十进制除以2,除的断的,商用0表示;除不断的,商用1表示余0时结束假如十进制用X表示,用十进制除以2,即x/2除以2后为整数的(除的断的),商用0表示;除以2除不断的,商用1表示除完后的商0或1...
- 十进制数如何转换为二进制数_十进制数如何转换为二进制数举例说明
-
我们经常听到十进制数和二进制数,电脑中也经常使用二进制数来进行计算,但是很多人却不清楚十进制数和二进制数是怎样进行转换的,下面就来看看,十进制数转换为二进制数的方法。正整数转二进制...
- 二进制转化为十进制,你会做吗?一起来试试吧
-
今天孩子问把二进制表示的110101改写成十进制数怎么做呀?,“二进制”简单来说就是“满二进一”,只用0和1共两个数字表示,同理我们平常接触到的“十进制”是“满十进一”,只用0-9共十个数字表示。如果...
- Mac终于能正常打游戏了!苹果正逐渐淘汰Rosetta转译
-
Mac玩家苦转译久矣!WWDC2025苹果正式宣判Rosetta死刑,原生游戏时代终于杀到。Metal4光追和AI插帧技术直接掀桌,连Steam都连夜扛着ARM架构投诚了。看到《赛博朋克2077》...
- 怎么把视频的声音提出来转为音频?音频提取,11款工具实测搞定
-
想把视频里的声音单独保存为音频文件(MP3/AAC/WAV/FLAC)用于配音、播客、听课或二次剪辑?本文挑出10款常用工具,给出实测可复现的操作步骤、优缺点和场景推荐。1)转换猫mp3转换器(操作门...
- 6个mp4格式转换器测评:转换速度与质量并存!
-
MP4视频格式具有兼容性强、视频画质高清、文件体积较小、支持多种编码等特点,适用于网络媒体传播。如果大家想要将非MP4格式的视频转换成MP4的视频格式的话,可以使用MP4格式转换器更换格式。本文分别从...