特征提取是图像识别中的关键一环,它的作用是将输入的图片转化为固定维度的特征向量,用于后续的向量检索。好的特征需要具备相似度保持性,即在特征空间中,相似度高的图片对其特征相似度要比较高(距离比较近),相似度低的图片对,其特征相似度要比较小(距离比较远)。Deep Metric Learning用以研究如何通过深度学习的方法获得具有强表征能力的特征。
为了图像识别任务的灵活定制,我们将整个网络分为 Backbone、 Neck、 Head 以及 Loss 部分,整体结构如下图所示: 图中各个模块的功能为:
- Backbone: 指定所使用的骨干网络。 值得注意的是,PaddleClas 提供的基于 ImageNet 的预训练模型,最后一层的输出为 1000,我们需要依据所需的特征维度定制最后一层的输出。
- Neck: 用以特征增强及特征维度变换。这儿的 Neck,可以是一个简单的 Linear Layer,用来做特征维度变换;也可以是较复杂的 FPN 结构,用以做特征增强。
- Head: 用来将 feature 转化为 logits。除了常用的 Fc Layer 外,还可以替换为 cosmargin, arcmargin, circlemargin 等模块。
- Loss: 指定所使用的 Loss 函数。我们将 Loss 设计为组合 loss 的形式,可以方便地将 Classification Loss 和 Pair_wise Loss 组合在一起。
在 PP-Shitu 中, 我们采用 PP_LCNet_x2_5 作为骨干网络 Neck 部分选用 Linear Layer, Head 部分选用 ArcMargin,Loss 部分选用 CELoss,详细的配置文件见通用识别配置文件。其中,训练数据为如下 7 个公开数据集的汇总:
数据集 | 数据量 | 类别数 | 场景 | 数据集地址 |
---|---|---|---|---|
Aliproduct | 2498771 | 50030 | 商品 | 地址 |
GLDv2 | 1580470 | 81313 | 地标 | 地址 |
VeRI-Wild | 277797 | 30671 | 车辆 | 地址 |
LogoDet-3K | 155427 | 3000 | Logo | 地址 |
iCartoonFace | 389678 | 5013 | 动漫人物 | 地址 |
SOP | 59551 | 11318 | 商品 | 地址 |
Inshop | 25882 | 3997 | 商品 | 地址 |
Total | 5M | 185K | ---- | ---- |
最终的模型效果如下表所示:
模型 | Aliproduct | VeRI-Wild | LogoDet-3K | iCartoonFace | SOP | Inshop | Latency(ms) |
---|---|---|---|---|---|---|---|
PP-LCNet-2.5x | 0.839 | 0.888 | 0.861 | 0.841 | 0.793 | 0.892 | 5.0 |
- 采用的评测指标为:
Recall@1
- 速度评测机器的 CPU 具体信息为:
Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
- 速度指标的评测条件为: 开启 MKLDNN, 线程数设置为 10
- 预训练模型地址:通用识别预训练模型
自定义特征提取,是指依据自己的任务,重新训练特征提取模型。主要包含四个步骤:1)数据准备;2)模型训练;3)模型评估;4)模型推理。
首先,需要基于任务定制自己的数据集。数据集格式参见格式说明。在启动模型训练之前,需要在配置文件中修改数据配置相关的内容, 主要包括数据集的地址以及类别数量。对应到配置文件中的位置如下所示:
Head:
name: ArcMargin
embedding_size: 512
class_num: 185341 #此处表示类别数
Train:
dataset:
name: ImageNetDataset
image_root: ./dataset/ #此处表示train数据所在的目录
cls_label_path: ./dataset/train_reg_all_data.txt #此处表示train数据集label文件的地址
Query:
dataset:
name: VeriWild
image_root: ./dataset/Aliproduct/. #此处表示query数据集所在的目录
cls_label_path: ./dataset/Aliproduct/val_list.txt. #此处表示query数据集label文件的地址
Gallery:
dataset:
name: VeriWild
image_root: ./dataset/Aliproduct/ #此处表示gallery数据集所在的目录
cls_label_path: ./dataset/Aliproduct/val_list.txt. #此处表示gallery数据集label文件的地址
- 单机单卡训练
export CUDA_VISIBLE_DEVICES=0
python tools/train.py -c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml
- 单机多卡训练
export CUDA_VISIBLE_DEVICES=0,1,2,3
python -m paddle.distributed.launch \
--gpus="0,1,2,3" tools/train.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml
注意:
配置文件中默认采用在线评估
的方式,如果你想加快训练速度,去除在线评估
,只需要在上述命令后面,增加 -o eval_during_train=False
。训练完毕后,在 output 目录下会生成最终模型文件 latest
,best_model
和训练日志文件 train.log
。其中,best_model
用来存储当前评测指标下的最佳模型;latest
用来存储最新生成的模型, 方便在任务中断的情况下从断点位置启动训练。
- 断点续训:
export CUDA_VISIBLE_DEVICES=0,1,2,3
python -m paddle.distributed.launch \
--gpus="0,1,2,3" tools/train.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \
-o Global.checkpoint="output/RecModel/latest"
- 单卡评估
export CUDA_VISIBLE_DEVICES=0
python tools/eval.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \
-o Global.pretrained_model="output/RecModel/best_model"
- 多卡评估
export CUDA_VISIBLE_DEVICES=0,1,2,3
python -m paddle.distributed.launch \
--gpus="0,1,2,3" tools/eval.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \
-o Global.pretrained_model="output/RecModel/best_model"
推荐: 建议使用多卡评估。多卡评估方式可以利用多卡并行计算快速得到整体数据集的特征集合,能够加速评估的过程。
推理过程包括两个步骤: 1)导出推理模型; 2)获取特征向量
python tools/export_model.py \
-c ppcls/configs/GeneralRecognition/GeneralRecognition_PPLCNet_x2_5.yaml \
-o Global.pretrained_model="output/RecModel/best_model"
生成的推理模型位于 inference
目录,里面包含三个文件,分别为 inference.pdmodel
、inference.pdiparams
、inference.pdiparams.info
。
其中: inference.pdmodel
用来存储推理模型的结构, inference.pdiparams
和 inference.pdiparams.info
用来存储推理模型相关的参数信息。
cd deploy
python python/predict_rec.py \
-c configs/inference_rec.yaml \
-o Global.rec_inference_model_dir="../inference"
在实际使用过程中,单纯得到特征往往并不能够满足业务的需求。如果想进一步通过特征检索来进行图像识别,可以参照文档向量检索。