使用具有i.MX8M+应用程序处理器的并发机器学习推理网络

ghost110 · 发表于 2021-8-10 17:19:43

本文来自著名的【NXP官网】自己翻译分享了一下。

大多数研究论文集中在特定任务的一个机器学习(ML)模型上，分析处理架构在执行该模型时实现的准确性和有效性，但在该领域部署实际解决方案时，还有许多额外的考虑。包括专用神经网络处理单元(NPU)在内的技术在NXPi.MX8MPlus应用处理器中提供2.3吨的加速度，为客户使用机器学习和视觉的广泛应用提供选择和灵活性。大角星网络公司开发了一个监控银行ATM位置的应用程序，证明了安全边缘应用程序所需的多功能性和技术。

我们邀请我们的同事，大角星创新总监大卫·斯蒂尔分享有关该项目及其发展方法的细节：

大角星团队最近与一家银行参与了一个项目，以监控他们的自动取款机位置。该银行希望防止自动取款机区拥挤，并限制戴口罩的人进入。这个应用程序是边缘AI的一个理想例子，因为边缘是数据源的位置和需要执行本地操作的位置。它也带来了一些有趣的挑战。

对样本数据的分析显示，随着视角更加自上而下，小封闭ATM空间中常见的急性相机角导致了检测置信度的丧失（图1）。

图1-导致检测可信度丧失的急性/高角度视角

此外，该应用程序还需要区分戴口罩的人和不戴口罩的人。这并没有简单地提高对现有班级的检测能力，包括戴口罩的人那么简单。头盔或其他面部防护罩的外观也可以被认为是个人防护设备(PPE)（图2），因此需要多个新的检测类别。

此外，该行希望扩展分析，以发现可疑行为，包括游荡。

图2-单独检测到的头盔和口罩类别

为了提高检测可信度并向网络添加新的类，需要使用特定领域的数据和模型微调或重新训练。这个过程是从边缘离线完成的，结果测量与地面真实数据集。这个过程是迭代的，但通过使用特定领域的数据，结果提供了关键的模型改进。

一旦模型经过训练、微调和验证，模型就可以移动到i.MX8MPlus边缘硬件上，该硬件具有专用的2.3TOPsNPU。为了有效地利用NPU，需要将模型从其本机的32位浮点(FP32)精度转换为8位整数(INT8)。这种量化过程可能会导致一些精度损失，需要重新验证。

需要一个运行时推理引擎来将模型加载到i.MX8MPlus中。NXPeIQ™机器学习(ML)软件开发环境提供了经过验证的手臂®NN和张流精简推理引擎的移植和验证版本；但是，边缘运行时版本并不支持所有类型网络所需的所有层——更新的模型和较不受欢迎的模型往往不太广泛地支持。

为了帮助减少训练和部署边缘人工智能系统所需的时间，大角星提供了一个包含使用不同精度的预构建模型的目录。这些模型经过预先验证，以支持所有主要的边缘运行时；臂NN、张镜流精简版和张镜RT，支持CPU、GPU和NPU。工具可用于训练或微调模型，以及数据集管理，图像刮取和增强。与其他运行相同模型的其他公开可用系统相比，这种优化的运行时、量化模型和NPU硬件组合的结果可以提高40倍（图3）性能。

图3-使用边缘运行时、量化和NPU硬件优化性能

一旦模型在边缘有效地运行，就需要分析输出。如果分析是对一个静止的图像进行的，一个二进制分类可以确定是否存在PPE。随着现场视频，这变得更加困难，因为部分闭塞和身体姿势将导致检测结果的可变性。为了提高精度，需要在多个帧上进行更智能的决定。要做到这一点，就需要跟踪每个唯一的人，以获得更大的样本。运动模型跟踪是一种简单的轻量级方法，适合这一任务，然而，它依赖于连续检测。碰撞、障碍物或人员离开和重新进入视野将导致轨道丢失。因此，要检测漫游，需要一种更健壮的跟踪方法，能够重新识别，而不管时间或空间如何。

重新识别是通过使用一个生成视觉外观嵌入的网络来完成的。该工作流要求对象检测网络将本地化、帧和类信息传递给嵌入网络（图4）。网络和数据流之间的同步至关重要，因为任何时间倾斜都可能导致不正确的引用。输出与运动模型数据进行了比较，并确定了身份分配。嵌入可以在多个摄像头系统之间共享，它们可以用于档案搜索，创建活动的监视列表，甚至通过应用聚类技术进一步进行后处理。

图4-比较运动和视觉外观跟踪工作流

在运动模型跟踪中添加一个视觉外观嵌入需要处理每个检测到的对象。因此，更多的对象等于需要更多的处理。在我们的应用程序中，人数天生就受到可用的物理空间的限制。然而，有了更大的视野，这可能会出现一个重大的瓶颈。

为了解决这个问题，大角星开发了一种可视化管道架构，其中不同的处理阶段由节点表示，如推理、算法、数据或外部服务。每个节点都像一个微服务，并通过紧密同步的序列化数据流相互连接。这些节点一起创建了一个从图像采集到本地操作的完整的视觉管道。对于基本的应用程序，管道节点可以在相同的物理资源上运行。更复杂的管道可以有节点分布在硬件上，包括cpu、gpu、npu，甚至是云。管道在运行时编排，使它们无限灵活和可扩展，并有助于防止未来的边缘投资。每个节点都被谨慎地包含化，这使得替换系统的一部分变得很简单，例如，推理模型可以在不中断系统其他部分的情况下进行更新，即使模型定时发生了变化。

这种管道架构是大角星Brinq边缘创建者SDK的核心，使将人工智能性能扩展到一个物理处理器之外成为可能。例如，一个i.MX8MPlus可以执行检测，而第二个i.MX8MPlus可以生成嵌入。这些设备可以在每个处理器上两个专用以太网mac中的网络结构中很容易地相互连接。为了更进一步，该软件可以与大角星图谱硬件平台结合，该平台可以使用包括i.MX8MPlus在内的多种硬件配置扩展到187fps（图5）。

阅读全文

[分享] 使用具有i.MX8M+应用程序处理器的并发机器学习推理网络

浏览过的版块

站长推荐 /3