opencv 4.5. 5.5新版本的亮点

话说OpenCV 4.5.5 这个新版本的更新消息出来了,这次更新主要是在音频处理、深度学习和跨平台性能上有了很大的改进。咱们先来看看几个主要的亮点。 先说第一个,音频接口终于整合到VideoCapture里面了。通过MSMF和GStreamer这两个后端,麦克风的声音还有文件里的音频流都能直接读取了。你只需要像操作视频一样指定设备索引或者文件名,就能实时拿到音频帧,这对语音识别还有声纹验证这些场景可是帮了大忙。 第二个改动是SOVERSION规则优化。官方解决了个21178号的补丁问题,把Linux和Windows的处理逻辑统一了。这下就不用担心不同编译环境导致动态链接器不兼容了,给跨发行版部署省了不少心。 第三个就是DNN模块的升级。ONNX一致性测试套件加进来了,能覆盖模型的输入输出和层节点,保证ONNX导入不会出问题。激活层和层融合方面,对ReLU、ELU这些激活层做了内核融合处理,在ARM和x86上平均提速15%。还有内置的Protobuf从3.5.2升级到了3.19.1,二进制尺寸缩小了18%,算法也更高效了。 第四个是RISC-V支持更强了。通过SIMD和指令集优化,RISC-V平台的图像处理性能提升超过了20%。 第五个是OpenVINO 2021.4.2 LTS被接入进来了。英特尔的推理引擎后端同步更新,兼容这个新的长期支持版本,给想锁定长期支持的开发者铺好了路。 接下来看看opencv_contrib里的几个功能虽然没合并进主仓库但已经很稳定了:二维码编码器支持QRCode和DataMatrix等格式;WebNN加持的OpenCV.js用WebNN API把DNN推理加速到了WebAssembly的三倍以上;Bayer命名标准化多了些常用的字符串常量;Radon变换方便做医学影像分析;F-DBSCAN超像素算法生成的图像区域更均匀;拼接工具能自动合成全景图;CCL算子测试加强了边缘检测和形态学运算的单元测试;ArUco教程加了实战案例教你怎么调参。 最后展望一下未来:OpenCV要把“听”加进“看”的行列里了。从语音识别到麦克风阵列再到声学特征提取,一行代码就能搞定中英文识别和合成。以后OpenCV可不仅仅是视觉库了,它会变成一个真正的“多媒体计算引擎”。