opencv 4.5. 5.5新版本的亮点

话说OpenCV 4.5.5 这个新版本的更新消息出来了，这次更新主要是在音频处理、深度学习和跨平台性能上有了很大的改进。咱们先来看看几个主要的亮点。先说第一个，音频接口终于整合到VideoCapture里面了。通过MSMF和GStreamer这两个后端，麦克风的声音还有文件里的音频流都能直接读取了。你只需要像操作视频一样指定设备索引或者文件名，就能实时拿到音频帧，这对语音识别还有声纹验证这些场景可是帮了大忙。第二个改动是SOVERSION规则优化。官方解决了个21178号的补丁问题，把Linux和Windows的处理逻辑统一了。这下就不用担心不同编译环境导致动态链接器不兼容了，给跨发行版部署省了不少心。第三个就是DNN模块的升级。ONNX一致性测试套件加进来了，能覆盖模型的输入输出和层节点，保证ONNX导入不会出问题。激活层和层融合方面，对ReLU、ELU这些激活层做了内核融合处理，在ARM和x86上平均提速15%。还有内置的Protobuf从3.5.2升级到了3.19.1，二进制尺寸缩小了18%，算法也更高效了。第四个是RISC-V支持更强了。通过SIMD和指令集优化，RISC-V平台的图像处理性能提升超过了20%。第五个是OpenVINO 2021.4.2 LTS被接入进来了。英特尔的推理引擎后端同步更新，兼容这个新的长期支持版本，给想锁定长期支持的开发者铺好了路。接下来看看opencv_contrib里的几个功能虽然没合并进主仓库但已经很稳定了：二维码编码器支持QRCode和DataMatrix等格式；WebNN加持的OpenCV.js用WebNN API把DNN推理加速到了WebAssembly的三倍以上；Bayer命名标准化多了些常用的字符串常量；Radon变换方便做医学影像分析；F-DBSCAN超像素算法生成的图像区域更均匀；拼接工具能自动合成全景图；CCL算子测试加强了边缘检测和形态学运算的单元测试；ArUco教程加了实战案例教你怎么调参。最后展望一下未来：OpenCV要把“听”加进“看”的行列里了。从语音识别到麦克风阵列再到声学特征提取，一行代码就能搞定中英文识别和合成。以后OpenCV可不仅仅是视觉库了，它会变成一个真正的“多媒体计算引擎”。