视觉

2025-01-2303现代计算机视觉入门之：什么是图片特征编码
##系列文章目录##01现代计算机视觉入门之：什么是图片（6700字/25图）02现代计算机视觉入门之：什么是视频（4900字/22图）03现代计算机视觉入门之：什么是图片特征编码（4000字/16图）04现代计算机视觉入门之：什么是图片分类05现代计算机视觉入门之：什么是目标检测06现代计算机视觉入门之：什么
2025-01-22【计算机视觉】人脸识别
一、简介人脸识别是将图像或者视频帧中的人脸与数据库中的人脸进行对比，判断输入人脸是否与数据库中的某一张人脸匹配，即判断输入人脸是谁或者判断输入人脸是否是数据库中的某个人。人脸识别属于1：N的比对，输入人脸身份是1，数据库人脸身份数量为N，一般应用在办公室门禁，疑犯追踪；
2025-01-2102现代计算机视觉入门之：什么是视频
##系列文章目录##01现代计算机视觉入门之：什么是图片（6700字/25图）02现代计算机视觉入门之：什么是视频（4900字/22图）03现代计算机视觉入门之：什么是图片特征编码04现代计算机视觉入门之：什么是图片分类05现代计算机视觉入门之：什么是目标检测06现代计算机视觉入门之：什么是图像分割
2025-01-207. 计算机视觉
计算机视觉（ComputerVision，简称CV）是人工智能（AI）领域中的一个重要分支，旨在使计算机能够像人类一样“看”并理解数字图像或视频。它结合了计算机科学、数学、图像处理、模式识别、机器学习等多个学科，广泛应用于图像识别、目标检测、图像生成、视频分析等领域。计算机视觉的核心
2025-01-20机器视觉在医疗影像分析中的应用：助力放射科医生精准诊断
在现代医疗领域，影像学检查如X光、CT扫描和MRI等是诊断疾病的重要手段。随着技术的不断发展，机器视觉算法在医疗影像分析中的应用日益广泛，为放射科医生提供了强大的辅助工具，极大地提高了诊断的准确性和效率。本文将探讨机器视觉在医疗影像分析中的具体应用及其对医疗诊断带来的变
2025-01-20计算机视觉实战应用OpenCV
9.0图片的旋转矫正技术实现过程结果：我们要对文字进行校正：如何实现？以下是实现过程：导入模块：importcv2：用于图像处理操作，如读取、显示图像，图像边界扩展，直线检测，图像旋转等。importnumpyasnp：用于处理数组数据，进行傅里叶变换等操作。frommatplotlibimportpyplotas
2025-01-17视觉语言模型——原理、模型架构、训练方法
1.概述近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能。随着技术的发展，多模态学习的重要性和必要性已经慢慢展现。视觉语言学习作为多模态学习的重要部分，得到国内外研究人员的广泛关注。得益于Transformer框架的发展，越来越多的预
2025-01-15【西南石油大学电气信息学院主办，EI检索稳定 | SPIE (ISSN: 0277-786X)出版】2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)
2025年计算机视觉研究进展与应用国际学术会议(ACVRA2025)2025InternationalConferenceonAdvancesinComputerVisionResearchandApplications2025年2月28-3月2日广州会议官网：www.acvra.org【更多详情】EI检索稳定| 西南石油大学电气信息学院主讲嘉宾：孟
2025-01-14基于深度学习的视觉检测小项目（十三）资源文件的生成和调用
在使用PySide6进行开发时，管理应用程序的资源（如图标、图片、字体、样式表、音视频等）是一个常见的任务。PySide6提供了一个工具pyside6-rcc，它能够将资源文件（.qrc）编译成Python模块，然后在程序中加载和使用。基础知识：PySide6的资源文件（.qrc文件）简介以及RCC
2025-01-14地平线Vision Mamba：超越ViT，最具潜力的下一代通用视觉主干网络
•VisionMamba论文链接：https://arxiv.org/abs/2401.09417•项目主页：https://github.com/hustvl/Vim简介本文的工作VisionMamba[1]发表在ICML2024。研究的问题是如何设计新型神经网络来实现高效的视觉表示学习。该任务要求神经网络模型能够在处理高分辨率图像时既保持
2025-01-13【cs.CV】25.1.11 arxiv更新速递
25.1.1012:00-25.1.1112:00共更新99篇—第1篇----=====DecentralizedDiffusionModels
2025-01-12计算机视觉
计算机视觉是人工智能的一个重要分支，它让计算机能够“看”和“理解”图像和视频中的内容。主要目标：图像识别：识别图像中的对象、场景和个体。目标检测：在图像中定位对象并识别其类别。图像分割：将图像分割成多个区域或对象。姿态估计：估计人或对象的三维姿态。场景重建：从图像中恢复
2025-01-11视觉格式化模型 - 定位
定位视觉格式化模型，大体上将页面中盒子的排列分为三种方式：常规流浮动：float定位：position定位：手动控制元素在包含块中的精准位置涉及的CSS属性：positionposition属性默认值：static，静态定位（不定位）relative：相对定位absolute：绝对定位fixed：固定定位一个元素，只要position的
2025-01-10BOOST 在计算机视觉方面的应用及具体代码分析
摘要：随着计算机视觉技术的飞速发展，各种高效的库和工具被广泛应用。BOOST作为一个功能强大、涵盖众多领域的C++库，在计算机视觉开发中也有着诸多实用之处。本文详细介绍了BOOST在计算机视觉的图像滤波、特征提取、多线程加速以及机器学习辅助等方面的应用，并通过具体代码深
2025-01-09Synthesia技术浅析（五）：计算机视觉
Synthesia 的计算机视觉模块涵盖了面部捕捉、动作捕捉和图像处理等多个方面。一、面部捕捉1.关键组件面部捕捉是 Synthesia 计算机视觉模块的重要组成部分，主要依赖于 FacialLandmarkDetection 和 3DFaceModeling 技术。2.过程模型详解2.1面部关键点检测（Faci
2025-01-09BOOST 在计算机视觉方面的应用及具体代码分析（二）
摘要：本论文聚焦于BOOST库在计算机视觉领域的多元应用，深入探究其在图像预处理、目标识别、图像分割以及运动分析等关键任务中的作用机制。通过详实的代码剖析，揭示BOOST如何助力开发人员优化算法、提升性能，进而推动计算机视觉技术迈向新高度，为相关领域的研究与实践提供坚实
2025-01-08世界模型和空间智能
空间思考：多模态大型语言模型如何看待、记忆和回忆空间VSI-Bench：我们引入了一个高质量的基准，用于评估MLLM的3D、基于视频的视觉空间智能评估：我们在开源和闭源MLLM上对VSI-Bench进行了评估，发现MLLM表现出有竞争力的（尽管不如人类）视觉空间智能。语言分析：我们将VSI-
2025-01-08机器视觉技术发展及高校教学
一、发展历程理论构想阶段机器视觉技术起源于20世纪50年代，当时人们开始构想用机器来模拟人类的视觉功能。萌芽阶段到了20世纪70年代，随着计算机图像处理技术的出现，机器视觉技术开始萌芽。此时的技术虽然尚处于初级阶段，但已经为后来的发展奠定了基础。技术发展阶段80年代，CC
2025-01-07视觉格式化模型 - 浮动
浮动视觉格式化模型，大体上将页面中盒子的排列分为三种方式：常规流浮动定位应用场景文字环绕横向排列浮动的基本特点修改float属性值为：left：左浮动，元素靠上靠左right：右浮动，元素靠上靠右默认值为none当一个元素浮动后，元素必定为块盒(更改display属性为block)浮动
2025-01-07【计算机视觉】特征提取与匹配
图像特征包含了图像的某种标志性星系，从图像上可以直接观察到角点、边缘、轮廓、纹理、颜色等特征。1.特征提取1.1SIFTSIFT是一种局部图像特征，它对旋转、尺度缩放、亮度变化具有不变形，并且一定程度上对噪声、遮挡等也保持稳定。主要有以下几步：尺度空间的极值点检测定位
2025-01-07Powerbi官方认证！2025年入行数据分析
要跳槽？要入行数据分析。要入手一个靠谱知名度高的证书？PL-300考虑吗？PowerBIDataAnalystAssociate（PowerBI数据分析师助理）。PL-300微软数据分析师认证(完整大纲)第1章初识PowerBI01 PowerBI的优势02 PL300课程大纲设计03 安装Powe
2025-01-07视觉格式化模型 - 常规流
常规流盒模型：规定单个盒子的规则视觉格式化模型（布局规则）：页面中的多个盒子排列规则视觉格式化模型，大体上将页面中盒子的排列分为三种方式：常规流浮动定位常规流布局常规流、文档流、普通文档流、常规文档流所有元素，默认情况下，都属于常规流布局总体规则：块盒独占一行，行盒
2025-01-07机器视觉 - yolo 调参
大小目标的分类小目标,尺寸3232以下,或者长宽比超过20大目标,尺寸9696以上中目标,介于大小目标之间的尺寸被检查物size如果小于15*15,效果可能很差,如要检测小物体最好搭配yolov8P2模型.另外也可以搭配SAHI库进行tile平铺推理,或者实验YoloNAS.yolov8模型
2025-01-06计算机视觉：解锁未来智能的钥匙及其代码实践
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨
2025-01-05【视觉SLAM:五、非线性优化】
状态估计问题状态估计问题是SLAM、目标跟踪、机器人导航等领域的核心问题，其目标是通过测量数据估计系统的状态（例如位姿、速度等）。它通常通过优化方法进行求解。批量状态估计与最大后验估计批量状态估计批量状态估计是通过所有观测数据一次性优化所有状态的过程：