背景介绍视频描述任务(Video Captioning Task)是一个跨模态的研究领域,旨在为给定的视频生成自然语言描述。该任务结合了计算机视觉和自然语言处理技术,具有广泛的应用场景,例如视频内容检索、辅助盲人导航、视频摘要生成以及人机交互。
任务主要内容
输入一个视频,通常包含一系列连续的图像帧以及可能的音频信号。
输出一段自然语言描述,准确、连贯地表达视频的内容,包括场景、动作、物体、人物及其关系等。
挑战
视频内容理解:需要识别视频中的物体、场景、动作和复杂事件。
时序信息建模:视频是动态数据,需要捕捉事件的时序关系。
语言生成:生成的描述需要语法正确且语义合理。
多模态信息融合:需要将视觉和听觉信号与语言生成进行高效结合。
技术背景
计算机视觉的发展
随着深度学习的兴起,卷积神经网络(CNN)等技术在图像分类、目标检测和动作识别任务中取得了显著的进展。这些技术为视频描述提供了视觉特征提取的基础。
视频作为动态序列数据,需要建模时间信息。3D-CNN、LSTM、Transformer等时间序列模型应运而生,为理解视频内容提供了有效方法。
自然语言处理的进步
RNN(如 ...
实验要求实现具有管道、重定向功能的shell,能够执行一些简单的基本命令,如进程执行、列目录等
具体要求:
设计一个C语言程序,完成最基本的shell角色:给出命令行提示符、能够逐次接受命令;
对于命令分成三种内部命令(例如help命令、exit命令等)
外部命令(常见的ls、cp等,以及其他磁盘上的可执行程序HelloWrold等)
无效命令(不是上述二种命令)
具有支持管道的功能,即在shell中输入诸如“dir | more”能够执行dir命令并将其输出通过管道将其输入传送给more。
具有支持重定向的功能,即在shell中输入诸如“dir > direct.txt”能够执行dir命令并将结果输出到direct.txt
实验目的
通过实验了解Shell实现机制。
实验环境
WSL2
Ubuntu22.04
实验内容基础知识命令类型
管道命令定义:使用管道符(|)将多个简单命令连接起来。特点:相邻两个简单命令中,左边命令的输出作为右边命令的输入。
简单命令包括以下三种类型:
外置命令:定义:Linux系统中自带的可执行文件,通常是C语言编写的程序,如ls、cp等 ...
本教程区别于其他教程在于,本教程是在WSL2+Linux 6.6.36.6下实现hide系统调用
实验要求实现一个系统调用hide,使得可以根据指定的参数隐藏进程,使用户无法使用ps或top观察到进程状态。
具体要求:
实现系统调用int hide(pid_t pid, int on),在进程pid有效的前提下,如果on置1,进程被隐藏,用户无法通过ps或top观察到进程状态;如果on置0,则恢复正常状态。
考虑权限问题,只有root用户才能隐藏进程。
设计一个新的系统调用int hide_user_processes(uid_t uid, char *binname),参数uid为用户ID号,当binname参数为NULL时,隐藏该用户的所有进程;否则,隐藏二进制映像名为binname的用户进程。该系统调用应与hide系统调用共存。
在/proc目录下创建一个文件/proc/hidden,该文件可读可写,对应一个全局变量hidden_flag,当hidden_flag为0时,所有进程都无法隐藏,即便此前进程被hide系统调用要求隐藏。只有当hidden_flag为1时,此前通过hi ...
实验内容进行Linux环境搭建,熟悉Linux基本操作。
搭建Linux环境:可选择使用虚拟机(VirtualBox、VMware)或之间安装Linux系统。也可以选择使用wsl便捷搭建Linux环境。
Linux发行版版本选择:可选择 Fedora 或 Ubuntu。
Fedora 是由 Red Hat 社区支持的开源操作系统 ,它由 Fedora 项目社区开发和维护,并得到 Red Hat 的支持。作为一个独立的发行版,Fedora 提供了最新的开源软件和技术,常被用作服务器和开发环境,是许多其他发行版(例如 Red Hat Enterprise Linux,简称 RHEL)的上游版本。
Ubuntu 是由 Canonical 公司开发的基于 Debian 的 Linux 发行版,首次发布于 2004 年。它以“用户友好性”为核心理念,提供长期支持(LTS)版本,广泛应用于桌面、服务器和云计算领域,是目前最受欢迎的 Linux 发行版之一。
特性
Fedora
Ubuntu
目标用户
开发者、高级用户
初学者、桌面用户、服务器用户
稳定性
较新(测试新技 ...
复现代码在https://github.com/Warma10032/ML-BTC
任务简介
领域背景
多标签分类(multi-label classification )指的是一个输入的样本可以同时拥有几个类别标签,比如一首歌的标签可以是流行、轻快,一部电影的标签可以是动作、喜剧、搞笑,一本书的标签可以是经典、文学等,这都是多标签分类的情况。多标签分类的一个重要特点是样本的所有标签是不具有排他性的。
处理多标签数据时,复杂的决策空间是面临的最主要的问题。与单标签分类不同,多标签分类需学习更复杂决策边界,现有多标签分类技术存在许多不足。
典型算法
复杂单分类器
通过一个复杂的单一分类器来处理多标签分类任务。分类器需要学习所有标签的决策边界。
优点:可以一次性考虑所有标签的关系,适用于特定规模的数据。
缺点:训练复杂且耗时,尤其在标签数量或数据量很大的情况下。对模型复杂度提出要求。
集成分类器
使用多个分类器的组合来处理多标签问题。
优点:灵活,可扩展,易于实现。可以利用现有的单标签分类器。
缺点:往往忽略了标签间的相关性(如集成一对多分类器),或需要显式编码标签间关系(如分 ...
学习笔记
未读OpenGL学习和编码过程中的笔记总结,代码文件在:https://github.com/Warma10032/Computer-Graphics
实验内容
在第1次实验中,我们学习了OpenGL编程的基本规范,完成了一个简单的二维卡通图像。
在第2次实验中,我们进入三维的世界,因此我们重新搭建,通过导入模型和自己定义三维图形的顶点坐标,展示了一个鸡块和棒棒糖的组合画面,并让它们旋转平移动了起来。
在第3次实验中,我们学习了阴影和明暗,因此在第2次实验的基础上,我们添加了光源,通过光源和光照函数的实现,我们的模型上有了明暗变化。
在第4次实验中,我们给模型加上了纹理,通过在片元着色器中混合纹理颜色和光照颜色,实现了纹理和光照的结合,模型和背景也更加生动。
在最终的组合实验中,我们给画面加上了天空盒,并实现了场景漫游。用天空盒替换原来的黑色背景后明显更有真实感了,简单的第一人称场景漫游也给画面加上了一些交互要素。
设计思路和原理下面是我认为在实验中的关键点的设计思路:
对物体运动的矩阵的设计
基于计算机图形学中的坐标变换理论,需要将物体从局部坐标系转换到世界坐标系(M),再转换到观察 ...
科研日记
未读AbstractVideo anomaly detection is an important research area in computer vision, with widespread applications in public safety, traffic management, healthcare, and other sectors. With the rapid development of event cameras, their high dynamic range, low latency, and low power consumption make them highly promising for anomaly detection tasks. This paper first introduces the working principles of event cameras and their advantages in the field of video anomaly detection. It then provides a detai ...
前言当我们好不容易搭建好自己的个人博客时,在搜索引擎搜索时才发现,无论是搜索网站的标题还是网址都无法搜索到,搜索不到就代表着没有流量、没人看你写的文章,这可咋办。难道辛辛苦苦搭建的网站只有知道网址的人才能访问到吗,如何打破这信息孤岛呢?下面交给你解决办法,把你的网站主动推荐给各大搜索引擎让搜索引擎收录。
由于各大搜索引擎的本质就是一个爬虫在不断爬取互联网上的内容,也许你的网站在不经意间已经被收录了。
你可以通过在搜索引擎中输入
1site:<域名> (e.g. site:xiaobaozi.cn)
若可以搜索出你的网站,则说明已经被收录。
不过你仍可以进行接下来的步骤,在各大搜索引擎的后台添加你的网站并绑定你的账号,之后你就可以在后台看到相关的流量统计和相关增加曝光度的操作。
百度收录若未被收录,可以点击提交网址
进行连接提交(这是搜索引擎用户对搜索不到的网址进行反馈提交,无法保证收录)
若要进一步提交网站可以选择
添加站点到百度我们需要登录百度搜索资源平台,登录成功之后在上方用户中心→站点管理中点击添加网站,输入域名,按照步骤走。
进入第三步验证您对网站的所有权,可 ...
原理对于利用定位检测的校园跑软件,使用fake location这个软件实现虚拟定位,进而达到足不出户刷校园跑。
前期准备fake location软件:下载地址
有定位功能的root环境(root可提高成功几率):可以是本机root/面具、带有root的模拟器、带有root的虚拟机。
演示以安卓光速虚拟机为例(光速虚拟机提供免费root功能)
下载光速虚拟机:下载地址
创建安卓7虚拟环境(初次使用按软件要求进行配置,包括进入开发者模式、无线调试等可自行百度)
导入fake location和校园跑软件
选择位置进行位置模拟(以root模式)
移动摇杆进行移动(非VIP限速1m/s)
本校解决方案(东南大学)由于本校采用的是间隔时间进行定位采样,可以在目标线路(操场)上定位多个点,再在历史定位中间依次更换虚拟定位让系统记录。
通用解决方案(提升体验)开VIP🤯
可获得快速摇杆,路线模拟(自动运行)等。
常见失败原因
未以root模式启动
需要启动基站模拟等增强功能
未给fake location足够权限
未给光速虚拟机足够权限
Transformer in Deep Learning摘要Transformer模型是一种革命性的神经网络架构,它在自然语言处理(NLP)和计算机视觉(CV)等多个领域都取得了卓越的成就。本论文旨在介绍Transformer模型的结构、以及在NLP领域和CV领域中的应用。深入探讨Transformer模型在不同领域之间的共同特点和差异。我们首先详细介绍了Transformer模型的核心结构,然后探讨了在NLP任务中的Transformer变种(如BERT和GPT),最后研究了Transformer在计算机视觉中的新兴应用(如Vision Transformer)。通过本文,读者将能够深入了解Transformer模型的工作原理以及它在不同领域中应用的优势和改进。
引言自然语言处理(NLP)和计算机视觉(CV)一直是人工智能领域的两大关键领域。这些领域的发展一直受制于模型的性能和能力,而Transformer模型的出现冲击了RNN和CNN的统治地位。在过去的几年里,Transformer模型已经成为NLP和CV任务的首选模型之一,且具有统一NLP和CV研究方法的势头。
首先,我们将详细 ...