Paper Reading: Are you still on track!? Catching LLM Task Drift with Activations

时间：2024-12-13 16:12:03浏览次数：10

标签：still Task track ROC Drift LLM Activations Reading

Abstract

Task: Defense LLM from prompt injection attacks
Tool: TaskTracker
Methods: use activation deltas( the difference in activations before and after processing external data ) with a simple linear classifier
Experiment
1. an out-of-distribution test set
- Result: can detect drift with near-prefect ROC AUC
Result:
1. 无需微调或者训练
2. can detect drift with near-prefect ROC AUC
3. 包含超过500k实例的数据集
4. representations from 6 SoTA language models
5. a suite of inspection tools
Github: https://github.com/microsoft/TaskTracker

Good sentences: We evaluate these methods by making minimal assumptions about how user’s tasks, system prompts, and attacks can be phrased.

1. Introduction

标签：still,Task,track,ROC,Drift,LLM,Activations,Reading
From： https://www.cnblogs.com/xuesu/p/18605150

鸿蒙Next Track 使用方法总结
一、概述@Track是class对象的属性装饰器。当class对象是状态变量时，@Track装饰的属性发生变化，只会触发该属性关联的UI更新；未被标记的属性不能在UI中使用。从APIversion11开始，该装饰器支持在ArkTS卡片中使用。二、装饰器说明装饰器参数：无。可装饰的变量：class对象的非静态成员......
QAccelerometerReading 类
QAccelerometerReading类QAccelerometerReading类用于报告设备在X、Y和Z轴上的线性加速度。它是Qt的传感器模块（Sensors）的一部分，继承自QSensorReading。核心功能报告线性加速度：提供设备在X、Y和Z三个方向上的加速度值。加速度单位为米/秒²（m/s²）。应用......
GoTrackIt应用指南：共享单车时空轨迹可视化
GoTrackIt平台集成了对Kepler.gl可视化工具的部分功能进行了封装，通过引入KeplerVis类，显著简化了地理空间数据分析与展示的过程。利用这一类，开发者和数据分析师能够在网页端快速实现复杂地理数据的动态可视化，而无需深入掌握Kepler.gl的底层细节。KeplerVis提供了一系列......
间接分支追踪（Indirect Branch Tracking，IBT）是 Intel Control-flow Enforcement Techno
间接分支追踪（IndirectBranchTracking，IBT）是IntelControl-flowEnforcementTechnology(CET)的核心组件之一，旨在加强程序的控制流保护，防止恶意代码通过控制流劫持技术（如ROP（Return-OrientedProgramming）或JOP（Jump-OrientedProgramming））来绕过安全机制，执行恶意行为。IBT的......
[PaperReading] HuBERT: Self-Supervised Speech Representation Learning by Masked
目录HuBERT:Self-SupervisedSpeechRepresentationLearningbyMaskedPredictionofHiddenUnitsTL;DRMethodLearningtheHiddenUnitsforHuBERTRepresentationLearningviaMaskedPredictionLearningwithClusterEnsemblesImplementationExperiment效果可视化总结与......
Paper Reading: Relating instance hardness to classifcation performance in a d
目录研究动机文章贡献实例空间分析ISA框架实例空间构造足迹分析单个数据集的ISA硬度度量指标算法和性能评估特征选择实例空间表示和足迹实验结果案例研究：对于COVIDprognosis数据集的ISA分析案例研究：使用ISA检测COMPAS数据集算法偏差案例分析：使用ISA分析标签噪声数据......
OSTrack：Joint Feature Learning and Relation Modeling for Tracking: A One-Stream F
Abstract问题：传统的双流跟踪框架对目标提取的特征不够具体。特征提取和关系建模是分开进行的，导致算法在区分目标和背景方面的能力有限。两流、两阶段框架容易受到性能-速度困境的影响。解决：提出一种新的单流跟踪框架，OSTrack通过桥接具有双向信息流的模板搜索图像来统一特......
点跟踪论文—CoTracker: It is Better to Track Together使用Transform的时间与空间注
CoTracker:ItisBettertoTrackTogether使用Transform的时间与空间注意力机制的密集点联合追踪算法详细解析文章概括总结：在之前学习的TrackingEverythingEverywhereAllatOnce(2023ICCV最佳学生论文)与RAFT:RecurrentAll-PairsFieldTransformsforOpticalF......
Production Tracking是什么？
【大家好，我是唐Sun，唐Sun的唐，唐Sun的Sun。一站式数智工厂解决方案服务商】ProductionTracking，即生产跟踪，是对生产过程进行全面、实时监控和记录的一种管理手段。它涵盖了从原材料采购、生产计划制定、生产工序执行，到产品最终完成的整个生产流程。通过各种技术手段，如传感器、......
OptiTrack与Xsens光、惯动捕中用于动画制作的尖端设备对比
随着动画、电影、游戏等数字内容行业的迅速发展，捕捉演员的动作并将其转化为虚拟角色的技术越来越受到重视。两种主要的动作捕捉技术——光学捕捉系统和惯性动作捕捉系统——代表了当前市场的最前沿。本文将对比两种技术的代表性设备：OptiTrack的光学动作捕捉系统和Xsens的惯性动......

Paper Reading: Are you still on track!? Catching LLM Task Drift with Activations

Abstract

1. Introduction

相关文章

赞助商

阅读排行