首页 > 其他分享 >【Web安全之机器学习】①分析邮箱数据

【Web安全之机器学习】①分析邮箱数据

时间:2024-04-24 22:55:42浏览次数:32  
标签:Web www 机器 gr http 垃圾邮件 邮箱 邮件 Enron

Enron数据集:https://www2.aueb.gr/users/ion/data/enron-spam/
Enron(安然公司)在2001年宣告破产之前,拥有约21000名雇员,曾是世界上最大的电力、天然气以及电讯公司之一,2000年披露的营业额达1010亿美元之巨。公司连续六年被财富杂志评选为“美国最具创新精神公司”,然而真正使Enron公司在全世界声名大噪的,却是这个拥有上千亿资产的公司2002年在几周内破产,以及持续多年精心策划、乃至制度化系统化的财务造假丑闻。Enron欧洲分公司于2001年11月30日申请破产,美国本部于2日后同样申请破产保护。但在其破产前的资产规模为498亿美元,并有312亿的沉重债务。过度膨胀的快速发展使其无法应对经济环境的逆转,从而导致无法经营运作状况的恶化,最终以破产结束企业。
机器学习领域使用Enron公司的归档邮件来研究文档分类词性标注垃圾邮件识别等,由于Enron的邮件都是真实环境下的真实邮件,非常具有实际意义。
本节使用的Enron数据集是经过人工标注过的正常邮件和垃圾邮件,属于狭义的Enron数据集合,广义的Enron数据集指全量真实且未被标记的Enron公司归档邮件。
Enron数据集合使用不同文件夹区分正常邮件和垃圾邮件。

正常邮件内容举例如下:
Subject: christmas basketsthe christmas baskets have been ordered .we have ordered several baskets .individual earth - sat freeze - notissmith barney group basketsrodney keys matt rodgers charlienotis jon davis moveteamphillip randle chris hydeharveyfreesefaclities

垃圾邮件内容举例如下:
Subject: fw : this is the solution i mentioned lscoothank you ,your email address was obtained from a purchased list ,reference # 2020 mid = 3300 . if you wish to unsubscribefrom this list , please click here and enteryour name into the remove box . if you have previously unsubscribedand are still receiving this message , you may email our abusecontrol center , or call 1 - 888 - 763 - 2497 , or write us at : nospam ,6484 coral way , miami , fl , 33155 " . 2002web credit inc . all rights reserved .

Enron数据集主页

以下是readme.txt的翻译结果:

这个目录包含了 Enron-Spam 数据集,正如在以下论文中描述的:

V. Metsis, I. Androutsopoulos 和 G. Paliouras,《Spam Filtering with Naive Bayes - Which Naive Bayes?》,第3届电子邮件和反垃圾邮件会议论文集(CEAS 2006),2006年,美国加利福尼亚州山景城。

"preprocessed" 子目录包含了在论文实验中使用的预处理格式中的消息。每条消息都在单独的文本文件中。文件名开头的数字是“到达顺序”。

"raw" 子目录包含了消息的原始形式。已删除非拉丁编码的垃圾邮件消息,发送者在“To:”、“Cc:”或“Bcc”字段中发送给自己的正常邮件消息,以及少量感染病毒的消息,但没有进行其他修改。"raw" 子目录中的消息数量多于"preprocessed" 子目录中的消息,因为:(a) 在“raw”形式中保留了重复项,(b) 在预处理过程中,正常邮件和/或垃圾邮件消息被随机抽样以获得所需的正常邮件:垃圾邮件比率。有关更多详细信息,请参阅论文。

Enron-Spam 数据集可从以下网址获取:http://www.iit.demokritos.gr/skel/i-config/http://www.aueb.gr/users/ion/publications.html

该论文可从以下网址获取:http://www.ceas.cc/http://www.aueb.gr/users/ion/publications.html

现在的进度,还在翻译论文......

标签:Web,www,机器,gr,http,垃圾邮件,邮箱,邮件,Enron
From: https://www.cnblogs.com/o-O-oO/p/18156556

相关文章

  • Converge: QoE-driven Multipath Video Conferencing over WebRTC 概略
    这是一片2023sigcomm的文章。论文指出多摄像头(multiplecamera)和高分辨率(highresolution)场景下,视频会议的QoE还有提升空间,而作者将提升QoE的目光转到多路传输(multipath)上。所以总体来看这是一篇利用多路传输来优化视频会议体验的文章。常用的多路协议包括MPTCP,MPQUIC,MPRTP经过......
  • web安全-SQL注入(sqli)
    web安全-SQL注入(sqli)第一关基于报错的单引号字符型GET注入查看源码单引号,确认存在注入点:http://127.0.0.1/sqli/Less-1/?id=1'查询字段数:从1尝试到4,3没报错,4报错说明字段数为3http://127.0.0.1/sqli/Less-1/?id=1'orderby1,2,3,4--+因为这里有回显,所以使用union......
  • [MDP.BlazorCore] 快速建立跨Web、App執行的BlazorApp專案
    團隊資源受限的時候,使用Blazor開發應用系統,只需開發一份程式碼及使用一種程式語言,就同時產出Web跟App應用系統。本篇文章,紀錄使用MDP.BlazorCore所提供的樣板,快速建立跨Web、App執行的BlazorApp專案。為自己留個紀錄,也希望能幫助到有需要的開發人員。.安裝指令:dotnetnewinstal......
  • 程序的机器级表示
    常数,变量和运算一、常数intf(){return0x123;/*291*/}intg(){return-1;}inth(){return0x1234;/*4660*/}inti(){return0xbb8;/*3000*/}在C中看这些常数如何被装入计算机中,首先看0x123,十进制表示为291,正好可以被addi的立即数表示,反汇编结果如下......
  • CISCN2023初赛-web复现
    Unzip       简单的软链接,都玩烂了。先创个软链接连接到/var/www/html,然后再创个同名文件夹,在这个文件夹下写马,传上去后等效在/var/www/html上写马,直接连接读flag就行了。deserbugjava审计。很显然的反序列化,bugstr传参。lib中出了hutool还有CC3.2.2,但CC自......
  • PlayerSettings.WebGL.emscriptenArgs设置无效的问题
    1)PlayerSettings.WebGL.emscriptenArgs设置无效的问题2)java.lang.NoSuchMethodError的不明崩溃问题3)UE电影摄像机旋转问题4)Android设备游戏切后台后唤起,有概率变卡且黑屏这是第383篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力大家更......
  • 使用smtp协议发送邮件(借用腾讯邮箱服务器)
    SMTP简单邮件传输协议(SimpleMailTransferProtocol)SMTP的目标是可靠,高效的传输邮件。使用C/S架构(默认端口25)协议:即约定和规范,不同的程序可以通过相同的协议来解析数据,从而提高数据的交互性。市面上有很多第三方组件,根据协议制定了能够让我们进行快速的搭建程序的脚手架......
  • 企业邮箱超大附件怎么发送?给你一个妙招
    随着文件体量越来越大,越来越多的企业需要发送邮箱超大附件,那么,企业邮箱超大附件怎么发送,才能又快又安全呢?今天就为大家解答一下。 首先,我们看看传统的邮箱发送附件会存在哪些问题:1、附件大小限制:大多数邮件系统对附件大小有限制,超出限制的文件无法通过邮件直接发送。2、服务......
  • 使用SSH从公网服务器简易使用内网任意机器服务,比如从外部下载代码
    如果有一个台外部的机器waibu-host,位于阿里云,腾讯云,亚马逊,azure云等等; 假设你想从这个waibu-host上访问公司任意服务,下载代码,访问http服务,等等,或者你机器上的服务,不需要额外工具,只要ssh反向就可以实现; 借个图,如下: 举个例子,如果你想从公司内部......
  • 第20章 高级Web服务特性
    1准备工作添加SuppliersController控制器。[ApiController][Route("api/[controller]")]publicclassSuppliersController:ControllerBase{privateDataContext_context;publicSuppliersController(DataContextdataContext)......