挖掘优质短视频超百万条，火山引擎DataLeap助力电商平台生态治理

时间：2023-08-17 12:34:12浏览次数：54

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群

在人们的日常生活中，网购已经成为人们生活中不可或缺的购物形式。

根据《中国社交电商行业发展白皮书（2022）》的数据显示，2022年社交电商市场交易规模达到28542.8亿元，预计2023年中国社交电商行业交易规模将达34165.8亿元。

这么庞大的市场规模背后，如何解决电商场景下的各项生态治理问题显得尤为重要，某电商平台的治理团队就提供了一个优秀实践范本。

在该电商平台的社交电商场景下，以短视频优质项目为例，平台治理团队会对当天发布的挂购物车类短视频进行标签识别，判断其优质程度及具体原因。经过算法模型识别后，视频将被提交至奖惩中心，根据优质程度进行流量扶持或限制。而在治理过程中，数据处理流程也存在很多的挑战和痛点。

首先是数量挑战：大数据量的训练集，难以快速进行数据预处理。业务算法模型的训练集通常很大，达到百万甚至千万级。如果将这些海量数据放在本地或其他开发机上处理，速度会很慢，无法满足业务需求，即使使用多线程处理，并发度也难以达到业务需求。

其次是准确度挑战：难以验证算法模型准确度。算法模型的准确性通常通过有偏和无偏两个维度进行验证。模拟算法模型上线后的召回情况和准确率，以及对业务的影响，无论是有偏还是无偏测试集，都需要确保测试集标签的准确性。如果测试集标签的准确性不高，会影响模型评估的准确性。

最后是监控挑战。要想做好后续的指标监控，首先需要建立自己平台的统计指标，如召回率、漏放率、审出率、驳回率等。这些指标需要做成数据集，再建立自己的监控看板。同时，如果平台出现反面案例，需要团队进行深入的分析，并优化算法模型。如果没有高效的工具或平台进行辅助，会耗费大量的人力和资源。

为了解决这些痛难点，该电商平台治理团队接入了火山引擎DataLeap的大数据研发平台能力，三步搭建起了高效的算法模型数据处理流程。

第一步：在算法开发阶段，进行数据预处理，产出训练数据集。

在使用 DataLeap 之前，由于算法模型的测试集量级较大，数据处理效率低；而现在，该电商平台治理团队利用火山引擎 DataLeap 的 Notebook 任务进行数据预处理，处理后的数据会被存储在 Hive 表或 HDFS 上，这些数据可以在 HDFS 上长久保存，满足了实际应用场景中收集长时间数据的需求，不必受存储有效期为 7 天的限制。

团队可以离线处理这些数据，生成训练集，进行模型训练。由于火山引擎 DataLeap 的 Notebook 能力可以支持任务的自动运行，无需人工搭建 Notebook 环境进行数据训练，大大节省了人力成本，提高了数据处理和统计效率。

挖掘优质短视频超百万条，火山引擎DataLeap助力电商平台生态治理_数据中台

（图：DataLeap数据开发平台示例）

第二步：算法上线，验证模型效果

训练好的模型需要进行评估，以便了解其效果如何。团队可利用DataLeap将线上的 Kafka 数据写入 Hive 中，然后离线分析 Hive 表中的数据，用来了解模型的效果。不同模型平台治理团队关注的指标可能有所不同，借助DataLeap可以使用不同的指标来评估模型的效果，例如准确率、召回率、AUC 或 ACC 等。

第三步：利用火山引擎DataWind搭建监控看板

而在监控板块，DataLeap可与火山引擎智能数据洞察DataWind流畅配合，搭建监控看板，监控人员每日可以及时地获取到数据结果，同时也会对反面案例进行深入的分析，进而优化算法模型。

在火山引擎DataLeap的助力下，该平台治理团队去年全年累计挖掘识别优质短视频超147万条，助力超26万名电商作者平均流量增长56%；累计处罚违规低质短视频超3280万条、违规低质直播超1500万场。整体内容质量有明显改观，消费者好感度上升7.2%。

除数据处理能力之外，火山引擎DataLeap还可以提供数据集成、开发、运维、资产等能力，帮助用户提升数据研发效率、降低管理成本，加速推动企业的数字化转型，目前已经应用于泛互联网、制造、新零售、汽车等领域，帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。

点击跳转大数据研发治理套件 DataLeap了解更多

标签：模型,平台,算法,百万条,DataLeap,电商,数据
From： https://blog.51cto.com/bytedata/7120673

新零售电商系统开发如何选择合适的平台和框架？
企业在进行新零售电商系统的开发过程中，选择合适的平台和框架是非常重要的。因为正确的选择可以提高开发效率、降低成本，并确保系统具有良好的性能和可扩展性。然而，在众多的平台和框架面前，如何做出明智选择？接下来，广州名锐讯动跟大家一起探讨一下，新零售电商系统开发如何选择合适的平台......
广州系统开发|新零售电商系统开发需要考虑哪些问题？
新零售电商系统开发需要考虑哪些问题？为了满足消费者日益增长的购物需求，企业需要开发一款属于自己的新零售电商系统。为了确保系统的成功开发和运行，接下来，广州名锐讯动总结了以下几个新零售电商系统开发需要考虑的关键问题。1.业务需求分析：在开发新零售电商系统之前，必须对业务需求......
亚马逊、eBay等电商卖家如何做测评提高店铺吸引力？
在如今竞争激烈的电商领域，店铺排名对于吸引顾客和增加销售至关重要。本文将介绍如何测评并提升店铺在eBay和亚马逊等电商平台的排名。什么是亚马逊测评？亚马逊测评是指亚马逊的买家购买商品，然后给卖家店铺进行综合点评，在亚马逊称为反馈和评论。通常来说，亚马逊的卖家发布商品信息后，联......
Socks5代理：跨界电商之路的智能引路者与隐私守护者
一、Socks5代理：工作原理与技术特点Socks5代理（SK5代理）：Socks5代理是IP代理的进阶版，采用SOCKS5协议。相比传统IP代理，它不仅支持TCP和UDP协议，还具备更强大的数据传输和隐私保护能力。工作原理：当用户访问目标服务器时，请求首先经过Socks5代理服务器，代理服务器隐藏了用户的真实IP地址，将请......
跨界电商战略中的Socks5代理与数据抓取
一、Socks5代理：基本原理与特点Socks5代理（SK5代理）是一种IP代理技术，采用SOCKS5协议。相比传统IP代理，Socks5代理支持TCP和UDP协议，具备更强大的性能和隐私保护能力。Socks5代理工作原理：当用户请求访问目标服务器时，请求经由Socks5代理服务器转发。代理服务器隐藏了用户真实IP地址，将请求......
跨界电商战略中的Socks5代理与数据抓取
一、Socks5代理：基本原理与特点Socks5代理（SK5代理）是一种IP代理技术，采用SOCKS5协议。相比传统IP代理，Socks5代理支持TCP和UDP协议，具备更强大的性能和隐私保护能力。Socks5代理工作原理：当用户请求访问目标服务器时，请求经由Socks5代理服务器转发。代理服务器隐藏了用户真实IP地址，将请求......
火山引擎DataLeap的Data Catalog系统公有云实践
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群DataCatalog是一种元数据管理的服务，会收集技术元数据，并在其基础上提供更丰富的业务上下文与语义，通常支持元数据编目、查找、详情浏览等功能。目前DataCatalog作为火山引擎大数据研发治理套件Dat......
火山引擎DataLeap的Data Catalog系统公有云实践
更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群DataCatalog是一种元数据管理的服务，会收集技术元数据，并在其基础上提供更丰富的业务上下文与语义，通常支持元数据编目、查找、详情浏览等功能。目前DataCatalog作为火山引擎大数据研发治......
跨境电商选择动态IP还是静态IP？
随着跨境电商的兴起，选择适合的IP类型对于企业的成功至关重要。在跨境电商中，常见的选择是动态IP和静态IP。下面将就这两种IP类型进行比较，帮助您做出更明智的选择。1.动态IP动态IP是指在一定时间范围内会发生变化的IP地址。跨境电商中使用动态IP具有以下优势：隐私保护：动态IP的变化使得......
线下活动 | 谷歌云 AI：探索人工智能时代跨境电商的应用趋势
所有跨境人看过来！AI+跨境电商线下活动，你值得拥有！赶快报名参与吧！主题：谷歌云AI：探索人工智能时代跨境电商的应用趋势时间：8月30日周三13:30——8月30日周三17:30地点：广州番禺报名链接：https://cloud-ace.cn/20230830-guangzhou-offline-event-retail/01.活动流程13......

挖掘优质短视频超百万条，火山引擎DataLeap助力电商平台生态治理

相关文章

赞助商

阅读排行