找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 417|回复: 0

本包括宏观平均值和每个类别

[复制链接]

1

主题

0

回帖

7

积分

新手上路

积分
7
发表于 2024-5-6 17:00:19 | 显示全部楼层 |阅读模式
本帖最后由 ditihekhatun15 于 2024-5-6 17:08 编辑

过树的边缘传播每个节点的潜在表示。此传播过程允许附近的节点容器和文本元素相互共享上下文信息从而增强模型对页面结构和内容的理解。然后每个节点根据收到的消息更新其当前状态为节点分类提供更明智的基础。经过固定数量的消息传递步骤后现在上下文化的节点潜在表示被解码为基本或非基本类。这种方法使模型能够利用树中的固有关系和代表每个节点的手工特征从而丰富最终的分类。算法在移动设备上处理文章的实际操作的视觉演示。图神经网络用于从文章中提取基本内容。从应用程序中提取文章的树形表示。为每个节点计算轻量级特征表示为向量。消息传递神经网络通过树的边缘传播信息并更新每个节点表示。包含文本内容的叶节点被分类为必要内容或非必要内容。基于输出构建了应用程序的整洁版本。我们刻意限制模型使用的功能集以提高其跨语言的广泛泛化性并加快用户设备上的推理延迟。


这是一个独特的挑战因为我们需要创建一个可以保护隐私的设备上轻量级模型。我们最终的轻量级模型有个参数大小为中位延迟为而模型有个参数大小为中位延迟为。通  沙特阿拉伯手机号码列表 过采用此类设备内处理我们确保用户数据永远不会离开设备从而强化我们负责任的做法和对用户隐私的承诺。模型中使用的特征可以分为中间节点特征叶节点文本特征和元素位置特征。我们进行了特征工程和特征选择以优化模型性能和模型大小的特征集。最终模型被转换为格式以作为或上的设备上模型进行部署。结果我们在单个中对进行了大约个的训练。模型在网页和原生应用测试集上的表现如下该表显示了中网页和本机应用程序的内容蒸馏指标。我们报告三个类别的精确度召回率和分数非必要内容标题和正文文中实例数量的加权平均值。节点度量以可访问性树节点的粒度评估分类性能这类似于段落级别。





相比之下单词度量在单个单词级别评估分类这意味着节点内的每个单词都会获得相同的分类。在评估经常访问的网页文章的结果质量时正文本质上是段落的分数超过对应于的这些文章正在处理而没有遗漏任何段落。此外在超过的情况下蒸馏对读者来说是有价值的。简而言之绝大多数读者会认为提炼出来的内容既相关又准确错误或遗漏的情况很少发生。下表列出了内容蒸馏与其他模型例如或在一组英语页面上的比较。我们重用机器翻译的指标来比较这些模型的质量。参考文本来自真实的主要内容来自模型的文本作为假设文本。结果表明与其他基于的方法相比我们的模型具有出色的性能。该表展示了和新模型之间的比较。我们通过将从每个模型中提取的主体文本与评分者使用我们的注释策略手动标记的真实文本进行比较来报告基于文本的指标例如和。内容蒸馏模型在不同广泛使用的语言的测试集上针对标题和主要文本内容的分数表明模型尤其能够支持多种语言。该表显示了标题和主要文本类别的模型的每种语言的分数。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2024-11-22 18:43 , Processed in 0.103187 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表