原本区块链：《甘柴劣火》文章相似度比对，我们采取了这样的方法

admin · 发表于 2019-1-15 16:57:54

导读：1月13日，公众号“小强传播”发文称，利用相关数据相似性检测系统对“呦呦鹿鸣”公号文章《甘柴劣火》进行了比对检测。

“小强传播”得出结论认为，“用部分比对源做检测后，可以初步认定“甘柴劣火”存在涉嫌抄袭的行为。”

这种检测方法是否科学？“小强传播”得出的结论是否有说服力？

带着这样的疑问，《传媒茶话会》对话了中国财经媒体版权保护联盟技术支持方——原本区块链CTO甘露，听他“科普”如何通过算法来进行相似度比对。

引入源越多，相似度下降可能越多，越无法准确地对相似度进行评估

从文本相似度检测的角度而言，《甘柴劣火》由于原文引用来源较多，给文章的相似度分析带来了一些困难。公众号“小强传播”采用的技术是将被检测文章与被引用的财新文章进行比对，结论是总相似比为0.1119。

原本区块链CTO甘露告诉《传媒茶话会》，“这种分析方法的弊端在于文章对于信源内容一般都是少量引用，当引入源较多时，相似度下降可能越多，因此，无法准确对相似度进行评估。”

甘露说，“我们采用了杰卡德指数来表示相似度，这个是目前比较普遍的判断相似度的算法，杰卡德算法也被应用到过滤相似度很高的新闻，或者网页去重的场景中。杰卡德指数的计算方式为：样本交集个数和样本并集个数的比值，用J(A,B)表示。当杰卡德指数大于0.34时，意味着A和B的相似度超过0.5。”

算法通过对原文段落划分的动态调整可保证最为准确的相似度

在《甘柴劣火》文章刷屏被质疑涉嫌抄袭后，很多机构都从比对的角度对该文进行了相似性检测。原本区块链也利用技术手段对《甘柴劣火》与其他文章的相似性进行了检测。

甘露说，“我们通过自然语言处理和机器学习算法，对原文进行了句子级的拆分，通过全网检测构建出信源集，然后用一个文本搜索的模型，找到了信源集中与原文段落“语义相似”的全部段落，组成集合，再和原文段落进行相似度对比，并计算出杰卡德指数。”

甘露对《传媒茶话会》解释说，简单来讲，在分析结果中他们发现原文多个段落都对应着至少一个相似度较高的引用源。因此分别将每个段落与被引用文章的相似段落之间做对比，并把结果汇总呈现。

甘露举例告诉《传媒茶话会》，比如原文第三个段落和财新文章《甘肃武威原“火爆”书记被查曾导演构陷记者|特稿精选》中的内容高度相似。对原文第三段落和财新相似段落进行语义相似度对比，杰卡德指数为0.4792。

甘露认为，算法通过对原文段落划分的动态调整保证了最后相似度计算最为准确。

《甘柴劣火》内容与被引用文章之间的段均杰卡德指数达到0.3763

原本区块链通过技术手段将《甘柴劣火》文章八个自然段中的每一段内容都与被引用文章中的内容进行了相似度比对分析。除《甘柴劣火》中第二段被引用内容已经无法找到，已经无法进行合理比对、第七段作者引用自己文章，报告中剔除相似度分析、第八段作为全文总结以上三种情况外，未找到高度相似内容。原本区块链发现，《甘柴劣火》剩下的五个自然段与被引用文章之间的杰卡德指数达到0.3763。

甘露给《传媒茶话会》提供了详细的比对分析报告，结果如下：

段落一：从《拘留通知书》开始至段落结束1297字和兰州晨报《记者被抓兰州晨报社首发公开信直指要害》相关段落1249字的杰卡德指数为0.3428。

段落二：部分被引用内容已无法找到，无法进行合理比对。

段落三：段落中789字和财新《甘肃武威原“火爆”书记被查曾导演构陷记者|特稿精选》相关段落726字的杰卡德指数为0.4792。

段落四：段落中1056字和财新《一个省报记者站站长的亿元传奇|要案回顾》相关段落830字的杰卡德指数为0.3548。

段落五：段落中1431字和央视电视专题片《巡视利剑》第三集《震慑常在》以及人民日报公众号侠客岛文章《【解局】被中央通报批评，甘肃犯了什么事？》相关解说段落785字的杰卡德指数为0.3436。

段落六：段落中1143字和作家十年砍柴的《为什么又是甘肃》相关段落1242字的杰卡德指数为0.3609。

段落七：作者引用自己文章，报告中剔除相似度分析。

段落八：全文总结，未找到高度相似内容。

关于《甘柴劣火》一文杰卡德指数比对的结果

结论：通常在做内容的相似度分析时，会对两篇或者多篇内容直接做相似度分析，当内容篇幅较大时，很难通过直观的方式做出定性判断。本文使用了自然语言处理领域对于文本内容的处理方法，对相似内容片段进行定量的对比分析，可能会给行业带来一些新的思路。

补充说明：