《计算机应用》唯一官方网站 ›› 2024, Vol. 44 ›› Issue (1): 242-251.DOI: 10.11772/j.issn.1001-9081.2023010031
所属专题: 网络空间安全
收稿日期:
2023-01-15
修回日期:
2023-04-28
接受日期:
2023-05-12
发布日期:
2023-06-06
出版日期:
2024-01-10
通讯作者:
李莉
作者简介:
杨春艳(1998—),女,河南周口人,硕士研究生,主要研究方向:信息安全、区块链;基金资助:
Li LI1(), Chunyan YANG2, Jiangwen ZHU2, Ronglei HU1
Received:
2023-01-15
Revised:
2023-04-28
Accepted:
2023-05-12
Online:
2023-06-06
Published:
2024-01-10
Contact:
Li LI
About author:
YANG Chunyan, born in 1998, M. S. candidate. Her research interests include information security, blockchain.Supported by:
摘要:
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。
中图分类号:
李莉, 杨春艳, 朱江文, 胡荣磊. 区块链下社交网络用户抄袭识别方案[J]. 计算机应用, 2024, 44(1): 242-251.
Li LI, Chunyan YANG, Jiangwen ZHU, Ronglei HU. User plagiarism identification scheme in social network under blockchain[J]. Journal of Computer Applications, 2024, 44(1): 242-251.
审核结果 | 发起投诉的用户 | 被投诉用户 |
---|---|---|
恶意用户 | 奖励博客赚取代币总值 | 罚博客赚取代币2倍 |
非恶意用户 | 扣除博客赚取代币1/10 | 不做奖惩 |
表1 用户奖惩机制
Tab. 1 User reward and punishment mechanisms
审核结果 | 发起投诉的用户 | 被投诉用户 |
---|---|---|
恶意用户 | 奖励博客赚取代币总值 | 罚博客赚取代币2倍 |
非恶意用户 | 扣除博客赚取代币1/10 | 不做奖惩 |
词性 | 权重系数 | 词性 | 权重系数 |
---|---|---|---|
名词 | 0.4 | 形容词 | 0.2 |
动词 | 0.3 | 其他 | 0.1 |
表2 词性权重系数WoC
Tab. 2 Part-of-speech weighting coefficient WoC
词性 | 权重系数 | 词性 | 权重系数 |
---|---|---|---|
名词 | 0.4 | 形容词 | 0.2 |
动词 | 0.3 | 其他 | 0.1 |
1 | 邹禹同,张志安.知识付费语境下自媒体著作权保护困境与对策[J].中国出版, 2020(4): 58-62. 10.3969/j.issn.1002-4166.2020.04.013 |
ZOU Y T, ZHANG Z A. Dilemma and countermeasures of self media copyright protection in the context of knowledge payment [J]. China Publishing Journal, 2020(4): 58-62. 10.3969/j.issn.1002-4166.2020.04.013 | |
2 | VANI K, GUPTA D. Integrating syntax-semantic-based text analysis with structural and citation information for scientific plagiarism detection [J]. Journal of the Association for Information Science and Technology, 2018, 69(11): 1330-1345. 10.1002/asi.24027 |
3 | MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2022-12-07]. . 10.3126/jiee.v3i1.34327 |
4 | ZHANG Y, JIN R, ZHOU Z-H. Understanding bag-of-words model: a statistical framework [J]. International Journal of Machine Learning and Cybernetics, 2010, 1: 43-52. 10.1007/s13042-010-0001-0 |
5 | CHANG C-Y, LEE S-J, WU C-H, et al. Using word semantic concepts for plagiarism detection in text documents [J]. Information Retrieval Journal, 2021, 24: 298-321. 10.1007/s10791-021-09394-4 |
6 | SHARMA S, SHARMA C S, TYAGI V. Plagiarism detection tool “parikshak” [C]// Proceedings of the 2015 International Conference on Communication, Information & Computing Technology. Piscataway: IEEE, 2015: 1-7. 10.1109/iccict.2015.7045739 |
7 | NAKAMOTO S. Bitcoin: A peer-to-peer electronic cash system [EB/OL]. [2022-12-23]. . 10.2139/ssrn.3977007 |
8 | XIAO M, HUANG Q, MIAO Y, et al. Blockchain based multi-authority fine-grained access control system with flexible revocation [J]. IEEE Transactions on Services Computing, 2021, 15(6): 3143-3155. 10.1109/tsc.2021.3086023 |
9 | ZHANG X, WEI S. Internet news traceability solution based on blockchain [C]// Proceedings of the 2019 IEEE/ACIS 18th International Conference on Computer and Information Science. Piscataway: IEEE, 2019: 236-240. 10.1109/icis46139.2019.8940318 |
10 | 郑浩瀚,申德荣,聂铁铮,等.面向混合索引的区块链系统的可查询性优化[J].计算机科学, 2020, 47(10): 301-308. 10.11896/jsjkx.190800148 |
ZHENG H H, SHEN D R, NIE T Z, et al. Queryability optimization of blockchain system for hybrid index [J]. Computer Science, 2020, 47(10): 301-308. 10.11896/jsjkx.190800148 | |
11 | ANDI C, JULIANDY R, ROBET O, et al. Image authentication application with blockchain to prevent and detect image plagiarism [C]// Proceedings of the 2021 Sixth International Conference on Informatics and Computing. Piscataway: IEEE, 2021: 1-6. 10.1109/icic54025.2021.9632966 |
12 | HE Y, ZHU H, WANG C, et al. An accountable data trading platform based on blockchain [C]// Proceedings of the IEEE INFOCOM 2019 — IEEE Conference on Computer Communications Workshops. Piscataway: IEEE, 2019: 1-6. 10.1109/infcomw.2019.8845194 |
13 | 王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展, 2019, 29(2): 115-119. 10.3969/j.issn.1673-629X.2019.02.024 |
WANG C, WANG Y C. Research on improved large-scale documents deduplication algorithm based on Simhash. [J]. Computer Technology and Development, 2019, 29(2): 115-119. 10.3969/j.issn.1673-629X.2019.02.024 | |
14 | 张航,盛志伟,张仕斌,等. Simhash算法在文本去重中的应用[J].计算机工程与应用, 2020, 56(11): 246-251. 10.3778/j.issn.1002-8331.1902-0246 |
ZHANG H, SHENG Z W, ZHANG S B, et al. Application of Simhash algorithm in text deduplication [J]. Computer Engineering and Applications, 2020, 56(11): 246-251. 10.3778/j.issn.1002-8331.1902-0246 | |
15 | 陈希,胡良霖,朱艳华,等.数据溯源描述模型国家标准研制与推广[J].标准科学, 2019(4): 108-112. 10.3969/j.issn.1674-5698.2019.04.020 |
CHEN X, HU L L, ZHU Y H, et al. Research and popularization of national standard for data provenance descriptive model [J]. Standard Science, 2019(4): 108-112. 10.3969/j.issn.1674-5698.2019.04.020 | |
16 | 章振海,虞思城,蒋云杰,等.基于区块链交易验证的设备认证方法[J].信息安全研究, 2021, 7(6): 550-557. 10.3969/j.issn.2096-1057.2021.06.010 |
ZHANG Z H, YU S C, JIANG Y J, et al. Device authentication method based on Blockchain transaction verification [J]. Journal of Information Security Research, 2021, 7(6): 550-557. 10.3969/j.issn.2096-1057.2021.06.010 | |
17 | ZHANG X L, HE D D. Similar document recognition technology based on the improved Simhash algorithm [J]. Computer Science and Application, 2020, 10(2): 371-378. 10.12677/csa.2020.102038 |
18 | 顾志祥,谢龙恩,杜雨.文本相似度计算的Simhash算法的实现与改进[J].信息通信, 2020(1): 27-29. 10.3969/j.issn.1673-1131.2020.01.010 |
GU Z X, XIE L E, DU Y. Implementation and improvement of Simhash algorithm for text similarity calculation [J]. Information & Communications, 2020(1): 27-29. 10.3969/j.issn.1673-1131.2020.01.010 | |
19 | 陈春玲,陈琳,熊晶,等.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报(自然科学版), 2016, 36(3): 85-91. 10.14132/j.cnki.1673-5439.2016.03.013 |
CHEN C L, CHEN L, XIONG J, et al. Research and improvement of data de-duplication based on Simhash algorithm [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2016, 36(3): 85-91. 10.14132/j.cnki.1673-5439.2016.03.013 | |
20 | PRATAP R, KULKARNI R, SOHONY I. Efficient dimensionality reduction for sparse binary data [C]// Proceedings of the 2018 IEEE International Conference on Big Data. Piscataway: IEEE, 2018: 152-157. 10.1109/bigdata.2018.8622338 |
[1] | 陈廷伟, 张嘉诚, 王俊陆. 面向联邦学习的随机验证区块链构建[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2770-2776. |
[2] | 孙晓玲, 王丹辉, 李姗姗. 基于区块链的动态密文排序检索方案[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2500-2505. |
[3] | 黄河, 金瑜. 基于投票和以太坊智能合约的云数据审计方案[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2093-2101. |
[4] | 林欣蕊, 王晓菲, 朱焱. 基于局部扩展社区发现的学术异常引用群体检测[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1855-1861. |
[5] | 李皎, 张秀山, 宁远航. 降低跨分片交易比例的区块链分片方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1889-1896. |
[6] | 赵莉朋, 郭兵. 基于BDLS的区块链共识改进算法[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1139-1147. |
[7] | 陈美宏, 袁凌云, 夏桐. 基于主从多链的数据分类分级访问控制模型[J]. 《计算机应用》唯一官方网站, 2024, 44(4): 1148-1157. |
[8] | 高改梅, 张瑾, 刘春霞, 党伟超, 白尚旺. 基于区块链与CP-ABE策略隐藏的众包测试任务隐私保护方案[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 811-818. |
[9] | 马海峰, 李玉霞, 薛庆水, 杨家海, 高永福. 用于实现区块链隐私保护的属性基加密方案[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 485-489. |
[10] | 王一帆, 林绍福, 李云江. 基于区块链和零知识证明的高速公路自由流收费方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3741-3750. |
[11] | 王伊婷, 万武南, 张仕斌, 张金全, 秦智. 基于SM9算法的可链接环签名方案[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3709-3716. |
[12] | 刘德渊, 张金全, 张鑫, 万武南, 张仕斌, 秦智. 基于无证书签密的跨链身份认证方案[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3731-3740. |
[13] | 孙科硕, 高海英, 宋杨. 面向公有区块链上的私有区块链的多权威属性加密方案[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3699-3708. |
[14] | 方鹏, 赵凡, 王保全, 王轶, 蒋同海. 区块链3.0的发展、技术与应用[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3647-3657. |
[15] | 高瑞, 陈学斌, 张祖篡. 面向部分图更新的动态社交网络隐私发布方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3831-3838. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||