《计算机应用》唯一官方网站 ›› 2024, Vol. 44 ›› Issue (1): 242-251.DOI: 10.11772/j.issn.1001-9081.2023010031
• 网络空间安全 • 上一篇
收稿日期:
2023-01-15
修回日期:
2023-04-28
接受日期:
2023-05-12
发布日期:
2023-06-06
出版日期:
2024-01-10
通讯作者:
李莉
作者简介:
杨春艳(1998—),女,河南周口人,硕士研究生,主要研究方向:信息安全、区块链;基金资助:
Li LI1(), Chunyan YANG2, Jiangwen ZHU2, Ronglei HU1
Received:
2023-01-15
Revised:
2023-04-28
Accepted:
2023-05-12
Online:
2023-06-06
Published:
2024-01-10
Contact:
Li LI
About author:
YANG Chunyan, born in 1998, M. S. candidate. Her research interests include information security, blockchain.Supported by:
摘要:
针对社交网络中用户抄袭难以识别的问题,为保障原创作者权益并对具有抄袭行为的用户进行追责,提出了区块链下社交网络用户抄袭识别方案。针对现有区块链缺少通用溯源模型的问题,设计基于区块链的溯源信息管理模型来记录用户操作信息,为文本相似度检测提供依据。在Merkle树和布隆过滤器结构的基础上,设计了新的索引结构BHMerkle,减少了区块构建和查询时的计算开销,实现了对交易的快速定位。同时提出多特征权重Simhash算法,提高了词权计算的准确性并提高签名值匹配阶段的效率,从而对具有抄袭行为的恶意用户进行识别,并通过奖惩机制遏制恶意行为的发生。抄袭识别方案在不同主题的新闻数据集上的平均准确率为94.8%,平均召回率为88.3%,相较于多维度Simhash算法和基于信息熵加权的Simhash(E-Simhash)算法,平均准确率分别提升了6.19、4.01个百分点,平均召回率分别提升了3.12、2.92个百分点。实验结果表明,所提方案在抄袭文本的查询及检测效率方面均有所提升,且在抄袭识别方面具有较高的准确性。
中图分类号:
李莉, 杨春艳, 朱江文, 胡荣磊. 区块链下社交网络用户抄袭识别方案[J]. 计算机应用, 2024, 44(1): 242-251.
Li LI, Chunyan YANG, Jiangwen ZHU, Ronglei HU. User plagiarism identification scheme in social network under blockchain[J]. Journal of Computer Applications, 2024, 44(1): 242-251.
审核结果 | 发起投诉的用户 | 被投诉用户 |
---|---|---|
恶意用户 | 奖励博客赚取代币总值 | 罚博客赚取代币2倍 |
非恶意用户 | 扣除博客赚取代币1/10 | 不做奖惩 |
表1 用户奖惩机制
Tab. 1 User reward and punishment mechanisms
审核结果 | 发起投诉的用户 | 被投诉用户 |
---|---|---|
恶意用户 | 奖励博客赚取代币总值 | 罚博客赚取代币2倍 |
非恶意用户 | 扣除博客赚取代币1/10 | 不做奖惩 |
词性 | 权重系数 | 词性 | 权重系数 |
---|---|---|---|
名词 | 0.4 | 形容词 | 0.2 |
动词 | 0.3 | 其他 | 0.1 |
表2 词性权重系数WoC
Tab. 2 Part-of-speech weighting coefficient WoC
词性 | 权重系数 | 词性 | 权重系数 |
---|---|---|---|
名词 | 0.4 | 形容词 | 0.2 |
动词 | 0.3 | 其他 | 0.1 |
1 | 邹禹同,张志安.知识付费语境下自媒体著作权保护困境与对策[J].中国出版, 2020(4): 58-62. 10.3969/j.issn.1002-4166.2020.04.013 |
ZOU Y T, ZHANG Z A. Dilemma and countermeasures of self media copyright protection in the context of knowledge payment [J]. China Publishing Journal, 2020(4): 58-62. 10.3969/j.issn.1002-4166.2020.04.013 | |
2 | VANI K, GUPTA D. Integrating syntax-semantic-based text analysis with structural and citation information for scientific plagiarism detection [J]. Journal of the Association for Information Science and Technology, 2018, 69(11): 1330-1345. 10.1002/asi.24027 |
3 | MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2022-12-07]. . 10.3126/jiee.v3i1.34327 |
4 | ZHANG Y, JIN R, ZHOU Z-H. Understanding bag-of-words model: a statistical framework [J]. International Journal of Machine Learning and Cybernetics, 2010, 1: 43-52. 10.1007/s13042-010-0001-0 |
5 | CHANG C-Y, LEE S-J, WU C-H, et al. Using word semantic concepts for plagiarism detection in text documents [J]. Information Retrieval Journal, 2021, 24: 298-321. 10.1007/s10791-021-09394-4 |
6 | SHARMA S, SHARMA C S, TYAGI V. Plagiarism detection tool “parikshak” [C]// Proceedings of the 2015 International Conference on Communication, Information & Computing Technology. Piscataway: IEEE, 2015: 1-7. 10.1109/iccict.2015.7045739 |
7 | NAKAMOTO S. Bitcoin: A peer-to-peer electronic cash system [EB/OL]. [2022-12-23]. . 10.2139/ssrn.3977007 |
8 | XIAO M, HUANG Q, MIAO Y, et al. Blockchain based multi-authority fine-grained access control system with flexible revocation [J]. IEEE Transactions on Services Computing, 2021, 15(6): 3143-3155. 10.1109/tsc.2021.3086023 |
9 | ZHANG X, WEI S. Internet news traceability solution based on blockchain [C]// Proceedings of the 2019 IEEE/ACIS 18th International Conference on Computer and Information Science. Piscataway: IEEE, 2019: 236-240. 10.1109/icis46139.2019.8940318 |
10 | 郑浩瀚,申德荣,聂铁铮,等.面向混合索引的区块链系统的可查询性优化[J].计算机科学, 2020, 47(10): 301-308. 10.11896/jsjkx.190800148 |
ZHENG H H, SHEN D R, NIE T Z, et al. Queryability optimization of blockchain system for hybrid index [J]. Computer Science, 2020, 47(10): 301-308. 10.11896/jsjkx.190800148 | |
11 | ANDI C, JULIANDY R, ROBET O, et al. Image authentication application with blockchain to prevent and detect image plagiarism [C]// Proceedings of the 2021 Sixth International Conference on Informatics and Computing. Piscataway: IEEE, 2021: 1-6. 10.1109/icic54025.2021.9632966 |
12 | HE Y, ZHU H, WANG C, et al. An accountable data trading platform based on blockchain [C]// Proceedings of the IEEE INFOCOM 2019 — IEEE Conference on Computer Communications Workshops. Piscataway: IEEE, 2019: 1-6. 10.1109/infcomw.2019.8845194 |
13 | 王诚,王宇成.基于Simhash的大规模文档去重改进算法研究[J].计算机技术与发展, 2019, 29(2): 115-119. 10.3969/j.issn.1673-629X.2019.02.024 |
WANG C, WANG Y C. Research on improved large-scale documents deduplication algorithm based on Simhash. [J]. Computer Technology and Development, 2019, 29(2): 115-119. 10.3969/j.issn.1673-629X.2019.02.024 | |
14 | 张航,盛志伟,张仕斌,等. Simhash算法在文本去重中的应用[J].计算机工程与应用, 2020, 56(11): 246-251. 10.3778/j.issn.1002-8331.1902-0246 |
ZHANG H, SHENG Z W, ZHANG S B, et al. Application of Simhash algorithm in text deduplication [J]. Computer Engineering and Applications, 2020, 56(11): 246-251. 10.3778/j.issn.1002-8331.1902-0246 | |
15 | 陈希,胡良霖,朱艳华,等.数据溯源描述模型国家标准研制与推广[J].标准科学, 2019(4): 108-112. 10.3969/j.issn.1674-5698.2019.04.020 |
CHEN X, HU L L, ZHU Y H, et al. Research and popularization of national standard for data provenance descriptive model [J]. Standard Science, 2019(4): 108-112. 10.3969/j.issn.1674-5698.2019.04.020 | |
16 | 章振海,虞思城,蒋云杰,等.基于区块链交易验证的设备认证方法[J].信息安全研究, 2021, 7(6): 550-557. 10.3969/j.issn.2096-1057.2021.06.010 |
ZHANG Z H, YU S C, JIANG Y J, et al. Device authentication method based on Blockchain transaction verification [J]. Journal of Information Security Research, 2021, 7(6): 550-557. 10.3969/j.issn.2096-1057.2021.06.010 | |
17 | ZHANG X L, HE D D. Similar document recognition technology based on the improved Simhash algorithm [J]. Computer Science and Application, 2020, 10(2): 371-378. 10.12677/csa.2020.102038 |
18 | 顾志祥,谢龙恩,杜雨.文本相似度计算的Simhash算法的实现与改进[J].信息通信, 2020(1): 27-29. 10.3969/j.issn.1673-1131.2020.01.010 |
GU Z X, XIE L E, DU Y. Implementation and improvement of Simhash algorithm for text similarity calculation [J]. Information & Communications, 2020(1): 27-29. 10.3969/j.issn.1673-1131.2020.01.010 | |
19 | 陈春玲,陈琳,熊晶,等.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报(自然科学版), 2016, 36(3): 85-91. 10.14132/j.cnki.1673-5439.2016.03.013 |
CHEN C L, CHEN L, XIONG J, et al. Research and improvement of data de-duplication based on Simhash algorithm [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science), 2016, 36(3): 85-91. 10.14132/j.cnki.1673-5439.2016.03.013 | |
20 | PRATAP R, KULKARNI R, SOHONY I. Efficient dimensionality reduction for sparse binary data [C]// Proceedings of the 2018 IEEE International Conference on Big Data. Piscataway: IEEE, 2018: 152-157. 10.1109/bigdata.2018.8622338 |
[1] | 马海英, 李金舟, 杨及坤. 基于区块链可撤销属性的去中心化属性基加密方案[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2789-2797. |
[2] | 彭诗杰, 陈红梅, 王丽珍, 肖清. 基于地理偏好排序的兴趣点混合推荐模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2448-2455. |
[3] | 陈宛桢, 张恩, 秦磊勇, 洪双喜. 边缘计算下基于区块链的隐私保护联邦学习算法[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2209-2216. |
[4] | 孙男男, 朴春慧, 马新娜. 基于社交关系和时序信息的团购推荐方法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1719-1729. |
[5] | 陈璐瑀, 马小峰, 何敬, 龚生智, 高建. 基于TrustZone的区块链智能合约隐私授权方法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1969-1978. |
[6] | 曹萌, 余孙婕, 曾辉, 史红周. 基于区块链的医疗数据分级访问控制与共享系统[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1518-1526. |
[7] | 王亦涵, 唐晨, 张兰. 大宗商品防欺诈抗篡改线上交易机制[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1309-1317. |
[8] | 童俊成, 赵波. 区块链智能合约漏洞检测与自动化修复综述[J]. 《计算机应用》唯一官方网站, 2023, 43(3): 785-793. |
[9] | 唐淑敏, 金瑜. 区块链中基于中国剩余定理投票方案的共识机制[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 458-466. |
[10] | 孙栋, 王彪, 徐云. 基于RDMA的区块传输机制设计与实现[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 484-489. |
[11] | 葛丽娜, 徐婧雅, 王哲, 张桂芬, 颜亮, 胡政. 区块链在供应链应用中的研究现状与挑战[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3315-3326. |
[12] | 王春东, 姜鑫. 基于可验证延迟函数的改进实用拜占庭容错算法[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3484-3489. |
[13] | 田洪亮, 葛平, 宪明杰. 基于区块链的配电网运行异常管理机制[J]. 《计算机应用》唯一官方网站, 2023, 43(11): 3504-3509. |
[14] | 郭晓涵, 姚中原, 张勇, 郭尚坤, 王超, 斯雪明. 基于改进公证人机制的联盟链跨链隐私保护方案[J]. 《计算机应用》唯一官方网站, 2023, 43(10): 3028-3037. |
[15] | 王佳鑫, 颜嘉麒, 毛谦昂. 加密数字货币监管技术研究综述[J]. 《计算机应用》唯一官方网站, 2023, 43(10): 2983-2995. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||