购买所需数量的角色-1.2卢布。每千个字符。
字符包——540至18000卢布,容量——50万至3000万个字符。
专业级别(免费限额翻倍) - 每月 825 至 2490 卢布。
关于木瓦、引理和评估唯一性的标准
Shingles是连续几个单词的组合,类似于短语。请注意,只计算单词,不考虑连词、介词和标点符号。使用 Shingles 可以让程序将文本分解成小块,并在搜索引擎索引中检查每个块。
文本不会按顺序分解成瓦片,即一个部分紧接着前一个部分,而是重叠的,也就是说,下一个文本部分将从前一个瓦片中的第二个单词开始。
事实上,该术语正是由此而来。Shingle在英语中是“鳞片”的意思。
如果脚本找到匹配项,它会在剩余的瓦片(碎片)的文 拉脱维亚电话号码列表 本中分析匹配的结果。匹配数越多,唯一性越低。
测试的质量取决于木瓦的长度。步长越短,即瓦片上的字越少越好。如果木瓦太长,则很难检测到重写,因为片段内的词序保持不变。因此,如果您更改单词的顺序,程序将不再能够找到匹配项。
为了让程序能够检测出其他人文本中的细微“改写”,随着时间的推移,引入了词形还原机制。在语言学中,词元是单词的初始形式。
在开始唯一性检查之前,脚本会将所有单词转换为其初始形式,并且不仅比较没有介词和额外字符的瓦片,而且比较词干的巧合,而不管它们最初的形式是什么。
最后,第三种也是最严重的一种方法,可以让你发现任何黑客作品,那就是对单词的同义词进行分析。在这种情况下,算法不仅会根据单词的初始形式来比较源文本和搜索结果中的短语,还会搜索所有已知的同义词。
文本的最终独特性通常以百分比来表示,显示将原始文本与其他搜索结果进行比较时无法找到的带状疱疹的比例。
检测非唯一内容的现代算法只有一个缺点:它们高度依赖于搜索引擎索引的材料。如果文本尚未发布且因此未被索引,则该服务将无法找到重复项。
尽管如此,针对大学也有专门的解决方案,不仅可以在互联网上检查唯一性,还可以在科学论文的一般数据库中检查唯一性。 eTXT 对此有一个本地检查(根据位于磁盘上的目录中的文本文件检查原始文本)。