网络垃圾邮件:权威指南

Gmail admin 1年前 (2022-12-24) 165次浏览

家庭-博客-网络垃圾邮件:权威指南了解边界和如何玩安全

你是一个网络垃圾邮件制造者吗?不,说真的,我是说真的。如果有一个领域是很多搜索偷窥者和营销人员不总是清楚的,那就是来自搜索引擎的惩罚和过滤。这是你会发现在SEO圈非常常见的事情。我们只需要查看类似重复内容的内容。虽然它(通常)是一个过滤器,但也不乏人称它为“重复内容惩罚”。因此,我认为从搜索工程师的角度来看网络垃圾邮件的许多方面将是一个好主意。这并不是要教你如何成为一个更好的垃圾邮件发送者——实际上恰恰相反,因为我不是那种垃圾邮件的粉丝。当然,我有几个朋友在黑帽世界里玩,但他们很清楚我不喜欢黑帽,也不喜欢污染网络。这段旅程希望能帮助你避免那些可能将你的客户或你自己的网站置于危险之中的策略或活动。

什么是网络垃圾邮件?在这篇文章的研究中,这似乎是最好的,或者至少是最简明的定义:

任何有意的人类行为,都是为了触发一些网页的不合理的有利相关性或重要性,考虑到网页的真正价值。(来自斯坦福大学的网络垃圾分类)

哦。或者是吗?如果是这样的话,我们都将是垃圾邮件制造者,因为我们所做的SEO是试图在某种程度上堆叠桥牌。该死的。哦。更有趣的是,斯坦福的论文继续说,

在网页垃圾邮件领域一个重要的声音是搜索引擎优化者(SEOs),如SEO Inc. (www.seoinc.com)或Bruce Clay (www.bruceclay.com)。

哎哟。

大多数seo声称垃圾邮件只会增加与页面主题无关的查询的相关性。与此同时,许多seo认可和实践的技术,有影响的重要性得分,以实现他们所谓的“道德”网页定位或优化。请注意,根据我们的定义,所有旨在提高排名的行为,而不是提高页面的真正价值,都被认为是垃圾邮件。(强调我的)

——它提醒我们seo不是罪犯,但他们肯定是敌人。让我们稍微分散一下,考虑一下垃圾邮件是一种明目张胆的操作,它没有增加任何价值,试图利用搜索算法的算法盲目性,好吗?哈哈,就这样吧。别忘了,他们不喜欢我们(seo)。基本上有两种类型的垃圾邮件:增强和隐藏。

提升

这是指一个人采取了一个动作,目的是(错误地?)增加或提升页面的价值。

术语垃圾信息:这是指那些试图通过页面标题(标题垃圾信息)、元描述或元关键字(元垃圾信息)等元素进行操作的人。我们大多数人都知道,其中三分之二的数据被滥用,以至于大多数现代搜索引擎根本不使用它们作为信号。URL垃圾信息是他们关注的另一个领域。是的,听起来很奇怪,因为有些搜索引擎会给url一些权重,这可以被认为是一种操纵。链接垃圾邮件是另一个众所周知的垃圾邮件,它还包括锚文本垃圾邮件。搜索引擎不仅考虑大量的垃圾链接,也考虑锚文本,因为从排名的角度来看,这是一个更重要的信号。这部分显然还包括当垃圾邮件发送者试图删除页面上的链接以增加目标页面的价值(论坛、评论、留言簿等),以及显然更邪恶的黑客攻击和删除技术。隐藏技巧

这组技巧是指当你使用一般不引人注意的方法来提高页面的排名时。或者更恰当地说,隐藏助推技术。这些当然是更有问题的,搜索引擎往往把它们视为更阴险的,而不是助推剂g的。

内容隐藏:这些技术在浏览器呈现页面时隐藏术语和链接。更常见的方法是使用配色方案,使相关元素有效地不可见。隐形人:我们都知道这个,对吧?这是指识别搜索引擎爬虫,并试图向爬行器显示与普通用户不同的页面版本。有人认为,这可以减少用户或竞争对手报告的更改,否则他们可能会看到垃圾页面。重定向:浏览器以同样的方式自动重定向页面,这样页面就会被引擎索引,但用户永远不会真正看到它。从本质上来说,这是一个与引擎博弈的代理/入口,并误导用户。垃圾邮件

语言:在一些测试中,搜索工程师查看页面的实际语言,看看他们能找到什么。值得注意的是,法语是最常见的垃圾邮件聚集地,其次是德语和英语。我发现这种模式很有趣。

域:. biz域被发现的垃圾邮件率比其他域高得多,我相信这并不奇怪。其次是。us和。com域名。但是。biz远远高于其他的,离他们远点,好吗?每页字数:另一种常用的方法。他们发现,文本更多的页面往往包含更多的垃圾邮件。一旦超过1500字,这条曲线就会减少。750-1500似乎是垃圾邮件发送者的最佳位置。页面TITLE中的

关键字:这是他们将关注的另一个领域,因为测试表明,垃圾页面在TITLE元素中使用的ws比非垃圾页面多得多。

锚文本的数量:另一种有趣的方法涉及查看页面上文本与锚文本的比例。这可以是在页面或站点级别。锚文本(标准文本)比例高的网站更有可能是垃圾网站。

可见内容的比例:这个比例与使用隐藏文本的尝试有关,不要与代码与文本的比例混淆。他们查看的是没有实际呈现在页面上的文本的百分比。

可压缩性:作为对抗KW填充的一种机制,搜索引擎还可以查看压缩比。或者更具体地说,重复或内容旋转。搜索引擎经常压缩页面以节省索引和处理。垃圾邮件页面可能会有一个压缩比(未压缩的除以压缩的)。

全球流行词汇:查找KW填充的另一种好方法是将页面上的词汇与现有查询数据和已知文档进行比较。从本质上说,如果有人在给定的术语中填充KW,那么它们的用法将比用户查询和已知的好页面更不自然。

查询垃圾邮件:由于查询分析、点击数据和个性化的兴起,垃圾邮件发送者可能会寻求查询各种目标术语并点击自己的结果。通过观察查询的模式,结合其他信号,这些策略将在统计上变得明显。

主机级垃圾邮件查看服务器和/或注册商级别的其他站点和域。就像信任等级一样,很多时候垃圾邮件发送者会和其他垃圾邮件发送者出现在同一个社区。基于短语的

:使用这种方法,使用训练文档的概率学习模型以相关短语的形式查找文本异常。这就像注射了类固醇的KW。查找统计异常通常会突出显示垃圾文档。

链接垃圾邮件

TrustRank:这个方法有很多名字,TrustRank是雅虎的风格。这个概念围绕着拥有“好邻居”展开。研究表明,好的网站链接到好的网站,反之亦然。你交什么样的朋友就知道你是什么样的人。

链接填充:这更像是一种现场方法,垃圾邮件发送者会创建大量低价值的页面,并指向所有链接(甚至是现场链接)。到目标页面。垃圾网站往往有更高比例的这类不自然的外观(已知的良好页面的训练集)。

裙带链接:这里我们有从付费链接到交易链接(互惠)的所有链接。虽然这对seo来说可能是一个模糊的领域,但搜索引擎肯定认为任何互惠形式的链接操作都是公开的操作。

拓扑垃圾邮件(链接农场):虽然我们对此有自己的说法,但搜索引擎会查看图中链接与已知“好”站点的比例。通常情况下,那些想要操纵引擎的人会有更高比例的本地链接。

时间异常:垃圾邮件站点通常从语料库中的其他页面中脱颖而出的另一个领域是历史数据。在索引中有一个“正常”站点的链接获取和衰减的平均值。时间数据可以用来帮助检测参与非自然链接建设习惯的垃圾网站。这一切的意义是什么?对我来说,这条小径在几个层面上都很有趣。让我们来看看:

信号排名:如果我们对他们对我们的逆向工程进行逆向工程,我们就可以开始真正看到哪些信号是重要的,哪些信号是他们希望保护的。了解他们在保护什么就能知道他们认为什么是重要的。对吧?信号漏斗:考虑到在链接垃圾上投入的大量精力,我们确实知道现代链接中心搜索引擎对不那么多样化的排名方法感兴趣。也就是说,如果你需要链接来排名,他们知道在哪里寻找垃圾邮件发送者。处理网络垃圾邮件与搜索的未来密切相关。观察和学习。你们是坏人:如前所述,我们不在大多数搜索工程师的圣诞贺卡列表上。了解并理解这一点。他们容忍我们——即使是我们当中最善意的“白帽”。抑制更常见:我学到的另一件事是,通常情况下,特别是对于边缘链接垃圾邮件,果汁会被关闭,而不是网站去索引。这是惩罚还是过滤?这有关系吗?权威/信任:我们应该明智地观察我们在哪里打球。建立权威和与其他已知实体建立联系是非常重要的。和往常一样,如果您要为搜索引擎进行优化,那么更好地理解搜索引擎是没有坏处的。见鬼,如果我们作为一个群体,开始更好地理解搜索工程师和他们面临的挑战,也许有一天他们会称赞我们。不,那只是一个愚蠢的梦想。有一件事总是很重要,要记住的是,在大多数情况下,没有一个信号或方法被认为是确定的。搜索引擎经常使用各种方法来查找垃圾邮件。对于我们这些表现良好的人来说,这意味着假阳性的几率更小。让你的客户或你自己陷入困境通常意味着你会满足不止一个因素。也就是说,大多数搜索社区的人都不是SEO的狂热爱好者,还有一些人认为即使是很小的“操纵”也应该受到惩罚。据我所知,我们现在还不必太担心私刑。最终会有级别和阈值,只要你不绊倒太多的线,事情应该是ok的。有一件事是肯定的,如果你在信息检索方面有更好的基础,你将成为一个更好的SEO。这篇文章涉及了一些常见的方面——有兴趣的人还有很多。我希望你喜欢这次旅行…小心点!在我结束之前,这里有大量的研究和阅读,如果你想了解更多,你可以进入-我的目标一直是激励窥视者学习更多。没有任何一篇博客文章能够公正地处理任何IR(信息检索)主题。下面是我在整理这篇文章时注意到的一些内容。

网络垃圾邮件研究论文垃圾邮件双漏斗:连接网络垃圾邮件发送者与广告商-搜索游侠系统检测(AIRWeb 2007) Web上的对抗性信息检索- (AIRWeb 2007)使用决策树的Web垃圾邮件检测-印度信息技术学院Web垃圾邮件检测:基于链接和基于内容的技术-通过内容和超链接识别雅虎网络垃圾邮件-雅虎

TrustRank概念

用TrustRank对抗网络垃圾邮件-斯坦福2004传播信任和不信任以降级网络垃圾邮件-利海大学识别Web上的裙带关系链接- B.Davison通过语言模型不一致检测裙带关系链接-斯坦福知道你的邻居:使用Web拓扑结构检测Web垃圾邮件- Yahoo识别Web实体之间的过度互惠链接- Yahoo(专利)

基于链接的小样本学习网络垃圾邮件检测-中国科学院消除链接剽窃对网页搜索排名的影响- B Wu, BD Â使用时间信息检测链接垃圾邮件- Microsoft使用有偏差随机游走从垃圾邮件种子集提取链接垃圾邮件- B Wu,K Chellapilla链接分析用于网络垃圾邮件检测——基于质量估计的雅虎研究链接垃圾邮件检测——基于斯坦福链接的网络垃圾邮件描述和检测——雅虎

隐/显信号

用用户行为分析识别网络垃圾邮件——面向AIRweb用户行为的网络垃圾邮件检测——通过商业意图分析的WWW Web垃圾邮件检测查询日志挖掘检测垃圾邮件-雅虎

隐身

隐身和重定向:一个初步的研究利哈伊大学。在线社交网络中的视频垃圾邮件识别-理工大学社交垃圾邮件检测-印第安纳大学

语言/语义相关的

网络垃圾邮件识别通过语言模型分析- AirWeb检测垃圾邮件Microsoft Research

主题包括搜索广告和拍卖,搜索和隐私,搜索排名,国际化,反垃圾邮件努力,本地搜索,点对点搜索,以及博客和在线社区的搜索。

更多视频:

使用秩传播和概率计数的基于链接的垃圾邮件检测-雅虎!研究网页垃圾邮件挑战赛2007 Track II -安全计算公司研究网页垃圾邮件检测-罗马萨皮安扎大学一种新的检测网络垃圾邮件的方法-微软超链接数据库中检测链接垃圾邮件的方法-谷歌识别基于雅虎链接的垃圾邮件检测-雅虎Â

隐身和重定向垃圾邮件

隐身检测利用流行度和市场价值。-识别隐身网络服务器的微软系统和方法- Najork, Marc A.;2002年1月4日(现在与微软)搜索游弋系统和搜索垃圾邮件分析和浏览器保护(隐身)的双漏斗模型-微软发现和确定网络代理的特征-雅虎

其他

基于信息检索的短语检测垃圾邮件文档-谷歌多媒体垃圾邮件使用语音确定现在,如果这还不是你想知道的关于网络垃圾邮件的一切,那么我不知道什么是!!: 0)

David Harry是可靠SEO的SEO和搜索分析师。他还经营着SEO培训Dojo,这是一个SEO领域的顶级社区。你也可以通过推特@theGypsy找到他。WordStream的客座作者是在线营销社区的专家、企业家和充满激情的作家,他们为我们的博客带来了广泛话题的不同观点。

参见客座作者

的其他文章,更多像这样的文章如何为SEO创建支柱页面(有例子!)

学习如何提高你的排名,让你的内容更多地浮出水面,并建立你的声誉。

2022年谷歌排名前10个因素(+如何优化它们)

了解在对您的站点进行排名时,什么对谷歌真正重要——以及如何为此进行优化。

如何在谷歌上排名更高:17策略为2022

专业提示和SEO技巧-从初学者到高级,你不会想错过!

评论

评论前请阅读我们的评论政策。

喜欢 (0)