友链优化
前言
友链不再更新了令人忧伤,比忧伤更忧伤的是友链跳黄网了。
问题描述
我的友链页面根据评论提交的网址自动生成截屏。如果 header 头返回正常响应即视为网址可用,并没有判断最终着陆页。结果今天我发现有个链接打开后跳到了灰产。
问题分析
有一个常规做法是,灰产会注册大量建过站并已过期的域名,将流量导入到自己的垃圾站。通常不会在原域名建站,而是做跳转导流。基于这个事实,只要判断一个网址和它最终的着陆页是否有一致性即可。
解决办法
抓取网址的 header 头,判断与着陆地址是否有包含关系。例如访问 https://www.a.com 跳转到 https://a.com 是正常的,跳转到 https://b.com 就标记为灰产。
当然这会有误杀,比如博友更换域名,原域名做了跳转的情况。目前没有想到办法,只能手动改数据库。