感谢层林尽染大佬的技术支持:https://github.com/cenglin123/SteganographierGUI
https://cangku.moe/archives/215860#preface
提取码的反爬处理
躲猫猫虽然能降低倒卖者手动举报概率,但仍有可能被倒卖者的爬虫扫描到, 所以链接的提取码必须要有反爬措施,让爬虫无法注意到链接以及提取码的出现
基于文字识别+逻辑推理的验证码是比较有效的办法。

我们可以直接把百度云的提取码转换为验证码图片,或者让程序随机生成一个验证码来作为百度云的提取码。
点击复制文本可以复制验证码内容,点击复制图片则会把图片复制到剪贴版,方便 ctrl+v 进行粘贴。
我们除了可以直接使用这个验证码作为提取码,也可以如下生成 2 组验证码,然后进行逻辑推理式的反爬:

然后说:
【提取码为下列图片中第一个验证码的后半部分与第二个验证码的前半部分的组合,请倒着输入】
上图的答案是 PJ1B
也可以生成一排验证码然后选择其中的一个或一部分:

如上图,此时可以说:【请输入红色验证码的中间四位】(答案为【EIGS】),或者【请输入每个验证码的第一位字符组成 4 位提取码】(答案为【TCPL】)
以上只是示例,更多的逻辑反爬方式大家感兴趣可以自己探索,只需要思考人类容易完成,机器难以完成的方式即可。
像这样对于人类容易理解的问题,对于目前即使是多模态的模型都是很困难的。
对于纯视觉模型来说,最多可以识别出验证码的内容,但是无法进行逻辑推理,自然无法找到正确的答案;
而对于多模态大语言模型来说,可以进行逻辑推理,但目前大多数拼接多模态模型是很难识别正确的。
目前的原生多模态模型(自称)不多,GPT-4o 和 Claude 各算一个,但目前实际测试下来不管是 GPT-4o 还是 Claude-3.5 ,都无法准确得到答案,这两个不行,其他的模型也就不用看了,退一步说,即使今后有些 SOTA 模型能够实现这样的功能,由于任务包含了多模态图片文本识别理解 ,其成本也会变得不可控,这种反爬方法在今后可以预见的一段时间内应该都是有效的。
链接的反爬处理
除了提取码以外,链接本身也要反爬,因为如果爬虫检测到链接却无法访问,就会给倒卖者“通风报信”,这样就会让对方注意到提取码进行了反爬处理,此时对方会手动举报。
(1) 插字法
传统的链接反爬主要是插字法,比如给百度链接插入无关的汉字:
ht为tps://pa海n.bai绵du.co宝m/s/1e9YTAyr宝8gOPCqOSx8KoR8g?pwd=wp79
此资源为海绵宝宝
不过这种反爬手法现在已经基本无效了,因为只需要正则一下去除汉字即可。
(2) 截断法
还有一种手法是截断法,就是只取链接的后半部分,使得爬虫无法识别到链接的关键词:
度链
1e9YTAyr8gOPCqOSx8KoR8g
wp79
其中提取码也可以同步进行反爬处理,这种手法需要大家明白百度链接的结构。
不过上面 2 种情况都只是简单修改避免触发爬虫,并没有真正意义上隐藏链接,对方只需要多加一个匹配逻辑或者用大语言模型 API 赋能爬虫就可以破解,想要避免被爬,需要真正隐藏链接的存在,接下来讲几个隐藏链接的方法。
(3) 加密法
通过类似于萌研社的熊曰等加密方法,把链接转换为加密后的字符
地址:http://hi.pcmoe.net/index.html
加密前
https://pan.baidu.com/s/1e9YTAyr8gOPCqOSx8KoR8g?pwd=wp79
加密后
熊曰:呋食食雜嗄盜覺吃取註啽現嘿你動果森物喜歡噗洞嘿嗒噤樣麼森嗚襲吖果森家爾啽擊擊歡嗷覺呱森笨沒你類破嚁現嗒肉破哈擊呦非呱蜂吃你物咬嚄萌洞擊嗄襲呱物人你

加密后需要到同界面下面输入密文,点击【领悟熊所言的真谛 ↑↑】,才能解密还原链接。除了熊曰以外,同界面还有佛曰、兽音、颜文、AES 等其他加密方法,大家都可以使用。
注意,不要使用 Base64 这种比较通用的编码方法,因为过于常见很可能已经加入了爬虫的尝试逻辑中,建议使用熊曰这种闭源的加密方法;此外也不要使用 MD5、SHA1 等哈希算法,因为哈希算法是单向的不可逆,不能还原链接。
(4) 二维码法
还有一种办法就是把链接转换为二维码,比如说在百度分享时使用二维码链接,这种链接用爬虫脚本的难度较大。
如下图所示

因此上述这种链接必须由人工才能完成举报。
在尽量不影响下载者获取资源的情况下,减低分享传火者操作成本的情况下增加倒卖者的举报成本,就是对抗倒卖者最直接有效的手段。
提到熊曰,可以考虑看一下github项目SheepChef/Abracadabra,仿文言文格式,支持AES加密。
你文中那个链接,用默认密钥加密过后的效果:关森远,瀚语求书,莺乃返振楼之冰。以鸳度,如登兰探雪,予见夫悠琴聪岩,在纯驿之竹。听想同其灯,而去欲画以鲤者,空也。银雁想怡林之余,彰岩中之纯,是城也,花良鲤轻,月莹茶和。琴与茶选,此茶有早涧极文,坚云速书,今之歌者,亦将有添于此庭。
这是不是就一点都看不出来了
如果被封了,趁早用国外盘吧。没有更好的办法
以上评论亮了
哟西

学到了
不得不说次元真的是人才辈出啊…
我还是希望能有一些,便捷的直链按钮,我更想方便地让大家的下载……
而不是受制于厂商限速。
提到熊曰,可以考虑看一下github项目SheepChef/Abracadabra,仿文言文格式,支持AES加密。
你文中那个链接,用默认密钥加密过后的效果:关森远,瀚语求书,莺乃返振楼之冰。以鸳度,如登兰探雪,予见夫悠琴聪岩,在纯驿之竹。听想同其灯,而去欲画以鲤者,空也。银雁想怡林之余,彰岩中之纯,是城也,花良鲤轻,月莹茶和。琴与茶选,此茶有早涧极文,坚云速书,今之歌者,亦将有添于此庭。
这是不是就一点都看不出来了
@2580 这个项目很有意思,但是在本场景下开源反而是缺点,和 Base64 一样,可以被加入爬虫的自动尝试逻辑中。
@层林尽染 因为倒狗是内鬼,所以大多数加密方法都没有太多意义,能被写入爬虫的开源方法不是很建议使用
可以使用下面这样自定义密码的 AES 加密
https://bafkreigh3txpz6f4umsu35crfb4i4w5peyogebq56hod6ghnwzcui7zpoe.ipfs.dweb.link/
@层林尽染 我看了一下,Abracadabra 支持自定义密码,那么我之前说的不对,这个项目可以的