快手「反」反爬虫的研究记录 · 做前端有馒头吃

>最近和快手杠上了，后端又跑过来问我 python前端爬虫爬到的是韩文.... 说浏览器显示是正常的，但是F12源码里就是韩文... 没办法，又只好放下手中的事情，帮他看看.... 主要我也好奇咋实现的... 如下图，在dom中是类似于韩文的文字，在页面中显示又是正常的数据，这样就导致了，爬虫在爬取页面敏感数据的时候，得到的是“韩文”，而不是我们想要的数据，以此达到保护敏感数据的目的。 ![](https://img.kancloud.cn/7a/68/7a6854c49f596edc4656405efbbc39bb_794x406.png) 看一眼，如下图，觉得很神奇但是仔细一研究，嘿，不就是自己定制的一套字体库么，唬谁呢。 ![](https://img.kancloud.cn/73/74/737404e65a01253a8527c083c71ce1db_1015x413.png) 我们这个“韩文”复制到网站[https://tool.chinaz.com/tools/unicode.aspx](https://tool.chinaz.com/tools/unicode.aspx) 在线转换编码一下， ![](https://img.kancloud.cn/a0/04/a0049a9294da88172dea535b4d390c23_1192x358.png) 嘿嘿，知道怎么回事了三。 1. ꯎ껾껾뷝 （第一步） 2. \[b'\\\\uabce', b'\\\\uaefe', b'\\\\uaefe', b'\\\\ubddd'\] （第二步） 3. ['4', '0', '0', '1'] （第三步）反正数字就10个，遍历一次，然后自己写套映射关系。每次将抓到的“韩文”对比转换一下再入库，就完事啦~