ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
>最近和快手杠上了,后端又跑过来问我 python前端爬虫爬到的是韩文.... 说浏览器显示是正常的,但是F12源码里就是韩文... 没办法,又只好放下手中的事情,帮他看看.... 主要我也好奇咋实现的... 如下图 , 在dom中是类似于韩文的文字,在页面中显示又是正常的数据,这样就导致了,爬虫在爬取页面敏感数据的时候,得到的是“韩文”,而不是我们想要的数据,以此达到保护敏感数据的目的。 ![](https://img.kancloud.cn/7a/68/7a6854c49f596edc4656405efbbc39bb_794x406.png) 看一眼,如下图,觉得很神奇 但是仔细一研究,嘿,不就是自己定制的一套字体库么,唬谁呢。 ![](https://img.kancloud.cn/73/74/737404e65a01253a8527c083c71ce1db_1015x413.png) 我们这个“韩文”复制到网站[https://tool.chinaz.com/tools/unicode.aspx](https://tool.chinaz.com/tools/unicode.aspx) 在线转换编码一下, ![](https://img.kancloud.cn/a0/04/a0049a9294da88172dea535b4d390c23_1192x358.png) 嘿嘿,知道怎么回事了三。 1. ꯎ껾껾뷝 (第一步) 2. \[b'\\\\uabce', b'\\\\uaefe', b'\\\\uaefe', b'\\\\ubddd'\] (第二步) 3. ['4', '0', '0', '1'] (第三步) 反正数字就10个,遍历一次,然后自己写套映射关系。 每次将抓到的“韩文”对比转换一下再入库,就完事啦~