ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
虚拟列常用于数据验证。<br/> 假设场景:已知 clickcube_mid 表中有一个字段 regioncode ,regioncode 描述了 一个 ip对应的 region 信息,这个 regioncode 目前使用的是原始值,为日志中直接获取。某一天,由于 regioncode 异常,导致 spark 进程中断,查找得知是regioncode 不合理导致,此时我们需要找到错误的 regioncode, 可以进行如下的查询: ```sql select INPUT__FILE__NAME, -- MapReduce中Mapper Task输入的文件名称 BLOCK__OFFSET__INSIDE__FILE, -- 文件中的块内偏移量 -- 文件中行的偏移量(默认不开启,set hive.exec.rowoffset=true; 设置为true则开启) ROW__OFFSET__INSIDE__BLOCK, substr(regioncode,0,20) from clickcube_mid where length(regioncode) > 100; ```