💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
数据转换就是将数据进行重构以及标准化, 消除数据的不一致, 转换最主要的作用就是数据清洗。 <br/> 一般数据清洗包含一下内容 1. 预处理: 对于大的数据文件的加载, 尤其是新文件, 需要先进行判断, 不能贸然加载; 2. 标准化处理: 将不一致的数据进行统一; 3. 去重处理: Hive中的去重函数`distinct`[在Hive中, 效率较低, 不推荐\], `group by`, `row_number`; 4. 错误值处理: 产生原因一般就是业务系统不够完善, 导致一些不合法的值进入到了数据库, 例如日期格式不正确, 数值越界, 全角半角等等, 处理方式需要和老大/领导沟通一下, 对数据是舍弃,或者修改; 5. 缺失值处理: 首先判断一下重要程度, 然后判断数据量大不大, 如果数据很重要, 但是缺失很多, 对接三方库;