💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
* **数据代表性(data representativeness):** 出现训练集中只包含类别0~7,测试集中只包含类别8~9,通常应该随机打乱数据 * **时间箭头(the arrow of time):** 根据过去**预测**未来(比如明天的天气、股票走势等),在划分数据前你不应该随机打乱数据,因为这么做会造成**时间泄露(temporal leak)**,你的模型将在未来数据上得到有效训练。始终确保测试集中所有数据的时间都晚于训练集数据 * **数据冗余(redundancy in your data):** 某些数据点出现了两次,一定要确保训练集和验证集之间没有交集