AI-Remarks
信息熵越高,乱码概率越高;(通过信息熵来判断一个东西的概率)。
特征的维度和每一个特征代表的含义都要一模一样【比如有的数据不完整,你是选择删除空的/缺失的数据,还是对其进行填充(填充NaN呢还是填充0/1等数据)】。
当面对业务上的数据时,你要思考,哪些数据中的哪些特征是有用的,哪些是没用的;然后再对其进行进一步的处理。
百分比分类的问题都可以用 one-hot 进行处理。
信息熵越高,乱码概率越高;(通过信息熵来判断一个东西的概率)。
特征的维度和每一个特征代表的含义都要一模一样【比如有的数据不完整,你是选择删除空的/缺失的数据,还是对其进行填充(填充NaN呢还是填充0/1等数据)】。
当面对业务上的数据时,你要思考,哪些数据中的哪些特征是有用的,哪些是没用的;然后再对其进行进一步的处理。
百分比分类的问题都可以用 one-hot 进行处理。