📜  ML |机器学习中的数据简介(1)

📅  最后修改于: 2023-12-03 15:17:40.038000             🧑  作者: Mango

ML | 机器学习中的数据简介

什么是数据?

在机器学习中,数据是指收集、处理、存储信息的材料。这些数据可能是来自各种来源的,例如传感器、数据库、Web 数据等等。虽然数据的形式和来源各不相同,但我们需要了解和处理这些数据,并将其变成有用的信息和知识,以解决实际问题。

数据可以分为结构化数据和非结构化数据两类。结构化数据是具有固定格式和字段的数据,例如关系数据库中的表格数据。而非结构化数据没有固定格式和字段,例如文本、图像、音频和视频数据等。

为什么数据很重要?

在机器学习中,数据质量对结果影响至关重要。数据质量好的情况下,模型训练得到的结果更可靠、更准确。相反,数据质量差的情况下,模型训练得到的结果会失真或不可靠。

因此,在机器学习中,我们需要做好以下几个方面的工作来保证数据质量:

  • 数据准备:包括清洗、去噪、缺失值处理等。
  • 特征工程:即从原始数据中提取和选择有用的特征,以便模型训练和预测。
  • 数据集划分:将数据集划分成训练集、验证集和测试集,以评估模型的性能和泛化能力。
常用的数据格式

在机器学习中,常用的数据格式包括:

  • CSV 格式:逗号分隔值文件,是一种常用的表格数据存储格式。
  • JSON 格式:JavaScript 对象表示法,是一种轻量级的数据交换格式。
  • XML 格式:扩展标记语言,一种用于存储和传输数据的标记语言。
  • 图像格式:例如 JPEG、PNG、GIF、BMP 等。
  • 音频格式:例如 MP3、WAV、MIDI 等。
  • 视频格式:例如 MP4、AVI、WMV 等。
总结

数据是机器学习的重要组成部分,好的数据对模型的训练和预测至关重要。数据可以分为结构化数据和非结构化数据,我们需要通过数据准备和特征工程等方法来保证数据质量,以便模型训练和预测。常用的数据格式包括 CSV、JSON、XML、图像格式、音频格式和视频格式等。