📜  在 Google Colab 中导入 CSV 文件的方法

📅  最后修改于: 2022-05-13 01:55:44.030000             🧑  作者: Mango

在 Google Colab 中导入 CSV 文件的方法

Colab(Collaboratory 的缩写)是 Google 的免费平台,允许用户使用Python进行编码。它是由 Google 提供的基于 Jupyter Notebook 的云服务。这个平台让我们可以直接在云端免费训练机器学习模型。无论您的 Jupyter Notebook 做什么,Google Colab 都会做更多事情,即您可以免费使用 GPU 和 TPU。 Google Colab 的一些优势包括快速安装和在用户之间实时共享笔记本。
但是,加载 CSV 文件需要编写一些额外的代码行。在本文中,我们将讨论加载 CSV 文件并将其存储在 pandas 数据框中的三种不同方法。要开始使用,请登录您的 Google 帐户,然后转到“https://colab.research.google.com”并单击“新建笔记本”

导入 CSV 的方法

从本地驱动器加载数据

要从本地驱动器上传文件,请在单元格中写入以下代码并运行它

Python3
from google.colab import files
 
 
uploaded = files.upload()


Python3
import pandas as pd
import io
 
df = pd.read_csv(io.BytesIO(uploaded['file.csv']))
print(df)


Python3
url = 'copied_raw_github_link'
df = pd.read_csv(url)


Python3
!pip install -U -q PyDrive
 
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
 
 
# Authenticate and create the PyDrive client.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)


Python3
link = 'https://drive.google.com/file/d/1KiYk09VqGI6tjNpalom5wI90GrC2p-lz/view'
 
import pandas as pd
 
# to get the id part of the file
id = link.split("/")[-2]
 
downloaded = drive.CreateFile({'id':id})
downloaded.GetContentFile('xclara.csv') 
 
df = pd.read_csv('xclara.csv')
print(df)


Python3
import pandas as pd
 
df = pd.read_csv("file_path")
print(df)



你会得到一个屏幕,

单击“选择文件” ,然后从本地驱动器中选择并下载 CSV 文件。稍后编写以下代码片段将其导入熊猫数据框。

Python3

import pandas as pd
import io
 
df = pd.read_csv(io.BytesIO(uploaded['file.csv']))
print(df)


输出:

来自 Github

这是在 Colab 中上传 CSV 文件的最简单方法。为此,请转到 GitHub 存储库中的数据集,然后单击“View Raw” 。将链接复制到原始数据集并将其作为参数传递给 pandas 中的 read_csv() 以获取数据帧。

Python3

url = 'copied_raw_github_link'
df = pd.read_csv(url)


输出:

从您的 Google 云端硬盘

我们可以通过两种方式导入上传到我们的谷歌驱动器上的数据集:
1. 使用 PyDrive
这是最复杂的导入数据集的方法。为此,我们首先需要从Python安装程序(pip)安装 PyDrive 库并执行以下命令。

Python3

!pip install -U -q PyDrive
 
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
 
 
# Authenticate and create the PyDrive client.
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)


输出:

单击提示获取身份验证的链接以允许 Google 访问您的云端硬盘。您将看到顶部显示“Google Cloud SDK 想要访问您的 Google 帐户”的屏幕。获得许可后,复制给定的验证码并将其粘贴到 Colab 的框中。
现在,转到云端硬盘中的 CSV 文件,获取可共享链接并将其存储在 Colab 中的字符串变量中。现在,要在数据框中获取此文件,请运行以下代码。

Python3

link = 'https://drive.google.com/file/d/1KiYk09VqGI6tjNpalom5wI90GrC2p-lz/view'
 
import pandas as pd
 
# to get the id part of the file
id = link.split("/")[-2]
 
downloaded = drive.CreateFile({'id':id})
downloaded.GetContentFile('xclara.csv') 
 
df = pd.read_csv('xclara.csv')
print(df)


输出:

2. 安装驱动
这种方法比上述方法简单干净。

  • 在您的 Google 云端硬盘中创建一个文件夹。
  • 上传此文件夹中的 CSV 文件。
  • 在您的 Colab Notebook 中编写以下代码:
from google.colab import drive

drive.mount(‘/content/drive’)

就像前面的方法一样,这些命令会将您带到 Google 身份验证步骤。稍后像我们在上一种方法中所做的那样完成验证。现在在 Notebook 的左上角,有一个File菜单,然后单击Locate in Drive ,然后找到您的数据。然后将 CSV 文件的路径复制到笔记本中的变量中,并使用 read_csv() 读取文件。

path = "copied path"
df_bonus = pd.read_csv(path)

现在,要读取文件,请运行以下代码。

Python3

import pandas as pd
 
df = pd.read_csv("file_path")
print(df)


输出: