📜  用于计算机视觉的 PyTorch 功能转换

📅  最后修改于: 2022-05-13 01:54:23.074000             🧑  作者: Mango

用于计算机视觉的 PyTorch 功能转换

在这篇文章中,我们将讨论 10 个PyTorch函数转换,最常用于使用PyTorch进行计算机视觉和图像处理。 PyTorch提供了torchvision库来执行不同类型的计算机视觉相关任务。可以从torchvision.transforms.functional模块访问功能转换。函数变换提供了对变换的更多控制,因为它不包含随机数生成器作为参数。我们可以在函数转换中指定/生成所有参数。

大多数功能变换都接受 PIL 图像和张量图像。张量图像是形状为 (C, H, W) 的张量,其中 C 是通道数,H 和 W 是图像的高度和宽度。在详细介绍每个转换之前,让我们首先导入所需的库/包/模块并读取图像:

Python3
import torchvision.transforms.functional as F
import torch
from PIL import Image
  
image = Image.open('nature.jpg')


Python3
output = F.adjust_brightness(image, brightness_factor=3.0)
output.show()


Python3
output = F.adjust_contrast(image,contrast_factor=4.2)
output.show()


Python3
output = F.adjust_hue(image,hue_factor=-0.3)
output.show()


Python3
output = F.adjust_saturation(image,saturation_factor=7.0)
output.show()


Python3
output = F.adjust_sharpness(image,sharpness_factor=5.0)
output.show()


Python3
output = F.gaussian_blur(image, kernel_size = (11,13), sigma = None)
output.show()


Python3
img_tensor = F.pil_to_tensor(pil_image)


Python3
pil_img = F.to_pil_image(img_tesnor)


Python3
img_tensor = F.pil_to_tensor(image)
img_tensor = img_tensor.type(torch.float)
mean, std = img_tensor.mean(), img_tensor.std()
img = F.normalize(img_tensor, mean=mean, std=std)
output = F.to_pil_image(img)
output.show()


Python3
output = F.invert(image)
output.show()


我们将torchvision.transforms.functional模块导入为 F。在下面讨论的所有功能转换中,我们使用 F 而不是使用torchvision.transforms.functional 。我们将下图读取为 PIL 图像。我们使用下面的图像作为所有变换的输入图像。

现在让我们详细讨论函数变换。请注意,如果输入是 PIL 图像,则输出也是 PIL 图像,对于 Tensor 图像也是如此。

1. 调整亮度()函数:

此功能变换调整图像的亮度。它接受 PIL 图像和张量图像。它返回经过亮度调整的 PIL(或张量)图像。我们将brightness_factor作为参数传递给它。亮度因子是任何非负浮点数。看看输出如何随着不同的brightness_factor变化——

  • 亮度因子= 0,黑色输出图像。
  • Brightness_factor = 1,原始图像。
  • 0 < brightness_factor < 1,输出图像较暗。
  • Brightness_factor > 1,输出图像更亮。

例子:

在下面的代码片段中,我们使用brightness_factor 为3.0 调整了图像的亮度。

Python3

output = F.adjust_brightness(image, brightness_factor=3.0)
output.show()

输出:

2.adjust_contrast()函数:浮点数

我们可以使用函数变换adjust_contrast来改变图像的对比度。它接受 PIL 图像和张量图像并返回对比度调整的 PIL(或张量图像)。我们将contrast_factor作为参数传递给它。 contrast_factor是任何非负浮点数。看看这个变换的输出是怎样的——

  • 如果 contrast_factor = 0,则为实心灰色图像。
  • 如果 contrast_factor = 1,则为原始图像,
  • 要降低对比度,请使用 0 < contrast_factor < 1。
  • 要增加对比度,请使用 contrast_factor > 1。

例子:

在代码片段中,我们使用 contrast_factor 将图像的对比度更改为 4.2。看看输出。请注意,如果输入是 PIL 图像,则输出也是 PIL 图像,对于张量图像也是如此。

Python3

output = F.adjust_contrast(image,contrast_factor=4.2)
output.show()

输出:

3.adjust_hue()函数:

可以使用adjust_hue变换调整图像的色调。与上述转换相同,它也接受 PIL 图像和张量图像。

为了调整色调,首先将图像转换为HSV (色调、饱和度、值)颜色空间。通过将图像转换为 HSV 来调整图像色调,并在色调通道 (H) 中进行更改。然后将图像转换回原始图像。

此转换的重要参数是hue_factor 。它的范围值为 [-0.5, 0.5]。 0.5 和 -0.5 分别在正方向和负方向上与 HSV 颜色空间中的色调通道完全相反。因此,hue_factor=-0.5 和 hue_factor=0.5 都给出了具有互补色的图像,而 hue_factor=0 给出了原始图像。

例子:

在截取的代码中,我们将带有 hue_factor 的图像对比度更改为 -0.3。

Python3

output = F.adjust_hue(image,hue_factor=-0.3)
output.show()

输出:

4.adjust_saturation()函数:

另一个重要的函数转换是adjust_saturation 。为了增强图像的饱和度,我们可以使用这种变换。接受 PIL 图像和张量图像。饱和因子作为参数传递。饱和因子是一个浮点值。

例子:

在截取的代码中,我们使用saturation_factor = 7.0 增强了输入图像的饱和度。

Python3

output = F.adjust_saturation(image,saturation_factor=7.0)
output.show()

输出:

5. adjust_sharpness()函数:

此转换调整图像的清晰度。它适用于 PIL 和张量图像。输入参数sharpness_factor是一个非负浮点值。如果sharpness_factor为零,则返回模糊图像。 1的sharpness_factor值给出了原始图像。

例子:

使用下面的代码片段,我们将清晰度提高了 5.0 倍。

Python3

output = F.adjust_sharpness(image,sharpness_factor=5.0)
output.show()

输出:

6. gaussian_blur()函数:

高斯模糊用于模糊或平滑图像。它减少了图像中的噪点。为了在 PyTorch 中模糊图像,我们可以应用函数变换gaussian_blur。它接受kernel_sizesigma以及输入图像作为参数。 kernel_size是高斯核大小。它是一个正整数和奇数的序列,例如 (kx, ky) 或平方核的单个整数(正数和奇数)。 sigma是一个可选参数,是高斯核标准差。

例子:

使用下面的代码片段,您可以平滑或模糊图像。您可以对 kernel_size 和 sigma 进行必要的更改以实现所需的模糊。

Python3

output = F.gaussian_blur(image, kernel_size = (11,13), sigma = None)
output.show()

7. pil_to_tensor()函数:

我们可以使用这种变换将 PIL 图像转换为张量。它将 PIL 图像转换为与输入图像具有相同 dtype 的张量。

Python3

img_tensor = F.pil_to_tensor(pil_image)

8. to_pil_image()函数:

我们可以使用to_pil_image转换将张量或 ndarray 转换为 PIL 图像。

Python3

pil_img = F.to_pil_image(img_tesnor)

9. normalize()函数:

另一个重要的函数变换是归一化的。它只接受张量图像和浮动 dtype 作为输入。所以我们需要将 PIL 图像转换为张量图像并将其转换为浮点数。我们已经看到了如何将 PIL 图像转换为张量以及将张量转换为 PIL 图像。

例子:

我们用均值和标准对图像进行归一化。我们计算了输入图像的均值和标准差。您可以使用 ImageNet 数据集的均值和标准差。

Python3

img_tensor = F.pil_to_tensor(image)
img_tensor = img_tensor.type(torch.float)
mean, std = img_tensor.mean(), img_tensor.std()
img = F.normalize(img_tensor, mean=mean, std=std)
output = F.to_pil_image(img)
output.show()

输出:

10. 反转()函数:

我们可以使用函数transform invert 反转输入图像的颜色。

Python3

output = F.invert(image)
output.show()