首页 > 其他分享 >数据工程师,转型人工智能岗位的理想时空通道

数据工程师,转型人工智能岗位的理想时空通道

时间:2024-11-04 08:47:54浏览次数:3  
标签:人工智能 tfds 岗位 item train print 时空 数据 mnist

序言:数据工程师是从传统软件工程师向人工智能方向转型的最佳切入点之一。数据工程师的职责通常是为人工智能项目收集和准备高质量的训练数据集,包括从互联网上获取公开数据、或自行采集、清洗、整理数据集。尽管看似简单,但数据工程师的工作至关重要,因为数据质量直接影响模型的性能,数据准备不当可能导致模型开发失败。本文接下来的几个小节将主要讲解在谷歌的TensorFlow平台上如何使用自带数据集、第三方公开数据集以及自定义的数据集来支持模型训练。

在本文的前几节中,我们实际上已经使用了多种数据集来训练模型,从Keras自带的Fashion MNIST数据集,到需要下载并预处理的图像数据集如“Horses or Humans”和“Dogs vs. Cats”。我们可能已经意识到,获取训练模型的数据有很多不同的方法。

然而,许多公共数据集要求我们在设计模型架构之前,先掌握各种特定领域的技能。TensorFlow Datasets (TFDS)的目标就是简化数据的获取方式,使数据更易于使用,因为所有获取数据的预处理步骤和将数据转化为TensorFlow友好格式的操作都已为我们准备好。

在第1和第2篇中,我们已经看到了Keras处理Fashion MNIST数据集的这种理念。回顾一下,当时我们只需这样做就可以获取数据:

data = tf.keras.datasets.fashion_mnist

(training_images, training_labels), (test_images, test_labels) = data.load_data()

TFDS基于这种理念,极大地扩展了可用数据集的数量和多样性。可用数据集的列表正在不断增长,涵盖以下类别:

• 音频:包括语音和音乐数据

• 图像:从“Horses or Humans”这样的基础学习数据集到如糖尿病视网膜病变检测等高级研究数据集

• 目标检测:包括COCO、Open Images等

• 结构化数据:包括“泰坦尼克号幸存者”、亚马逊评论等

• 摘要生成:包括CNN和Daily Mail新闻、科学论文、wikiHow等

• 文本:包括IMDb评论、自然语言问题等

• 翻译:包括各种翻译训练数据集

• 视频:包括“Moving MNIST”、“星际争霸”等

请注意,TensorFlow Datasets是独立于TensorFlow的安装包,因此在运行任何示例之前务必先安装它!如果我们使用的是Google Colab,它已经预装了。

本章将介绍TFDS及其如何大大简化训练过程。我们将探索其底层的TFRecord结构,这一结构可以在不同类型的基础数据间提供一致性。我们还将了解如何使用TFDS的提取-转换-加载(ETL)模式,以高效地处理大量数据来训练模型。

开始使用TFDS

让我们通过一些简单的例子来看看如何使用TFDS,以展示它如何为我们提供数据的标准接口,不论数据类型如何。

如果你需要安装它,可以通过以下pip命令完成:

pip install tensorflow-datasets

安装完成后,你可以通过tfds.load访问一个数据集,只需传入所需数据集的名称。例如,如果你想使用Fashion MNIST数据集,可以使用以下代码:

import tensorflow as tf

import tensorflow_datasets as tfds

mnist_data = tfds.load("fashion_mnist")

for item in mnist_data:

print(item)

务必检查从tfds.load命令返回的数据类型——打印item的输出将是数据集中本身可用的不同分割。在这个例子中,它是一个包含两个字符串“test”和“train”的字典。这些是可用的分割。

如果你想将这些分割加载到包含实际数据的数据集中,只需在tfds.load命令中指定所需的分割,例如:

mnist_train = tfds.load(name="fashion_mnist", split="train")

assert isinstance(mnist_train, tf.data.Dataset)

print(type(mnist_train))

在这种情况下,你会看到输出是一个DatasetAdapter,你可以遍历它来检查数据。这个适配器的一个好处是可以直接调用take(1)来获取第一条记录。让我们来检查一下数据的样子:

for item in mnist_train.take(1):

print(type(item))

print(item.keys())

第一个print的输出会显示每条记录中的item类型是一个字典。当我们打印其键时,可以看到在此图像数据集中,类型是“image”和“label”。所以,如果我们想检查数据集中的某个值,可以这样做:

for item in mnist_train.take(1):

print(type(item))

print(item.keys())

print(item['image'])

print(item['label'])

你会看到“image”的输出是一个28 × 28的数组(在一个tf.Tensor中),取值范围是0–255,表示像素强度。“label”会输出为tf.Tensor(2, shape=(), dtype=int64),指示该图像在数据集中属于类别2。

在加载数据集时,还可以使用with_info参数来获取数据集的相关信息,例如:

mnist_test, info = tfds.load(name="fashion_mnist", with_info=True)

print(info)

打印info会提供数据集内容的详细信息。例如,对于Fashion MNIST,你会看到如下输出:

tfds.core.DatasetInfo(

name='fashion_mnist',

version=3.0.0,

description='Fashion-MNIST是一个包含Zalando商品图像的数据集,包含6万个训练样本和1万个测试样本。每个样本是一个28x28的灰度图像,与10个类别中的某个标签相关联。',

homepage='https://github.com/zalandoresearch/fashion-mnist',

features=FeaturesDict({

'image': Image(shape=(28, 28, 1), dtype=tf.uint8),

'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),

}),

total_num_examples=70000,

splits={

'test': 10000,

'train': 60000,

},

supervised_keys=('image', 'label'),

citation="""@article{DBLP:journals/corr/abs-1708-07747,

author = {Han Xiao and

Kashif Rasul and

Roland Vollgraf},

title = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms},

journal = {CoRR},

volume = {abs/1708.07747},

year = {2017},

url = {http://arxiv.org/abs/1708.07747},

archivePrefix = {arXiv},

eprint = {1708.07747},

timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},

biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},

bibsource = {dblp computer science bibliography, https://dblp.org}

""",

redistribution_info=,

)

在这里,你可以看到数据集的详细信息,比如前面演示过的分割和数据集中的特征,还有额外的信息如引用、描述和数据集版本。

本节主要为TFDS的使用做了一个入门介绍,接下来的两章将详细说明如何在实际场景中使用它。TFDS是TensorFlow Datasets的简称。TensorFlow Datasets是一个专门为人工智能和机器学习模型开发提供支持的库,内含多种预处理好的数据集,方便用户直接在TensorFlow中使用,免去了编写复杂的数据导入和预处理代码的步骤。

标签:人工智能,tfds,岗位,item,train,print,时空,数据,mnist
From: https://www.cnblogs.com/jellyai/p/18524358

相关文章

  • LongVU :Meta AI 的解锁长视频理解模型,利用自适应时空压缩技术彻底改变视频理解方式
    MetaAI在视频理解方面取得了令人瞩目的里程碑式成就,推出了LongVU,这是一种开创性的模型,能够理解以前对人工智能系统来说具有挑战性的长视频。研究论文"LongVU:用于长视频语言理解的时空自适应压缩"提出了一种革命性的方法,使人工智能能够有效地处理和理解长达几分钟甚至一......
  • 《AI 算法的突破与挑战:探寻人工智能的核心驱动力》
    在当今科技飞速发展的时代,AI算法无疑是人工智能领域的核心驱动力,它的不断演进和突破正在重塑我们的世界。从简单的代码到如今令人惊叹的“智能大脑”,AI算法经历了漫长的发展历程,取得了诸多令人瞩目的成就,但同时也面临着一系列的挑战。一、AI算法的辉煌成就精度超越......
  • 基于Django高校岗位招聘平台与数据可视化分析设计和实现
    开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql5.7(一定要5.7版本)数据库工具:Navicat11开发软件:PyCharm浏览器:谷歌浏览器后台路径地址:localhost:8080/项目名称/admin/dist/index.html前台路径地址:localhost:8080/项目名称/front/dist/index.html(无前台......
  • ‘随机失活’:人工智能真的在模仿人脑吗?
    序言:过拟合是人工智能训练中的一个常见问题,类似于一位“读死书”的学生,他只能机械地背诵书本内容,缺乏灵活性,一旦题目稍有变化便无法理解。为了解决这一问题,科学家们从人脑的学习方式中获得启发,设计出“随机失活”方法。在学习过程中,随机关闭部分神经元,避免神经元之间过度依赖,从而......
  • 人工智能学习框架综述:特性、应用及未来趋势(有代码哦~)
    人工智能(AI)的发展在很大程度上得益于强大、高效的学习框架,这些框架为研究人员和工程师提供了集成化的工具,用以构建、训练和部署深度学习和机器学习模型。本文将对几大主流人工智能学习框架的特性、使用场景及未来趋势进行介绍,帮助读者理解如何选择和应用这些工具。一、人工智......
  • 打响反对人工智能的第一枪
    序言:人工智能的讨论不能只有一片叫好的声音,一味的追捧反而可能隐藏巨大的危机。因此,必须有反对的声音,且越强烈越能激发深入思考。本篇文章的作者就以犀利的视角,漂亮地打响了反对人工智能应用的第一枪。我以前一直以为人工智能的狂热会自然消退,也许等泡沫不可避免地破灭时会......
  • hadoop+Spark+django基于大数据技术的高校岗位招聘平台与数据可视化分析(源码+文档+调
    收藏关注不迷路!!......
  • 搞人工智能开源大语言模型GPT2、Llama的正确姿势
    (如果想及时收到人工智能相关的知识更新,请点击关注!!)序言:目前我们每一小节的内容都讲解得非常慢,因为这是人工智能研发中的最基础知识。如果我们不能扎实掌握这些知识,将很难理解后续更复杂且实用的概念。因此,我们甚至采用一个概念一节的方式来编排内容,区分得清清楚楚、明明白白,以便......
  • 当下最好的Java做人工智能应用的开源框架-Spring AI alibaba介绍-含免费的菜鸟入门教
    在过去,Java缺乏一个统一且高效的AI应用框架,这导致开发者在使用不同AI提供商(如OpenAI、Azure或阿里云)时需要频繁地调整代码和接口适配。现在有了Spring团队推出的springAI,他能够很好的解决上面的问题,本文会先介绍一下springai这个应用框架的核心能力和功能。 然后再用s......