Utilizar almacenamiento y sistemas de archivos

2024-05-03 10:32| 来源: 网络整理| 查看: 265

Amazon EMR y Hadoop proporcionan una variedad de sistemas de archivos que puede utilizar al momento de procesar pasos de cl煤steres. Puede especificar qu茅 sistema de archivos utilizar mediante el prefijo del URI utilizado para acceder a los datos. Por ejemplo, s3://DOC-EXAMPLE-BUCKET1/path hace referencia a un bucket de Amazon S3 mediante EMRFS. En la siguiente tabla se muestran los sistemas de archivos disponibles, con recomendaciones sobre la hora que es mejor utilizar cada una de ellas.

Amazon EMR y Hadoop suelen utilizar dos o m谩s de los siguientes sistemas de archivos al procesar un cl煤ster. HDFS y EMRFS son los dos sistemas de archivos principales que se utilizan con Amazon EMR.

importante

A partir de la versi贸n聽5.22.0 de Amazon EMR, este servicio utiliza AWS Signature Version 4 exclusivamente para autenticar las solicitudes a Amazon S3. Las versiones anteriores de Amazon EMR utilizan AWS Signature Version 2 en algunos casos, a menos que las notas de la versi贸n indiquen que se utiliza exclusivamente Signature Version 4. Para m谩s informaci贸n, consulte Autenticaci贸n de solicitudes (AWS Signature Version 4) y Autenticaci贸n de solicitudes (AWS Signature Version 2) en la Gu铆a para desarrolladores de Amazon Simple Storage Service.

Sistema de archivos Prefix Descripci贸n HDFS hdfs:// (o sin prefijo)

HDFS es un sistema de archivos distribuido, escalable y port谩til para Hadoop. Una ventaja de HDFS es el reconocimiento de datos entre los nodos de cl煤ster de Hadoop que administran los cl煤steres y los nodos de cl煤ster de Hadoop que administran los pasos individuales. Para obtener m谩s informaci贸n, consulte la documentaci贸n de Hadoop.

Los nodos principales y los nodos secundarios utilizan HDFS. Una ventaja es que es r谩pido; una desventaja es que se trata de almacenamiento ef铆mero que se reclama cuando el cl煤ster finaliza. Es mejor utilizarlo para almacenar en cach茅 los resultados producidos por pasos de flujos de trabajo intermedios.

EMRFS s3://

EMRFS es una implementaci贸n del sistema de archivos Hadoop utilizada para lectura y escritura de archivos desde Amazon EMR directamente en Amazon S3. EMRFS ofrece la comodidad de almacenar los datos persistentes en Amazon S3 para su uso con Hadoop adem谩s de ofrecer caracter铆sticas como el cifrado del lado del servidor de Amazon S3, la consistencia de lectura tras escritura y la consistencia de lista.

nota

Anteriormente, Amazon EMR utilizaba los sistemas de archivos s3n y s3a. Aunque estos todav铆a funcionan, se recomienda utilizar el esquema de URI de s3 para un mejor rendimiento, seguridad y fiabilidad.

sistema de archivos local

El sistema de archivos local se refiere a un disco conectado a nivel local. Cuando se crea un cl煤ster de Hadoop, cada nodo se crea a partir de una instancia EC2 que viene con un bloque preconfigurado de almacenamiento en disco preasociado que se denomina almac茅n de instancias. Los datos en vol煤menes del almac茅n de instancias se conservan solo durante la vida de su instancia EC2. Los vol煤menes de almac茅n de instancias son ideales para el almacenamiento temporal de datos que cambian constantemente, como los b煤feres, las cach茅s, los datos de pruebas y otro contenido temporal. Para m谩s informaci贸n, consulte Almacenamiento de instancias de Amazon EC2.

HDFS utiliza el sistema de archivos local, pero Python tambi茅n se ejecuta desde el sistema de archivos local y puede optar por almacenar archivos de aplicaciones adicionales en vol煤menes de almacenes de instancias.

Sistema de archivos de bloques de Amazon S3 (heredado) s3bfs://

El sistema de archivos de bloque de Amazon S3 es un sistema de almacenamiento de archivos heredado. Recomendamos encarecidamente evitar el uso de este sistema.

importante

Le recomendamos que no use este sistema de archivos, ya que puede activar una condici贸n de carrera que podr铆an provocar un error del cl煤ster. Sin embargo, es posible que aplicaciones heredadas lo requieran.

Acceso a sistemas de archivo

Puede especificar qu茅 sistema de archivos utilizar mediante el prefijo del identificador de recursos uniforme (URI) utilizado para acceder a los datos. Los siguientes procedimientos ilustran c贸mo hacer referencia a diferentes tipos de sistemas de archivos.

Para acceder a una HDFS local

Especifique el prefijo hdfs:/// en el URI. Amazon EMR resuelve rutas que no especifican un prefijo en el URI al HDFS local. Por ejemplo, los dos siguientes URI resolver铆an la misma ubicaci贸n en HDFS.

hdfs:///path-to-data /path-to-data Para acceder a una HDFS remota

Incluya la direcci贸n IP del nodo principal en el URI, tal y como se muestra en los siguientes ejemplos.

hdfs://master-ip-address/path-to-data master-ip-address/path-to-data Para acceder a Amazon S3

Utilice el prefijo s3://.

s3://bucket-name/path-to-file-in-bucket Para acceder al sistema de archivos de bloques de Amazon S3

Se utiliza 煤nicamente por las aplicaciones heredadas que requieren el sistema de archivos de bloques de Amazon S3. Para acceder a datos o almacenar datos con este sistema de archivos, utilice el prefijo s3bfs:// en el URI.

El sistema de archivos de bloques de Amazon S3 es un sistema de archivos heredado que se utilizaba para soportar cargas de m谩s de 5聽GB en Amazon S3. Con la funcionalidad de carga multiparte que Amazon EMR proporciona a trav茅s del SDK de AWS para Java, puede cargar archivos de hasta 5聽TB en el sistema de archivos nativo de Amazon S3 y el sistema de archivos de bloques de Amazon S3 est谩 obsoleto.

aviso

Dado que este sistema de archivos heredado puede crear condiciones de carrera que podr铆an provocar da帽os en el sistema de archivos, debe evitar este formato y usar EMRFS en su lugar.

s3bfs://bucket-name/path-to-file-in-bucket

【本文地址】

公司简介

联系我们