Capítulo 10. Lectura de documentos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Resulta tentador pensar en Internet principalmente como una colección de sitios web basados en texto entremezclados con contenido multimedia de la novedosa Web 2.0 que, en su mayor parte, puede ignorarse a efectos de raspado web. Sin embargo, esto ignora lo que Internet es fundamentalmente: un vehículo de transmisión de archivos independiente del contenido.
Aunque Internet existe de una forma u otra desde finales de los años 60, el HTML no debutó hasta 1992. Hasta entonces, Internet consistía sobre todo en correo electrónico y transmisión de archivos; el concepto de páginas web tal como lo conocemos hoy no existía. En otras palabras, Internet no es una colección de archivos HTML. Es una colección de muchos tipos de documentos, y los archivos HTML se utilizan a menudo como marco para mostrarlos. Sin poder leer diversos tipos de documentos, como texto, PDF, imágenes, vídeo, correo electrónico, etc., nos estamos perdiendo una gran parte de los datos disponibles.
Este capítulo trata del tratamiento de documentos, tanto si los descargas a una carpeta local como si los lees y extraes datos. También verás cómo tratar con distintos tipos de codificación de texto, que permiten leer incluso páginas HTML en idiomas extranjeros.
Codificación de documentos
La codificación de un documento indica a las aplicaciones -ya sean el sistema operativo ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access