21. Glosario#
Definiciones de un conjunto de términos usados a través de este jupyter book para mejorar la comprensión de los mismos.
Booleano#- Este representa los valores: True (verdadero) o False (falso). Los booleanos son utilizados en expresiones lógicas y en la toma de decisiones en estructuras de control de flujo, como declaraciones if, bucles while y for, entre otros. Este tipo de dato también son inmutables. Esto significa que, una vez que se ha asignado un valor booleano, no se puede modificar directamente. Aunque su inmutabilidad impide cambios directos.
Bucle#- Son una herramienta para alterar el flujo normal de un programa. Nos permiten repetir una porción de código tantas veces como queramos. Python incluye únicamente dos tipos de bucle: while y for.
Ciclo For#- Es una estructura de control que permite iterar sobre una secuencia (como una lista, tupla, cadena de texto, o cualquier iterable). Se define con la palabra clave `for`, seguida de una variable de iteración, la palabra clave `in`, y la secuencia sobre la cual iterar. Durante cada iteración, la variable de iteración toma el valor de cada elemento de la secuencia, permitiendo ejecutar un bloque de código repetidamente para cada elemento. Son fundamentales para procesar colecciones de datos de manera eficiente en Python.
Concatenar#- Es agregar o unir el valor de una cadena a otra cadena. En python por ejemplo usando el signo + o a través del método join().
Data Frame (DF)#- En el contexto de la programación y análisis de datos se refiere a una estructura de datos bidimensional que se utiliza para almacenar y manipular datos tabulares, similar a una hoja de cálculo o una tabla de base de datos.
Diccionario#- Un diccionario es una colección de datos desordenada de pares clave-valor, donde cada clave es única y se utiliza para acceder a su valor correspondiente. Se define usando llaves `{}` y permite una búsqueda rápida, modificación y eliminación de elementos. Los diccionarios son ideales para representar asociaciones y estructuras de datos complejas.
Entorno de Desarrollo Integrado#- Un Entorno de Desarrollo Integrado (IDE, por sus siglas en inglés) es una aplicación de software que proporciona un conjunto completo de herramientas y facilidades, con el objetivo de facilitar el proceso de programación. Un IDE típicamente incluye un editor de código fuente, herramientas de construcción automática, un depurador, y a menudo, un intérprete o compilador. Ejemplos populares son Visual Studio, Eclipse, JupyterLab y PyCharm.
Float#- Este tipo de dato se utiliza para representar números que pueden tener una parte fraccionaria o decimal. Al igual que los strings y los enteros, los flotantes en Python son también un tipo de dato inmutable, lo que significa que una vez que se crea un número, no se puede modificar directamente.
Funciones#- Son bloques de código reutilizable que realizan una tarea específica cuando son llamadas. Se definen con la palabra clave `def`, seguida del nombre de la función y paréntesis que pueden contener parámetros opcionales. Las funciones pueden devolver valores usando la palabra clave `return` y pueden acceder a variables definidas dentro o fuera de ellas, dependiendo del ámbito de estas variables.
Integer#- El tipo de dato Int representa números enteros, es decir, números sin parte fraccionaria o decimal. Los enteros pueden ser positivos, negativos o cero. Al igual que los strings, los enteros son también un tipo de dato inmutable, lo que significa que una vez que se crea un número, no se puede modificar directamente. Sin embargo, se pueden realizar diversas operaciones matemáticas y crear nuevos números en base a los existentes. Este tipo de inmutabilidad implica que, en lugar de modificar el valor existente, se crean nuevos valores numéricos con las operaciones correspondientes.
Iterar o Iteraciones#- Significa realizar una acción varias veces. Cada vez que se repite se denomina iteración.Los bucles sirven para que los programas implementen iteraciones, es decir, ejecuten un mismo bloque de código dos o más veces mientras se cumple la condición declarada. Cuando la condición llega a ser falsa, el programa sale del bucle y continúa con su ejecución de forma secuencial.
Jupyter Notebook#- Es una aplicación web que permite crear y compartir documentos interactivos que contienen código, visualizaciones y texto explicativo. Es ampliamente utilizado en ciencia de datos, aprendizaje automático y análisis exploratorio de datos. Soporta múltiples lenguajes de programación, siendo Python el más común. Jupyter facilita la integración de código ejecutable, gráficos y narrativa en un solo documento, promoviendo una colaboración y presentación efectivas.
Lemmatizacion#- Es el proceso de reducir las palabras inflectadas (o flexionadas) a su forma base, conocida como lema. El lema es la forma canónica de una palabra, que generalmente se encuentra en un diccionario y representa el significado principal de esa palabra. La lematización utiliza un conocimiento más profundo del idioma y aplica reglas lingüísticas complejas para garantizar que el lema obtenido sea una palabra real y tenga significado. Ejemplo: El lema de "corriendo", "correría" y "correrá" es "correr"..
Lenguaje de Programación#- Un lenguaje de programación es un sistema formal compuesto por un conjunto de reglas y símbolos que permite a los desarrolladores escribir programas que serán ejecutados por una computadora. Estos lenguajes son utilizados para expresar algoritmos y realizar tareas específicas, como manipular datos, controlar dispositivos hardware, o crear aplicaciones completas. Ejemplos de lenguajes de programación populares incluyen Python, Java, C++, JavaScript, y Ruby.
Librerías (Libraries)#- Son colecciones de código y funciones preescritos que amplían las capacidades del lenguaje de programación Python. Proporcionan una amplia gama de herramientas y módulos para diversas tareas, lo que facilita a los desarrolladores trabajar en tareas específicas sin tener que reinventar la rueda.
Lista#- En Python es una colección ordenada y mutable de elementos, definidos entre corchetes `[]` y separados por comas. Puede contener diferentes tipos de datos y permite operaciones como indexación, adición, eliminación y modificación de elementos. Las listas son versátiles y ampliamente utilizadas para almacenar secuencias de datos.
Métodos#- En Python, son funciones definidas dentro de la definición de una clase. Estos métodos son acciones que un objeto de esa clase puede realizar. Los métodos pueden acceder y manipular los datos que pertenecen al objeto.
Natural Language Processing (NLP)#- Es un campo de la inteligencia artificial que se enfoca en la interacción entre computadoras y humanos a través del lenguaje natural. El objetivo de NLP es permitir que las máquinas comprendan, interpreten y respondan al lenguaje humano de una manera que sea tanto valiosa como significativa.
Normalización#- En el contexto general de la ciencia de datos y bases de datos es el proceso de estructurar los datos para minimizar la redundancia y mejorar la integridad de los mismo y facilitar el mantenimiento y las actualizaciones para evitar inconsistencias. Este proceso es crucial no solo en NLP, sino también cuando se trabaja con bases de datos relacionales y otros tipos de datos.
Operadores#- En Python, los operadores son símbolos especiales que permiten realizar operaciones entre valores y variables. Hay varios tipos de operadores: Aritméticos (`+`, `-`, `*`, `/`,), Operadores de Asignación (`=`, `+=`, `-=`, `*=`) y de Comparación (`==`, `!=`, `<`, `>`, `<=`, `>=`). Estos operadores son esenciales para la manipulación y evaluación de datos en Python, permitiendo realizar desde cálculos simples hasta decisiones condicionales en programas más complejos.
POS Tagging#- Es el proceso de asignar etiquetas a cada palabra en un texto para identificar su función gramatical o parte del discurso. Estas etiquetas incluyen categorías gramaticales como sustantivos, verbos, adjetivos, adverbios, pronombres, preposiciones, conjunciones, entre otras. El POS Tagging es una tarea fundamental en el Procesamiento del Lenguaje Natural (NLP) y es crucial para el análisis sintáctico y semántico de los texto.
Python#- Python es un lenguaje de programación de alto nivel, interpretado y de propósito general, conocido por su legibilidad y simplicidad sintáctica, lo que facilita el aprendizaje y la escritura de código. Fue creado por Guido van Rossum y lanzado por primera vez en 1991. Python soporta múltiples paradigmas de programación, incluyendo programación procedimental, orientada a objetos y funcional. Sus características incluyen una extensa biblioteca estándar, gestión automática de memoria, y una sintaxis que permite a los desarrolladores expresar conceptos en menos líneas de código en comparación con otros lenguajes como C++ o Java. Python es ampliamente utilizado en diversos campos como desarrollo web, ciencia de datos, inteligencia artificial, automatización de tareas, y más.
Rstudio#- RStudio es un entorno de desarrollo integrado (IDE) para el lenguaje de programación R, utilizado principalmente para análisis estadístico y visualización de datos. Ofrece una interfaz amigable que incluye un editor de código, un visor de gráficos, herramientas de depuración y gestión de paquetes. RStudio facilita la creación de scripts, el manejo de datos y la generación de informes reproducibles. Es ampliamente utilizado en la comunidad de ciencia de datos y está disponible en versiones de escritorio y servidor.
Shapefile#- Es un formato de archivo popular para almacenar información geoespacial vectorial, desarrollado por Esri. Un shapefile puede representar diferentes tipos de datos geométricos como puntos, líneas y polígonos, que se utilizan para modelar mapas y otras representaciones gráficas de datos espaciales. Un shapefile generalmente consta de al menos tres archivos con las extensiones .shp, .shx, y .dbf, que almacenan la geometría de las características, el índice de la geometría, y los atributos de las características, respectivamente. Los shapefiles son ampliamente utilizados en sistemas de información geográfica (SIG) para el análisis y la visualización de datos espaciales.
Stemming#- Es un proceso lingüístico que consiste en la eliminación de sufijos y prefijos de las palabras para reducirlas hasta su raíz o stem. Al eliminar sufijos o prefijos, las palabras de un mismo tema general, como, por ejemplo: corriendo y correra, son cambiadas a “corr”. Generalmente, se emplea para disminuir la complejidad de un texto, facilitando que un software procese y comprenda los patrones de un tema con más claridad.
String(cadena de texto)#- Es una secuencia de caracteres encerrados entre comillas simples (`'`) o dobles (`"`). Los strings son objetos inmutables, lo que significa que no pueden modificarse una vez creados, aunque se pueden crear nuevas cadenas combinando o modificando otras. Python proporciona una amplia gama de métodos integrados para manipular strings, como la concatenación, división, búsqueda de subcadenas y formateo. Los strings son fundamentales en Python para la manipulación de texto y la representación de datos en muchos contextos, como el procesamiento de archivos, la interfaz de usuario y la comunicación de datos.
Tokenización#- En el Procesamiento del Lenguaje Natural (NLP) es el proceso de dividir un texto en unidades más pequeñas llamadas "tokens". Estos tokens pueden ser palabras, frases, oraciones o incluso caracteres individuales, dependiendo del contexto y el propósito del análisis. La tokenización es uno de los primeros y más fundamentales pasos en el procesamiento de texto, ya que permite a los algoritmos de NLP trabajar con fragmentos más manejables y estructurados del lenguaje.
Tupla#- En Python es una colección ordenada e inmutable de elementos, definidos entre paréntesis `()`. Puede contener diferentes tipos de datos y permite acceder a sus elementos mediante indexación. Las tuplas son útiles para almacenar datos que no deben cambiar a lo largo del tiempo.
Types (Tipos)#- En Python, un "type" (tipo) define la naturaleza de un valor y determina qué operaciones se pueden realizar sobre él. Los tipos básicos incluyen enteros (int), flotantes (float), cadenas de texto (str), listas (list), tuplas (tuple), diccionarios (dict), y conjuntos (set). Cada tipo tiene sus propias propiedades y métodos asociados.
Values(Valores)#- En Python, un "value" (valor) es cualquier dato que una variable puede almacenar y manipular. Los valores pueden ser de diferentes tipos, como números (enteros y flotantes), cadenas de texto, listas, tuplas, diccionarios, conjuntos y más. Los valores pueden ser constantes o cambiantes, y se utilizan en expresiones, operaciones y funciones para realizar cálculos y manipular datos.
Variables#- Las variables son nombres dados a los datos que necesitamos almacenar y manipular en nuestros programas.
Vectorización de un texto#- Es el proceso de convertir texto en una representación numérica que pueda ser utilizada por algoritmos de aprendizaje automático y modelos de análisis. Los textos, que son datos no estructurados, necesitan ser transformados en una forma estructurada y matemática para que las máquinas puedan procesarlos y analizarlos.