Menu
Los estudiantes de la primera generación de Ingeniería en Ciencia de Datos y Matemáticas (IDM), del Campus Estado de México (CEM) del Tec, acaban de terminar su quinto semestre este diciembre de 2021. Con más de la mitad de su carrera ya cursada, cuatro de ellos dieron una excelente plática dirigida a sus compañeros IDM de tecer y primer semestre, e incluso estudiantes de Prepa interesados. Algunos de ellos estuvieron en la plática de forma presencial, en nuestro nuevo "Data Analytics Center" del CEM, mientras que otros siguieron la plática en forma remota por zoom. Nuestros amables expositores compartieron sus experiencias y aprendizajes hasta ahora, los retos con los que se han enfrentado, y los éxitos que hasta ahora han obtenido en la carrera, dándoles consejos y orientación a sus compañeros que les siguen. ¡Gracias a nuestros talentosos conferencistas, y felicidades a toda la primera generación de IDM, que ya van entrando a la recta final de su carrera! Liga al video de la conferencia
0 Comentarios
Por: Ruth Segarra, con modificaciones por José Luis Gómez Muñoz La Chi cuadrada es un cálculo para saber qué tan cerca o lejos está nuestra hipótesis del conjunto de datos (cantidad esperada) de nuestros datos reales; y se representa por la siguiente fórmula: Donde Ei es la cantidad teórica o esperada de veces que la suma debería dar i, y Oi es la cantidad observada o real de veces que la suma da i. El primer paso para calcular nuestra Chi cuadrada es, plantear la hipótesis que se refutará o comprobará con el experimento que se realizará al comparar la Chi de prueba (que se encuentra gracias a las frecuencias esperadas), con la Chi cuadrado crítico (que se encuentra al calcular los grados en libertad o variables independientes). Donde, entre más pequeño sea el resultado, más cerca estará el dato esperado al objetivo. A continuación, un ejemplo del uso correcto de la Chi cuadrada para saber qué tan “lejos” están los idiomas Español, Inglés, Francés, Alemán y Portugués uno del otro, tomando como texto la siguiente parte de la canción Just Hold On de Louis Tomlinson: ”What do you do when a chapter ends? Do you close the book and never read it again? Where do you go when your story's done? You can be who you were or who you'll become. If it all goes wrong darling, just hold on.” El texto es traducido a cada uno de los idiomas mencionados, y se usar la Chi cuadrada para comparar cuantas veces aparecen las letras en el verso con la cantidad de veces que aparecen las letras en cada idioma. Los cálculos y gráficas mostrados más abajo fueron hechos con la siguiente hoja de cálculo, hecha por Ruth Segarra, basándose en un trabajo previo de la estudiante Ana Paula, de Prepa Tec CEM:
Conclusiones:
1. Español: El experimento en Excel arrojó que la Chi cuadrada más pequeña del texto en español era el idioma Español. Asimismo, el orden de los idiomas del más alejado (Chi cuadrada mayor) al más cercano (Chi cuadrada menor), respecto al idioma Español es: Alemán, Inglés, Francés y Portugués. 2. Inglés: El experimento en Excel arrojó que la Chi cuadrada más pequeña del texto en inglés era el idioma Inglés. Asimismo, el orden de los idiomas del más alejado (Chi cuadrada mayor) al más cercano (Chi cuadrada menor), respecto al idioma Inglés es: Alemán, Francés, Español y Portugués. 3. Francés: El experimento en Excel arrojó que la Chi cuadrada más pequeña del texto en francés era el idioma Francés. Asimismo, el orden de los idiomas del más alejado (Chi cuadrada mayor) al más cercano (Chi cuadrada menor), respecto al idioma Francés es: Alemán, Español, Inglés y Portugués. 4. Alemán: El experimento en Excel arrojó que la Chi cuadrada más pequeña del texto en alemán era el idioma Alemán. Asimismo, el orden de los idiomas del más alejado (Chi cuadrada mayor) al más cercano (Chi cuadrada menor), respecto al idioma Alemán es: Portugués, Español, Francés e Inglés. 5. Portugués: El experimento en Excel arrojó que la Chi cuadrada más pequeña del texto en portugués era el idioma Portugués. Asimismo, el orden de los idiomas del más alejado (Chi cuadrada mayor) al más cercano (Chi cuadrada menor), respecto al idioma Portugués es: Alemán, Inglés, Francés y Español. La hoja de cálculo pudo identificar correctamente en cada caso en qué idioma estaba el verso, mediante la mínima Chi cuadrada que compara la frecuencia de sus letras con la frecuencia esperada en cada idioma. Además se puede concluir que el idioma Alemán es el idioma mas lejano a todos los demás, siendo que la Chi cuadrada que arrojó el Excel en cada experimento respecto a este idioma, siempre fue mayor a todos los demás en los textos que no estaban en Alemán. Por su parte, el idioma Portugués fue el que tuvo menor diferencia en la Chi cuadrada final respecto a los idiomas: Español, Inglés y Francés. En la siguiente liga puedes ver un video Tik Tok, por el estudiante Claudio Yael, acerca de este mismo tema: www.tiktok.com/@ryuubalam/video/7038608442625445125 Por Omar Rodríguez Montiel La investigación en el campo del deporte ha experimentado un importante incremento en los últimos años, hecho que ha generado un interés creciente por consultar información estadística sobre este ámbito. Partiendo de datos recopilados a tal efecto, su uso se puede dar desde predecir estrategias para ganar un juego, fichajes de jugadores y hasta la prevención de lesiones, pero ¿cómo se puede lograr esto? Antes de responder la pregunta, ¿qué significa regresión lineal? Regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos de los jugadores o hasta rivales. Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo describe la relación entre una variable dependiente Y como una función de una o varias variables independientes X. La ecuación general correspondiente a un modelo de regresión lineal es: Una vez entendido que es regresión lineal, se puede responder más sencillo acerca de cómo se implementa en los deportes, se utiliza un modelo de regresión para crear un modelo de pronóstico para un conjunto de datos específico. A partir de la moda, puede usar la regresión para predecir valores de respuesta donde solo se conocen los predictores. Deportivamente, económicamente y hasta empresarialmente se pueden hacer predicciones como la siguiente historia: En los años 70, cuando Bill James (estadístico) empezó a analizar los registros históricos de los jugadores de béisbol de las grandes ligas americanas, con el fin de medir de manera eficaz las actividades que suceden dentro del campo de juego. De hecho, gracias a esta estrategia basada en datos, Billy Beane, general manager de los Oakland Athletics, consiguió sacar adelante económica y deportivamente a su equipo. Es increíble pensar que los partidos no se ganan sólo por exigencia o esfuerzo, sino también por estrategias y fichajes acertados, y todo basado en la recopilación de datos y su uso predictivo. 19/11/21 Tamara Alejandra Ortiz Villarreal En ciencias de datos y matemáticas, la regresión no lineal es un método o forma de análisis en la que un conjunto de datos se ajusta a un modelo y posteriormente se expresan mediante una función matemática. Este modelo puede ser utilizado en diversas funciones tales como: trigonométricas, logarítmicas, exponenciales o de potencia. Su objetivo es relacionar una variable dependiente con una o más variables independientes y principalmente hacer que la suma de los cuadrados de los residuos sea lo más pequeña posible. Para poder entender el tema con más profundidad, debemos saber que la suma de los cuadrados es una medida que busca la manera de calcular la variación de las observaciones de “y” de ciertas funciones no lineales que muchas veces son utilizadas para predecirlo. Para calcularlo primero se tiene que utilizar un modelo matemático para obtener el pronóstico con ayuda de la variable “x”, después, se debe encontrar la diferencia entre el pronóstico y la variable “y”, más adelante, cada resultado obtenido anteriormente debe ser elevado al cuadrado y posteriormente sumado. Entre menor sea el resultado de la suma de las cifras al cuadrado mejor se verá ajustada la función. En esta publicación se puede encontrar un ejemplo de cómo y para que es utilizada la regresión no lineal: https://techvidvan.com/tutorials/nonlinear-regression-in-r/ Existe otro modelo conocido como regresión lineal que puede ser similar al no lineal ya que ambos buscan obtener resultados o respuestas a un conjunto de variables por medio de un gráfico, sin embargo, los no lineales en algunas ocasiones son más complicados de desarrollar ya que la función es creada mediante ciertas aproximaciones. En esta segunda publicación se pueden encontrar con mayor detalle la forma en la que son utilizadas cada una de las regresiones en una base de datos: towardsdatascience.com/how-to-choose-between-a-linear-or-nonlinear-regression-for-your-dataset-e58a568e2a15 Imagen obtenida de: https://en.wikipedia.org/wiki/Nonlinear_regression
18/11/2021 | Por Rommel Silvestre Jiménez Ortiz Miller, M. (2017). Nocturne no.1 (Galaxy) [Captura de pantalla]. YouTube. https://www.youtube.com/watch?v=6uYclxVWl_A NASA. (2017). Hubble’s High-Definition Panoramic View of the Andromeda Galaxy [Fotografía]. https://www.nasa.gov/content/goddard/hubble-s-high-definition-panoramic-view-of-the-andromeda-galaxy Las matemáticas tienen belleza y romance. El mundo de las matemáticas no es un lugar aburrido en el que estar. Es un lugar extraordinario: merece la pena pasar el tiempo allí. -Marcus Du Sautoy, 1965 Tal vez te preguntes qué tiene que ver las frecuencias musicales con el brillo de las estrellas —justo como el título indica— y porqué es importante conocerlo. Hoy voy a explicarte esto y verás cómo se relaciona con muchos otros asuntos en la vida cotidiana. Pero para responder a esta incógnita, primero es necesario conocer sobre las escalas logarítmicas y para esto vamos a comenzar hablando sobre las líneas. Sí, oíste bien, las líneas, o más específicamente, sobre las escalas lineales. Supongamos que decides ir a caminar a un parque y te detienes para saber en qué dirección ir. Si das un paso hacia adelante, avanzarás un metro, si das dos pasos hacia adelante, avanzarás dos metros y así sucesivamente, esto también aplica para cualquier dirección: derecha, izquierda o atrás. Podemos decir que para cada paso hay una relación directa con los metros que avanzas, esto es en otras palabras, una escala lineal con función y = x, que graficando obtenemos una línea recta como la siguiente: Jiménez, R. (2021). [Dibujo de un plano cartesiano con función y=x] De ahí el nombre de escala (orden gradual) lineal (en línea recta). Es importante porque la mayoría de nuestra percepción en el mundo funciona así: si yo tengo una gallina y me regalan otra, pues tendré dos gallinas: La relación de gallinas que tengo es directa a la cantidad de gallinas que me dan o me quitan, así de simple. ¿Pero y si hubiera un modo de que esto no fuera así? ¿Y si te dijera que hay un modo tal que al “dar un paso” no avanzaras uno, sino 10 metros, y al siguiente 100, y al siguiente 1,000? Ahora sí podemos comenzar a hablar sobre las escalas logarítmicas, pero es importante entender qué es un logaritmo. En matemáticas, un logaritmo expresa potenciación: una base a la que es necesaria elevar a una potencia para obtener un argumento. Siempre un logaritmo tiene una base, un exponente y un argumento. Por ejemplo log5(25) = 2 se lee como logaritmo base 5 de 25 es igual a 2. Donde 5 es la base del logaritmo, 25 es el argumento y 2 es el exponente al que tenemos que elevar la base para obtener el argumento, es por esto que esa misma expresión se puede ver así: 5^(2) = 25, pero este es otro asunto que no voy a tratar. Hasta hace unas décadas, las personas solían trabajar con tablas que les permitiera saber con exactitud el logaritmo de un número específico. Afortunadamente en nuestros días, una calculadora hace los cálculos, dejando a estas tablas como una reliquia obsoleta. Caballero, A., Martínez, L., & Bernárdez, J. (2010). Tablas de logaritmos [Imagen]. En Tablas matemáticas (pp. 24–28). Es importante recalcar que hoy en día, las calculadoras trabajan con logaritmo base 10, pero como ya vimos, se puede trabajar con diferentes bases. Los logaritmos tienen ciertas reglas que es importante especificar desde un inicio: ● El logaritmo 1 de cualquier base es igual a 0. ● No existe logaritmo 0 ni logaritmos negativos en cualquier base. Aunque sí se pueden conseguir números negativos. ● Los argumentos positivos se consiguen con los exponentes positivos de la base. ● Mientras que los argumentos negativos se consiguen con bases entre 0 y 1. Me gustaría recalcar que “moverse una unidad” significa avanzar hacia el siguiente valor entero, aunque puede no ser así. Esto es muy importante porque una de las principales diferencias en ambas escalas, radica en la distancia entre los valores enteros que representan. En la escala lineal, los valores suman para poder obtener el siguiente número entero. Pero en la escala logarítmica (con base 10), los valores enteros se obtienen únicamente con exponentes de 10 tales como 10, 100, 1000, 10000, etc., es decir que se multiplican. Por otro lado, sabemos que, en una escala lineal, los valores entre 1 y 2 serán siempre de 10 decimales, todos a la misma distancia uno de otro. Algo similar sucede con las escalas logarítmicas, solo que no están a la misma distancia. Permíteme mostrarte la diferencia con esta tabla y su gráfico correspondiente: Jiménez, R. (2021). [Dibujo de Escala de escala linea del 0 al 1 con decimales] Jiménez, R. (2021). [Dibujo de Escala de logaritmos del 1 al 2] Y justo ahorita tal vez te preguntes, ¿10 en lugar de 1? ¿1,000 en lugar de 3? ¿Y esto para qué? ¿De qué nos sirve tener 1 en lugar de 0? Todo esto es simplemente para... Graficar valores muy grandes, con valores muy pequeños Vamos a comenzar con un ejemplo de escala logarítmica muy fácil de entender. Los sonidos no son más que ondas en el aire que terminan llegando a nuestro oído. Si una de esas ondas oscila muy pocas veces por segundo escucharemos un sonido muy grave, por el contrario, si oscila más veces por segundo escucharemos un sonido más agudo. Estas oscilaciones se miden en Hertz (Hz), y una persona puede escuchar entre 20 y 20,000 Hz. Campaña., C. (2017). Clave de Fa en 4ta línea. [Imagen de teclas de un piano y sus notas correspondientes en el pentagrama.]. Clase de Lenguaje Musical. https://www.clasedelenguajemusical.com/1-8/
¡Eureka! Esta gráfica logarítmica va de acuerdo con nuestra lógica lineal de que las notas deben estar una detrás de la otra en línea recta, justo como en el piano. Te sorprenderá la cantidad de escalas logarítmicas a las que estamos expuestos sin que nos demos cuenta. Mira este ejemplo: “Un día te levantas temprano, todavía está oscuro y alcanzar a ver unas estrellas. Querías tomar un jugo de limón, pero te das cuenta de que es muy ácido como para tomarlo tan temprano, así que optas por tomar un vaso de leche. De repente suena la alerta sísmica tan fuerte que quedas sordo por un momento, resulta que un sismo de 7.8° en la escala de Richter ha sucedido a 20 km de tu ciudad. Y, por último, este sismo ha provocado que la inflación del país aumente drásticamente”. En esta historia que —esperemos que no le pase a nadie— te acabo de mencionar 5 ejemplos diferentes de escalas logarítmicas. Vamos a darle un vistazo a cada una de ellas. ● ¿Alguna vez te preguntaste si podíamos medir el brillo de las estrellas? Si no lo habías hecho, te cuento que existe una fórmula matemática que implica el uso de logaritmos para determinar el brillo de una estrella. RhEvans. (2014). Measuring the brightness of stars. [Ilustración]. https://thecuriousastronomer.wordpress.com/2014/02/13/measuring-the-brightness-of-stars/ ● El pH está presente en muchas de las cosas con las que interactuamos, como la comida, cosméticos, etc. pero seguro que no sabías que usaba una escala logarítmica para medirse. Xylem. (2015). Why is the pH Scale Logarithmic? [Imagen]. https://www.ysi.com/ysi-blog/water-blogged-blog/2015/02/why-is-the-ph-scale-logarithmic ● El volumen suele medirse en decibeles, y estos decibelios se miden por medio de una escala logarítmica. ● La energía liberada por los sismos más grandes es mucho más grande de la que podemos imaginar, sin embargo, los sismos menores a una magnitud de 4 apenas los podemos sentir. Como puedes intuir los sismos también se miden a través de una escala logarítmica. Por esta razón, los decimales de la escala son muy importantes. The Richter Scale. (s. f.). [Ilustración]. https://wiki.ubc.ca/Course:Math110/003/Teams/Ticino/The_Richter_Scale ● En asuntos relacionado a la economía de los países como el PIB, la deuda externa, la devaluación, etcétera, en muchos casos es necesario graficar con escalas logarítmicas, porque de lo contrario, no se puede visualizar la información correctamente. Aquí el gráfico lineal del PIB y la deuda externa de EUA. Como puedes ver, los primeros años de la gráfica no se pueden percibir claramente. Mientras que en su homólogo logarítmico sí podemos alcanzar a observar con mayor detalle las gráficas. Gil, C. (2011). Gráficas de comparación lineal vs logarítmico [Gráficas]. ¿ESCALAS LOGARÍTMICAS? PUEDE, PERO... Recuperado de: https://www.datanalytics.com/2011/11/25/%C2%BFescalas-logaritimicas-puede-pero/ En conclusión, las escalas logarítmicas nos ayudan a simplificar los números, a relacionar mejor los conceptos que podrían contener números gigantescos y a entender con más facilidad algunos eventos del día a día. No sé ustedes, pero a mí me molestaría decir que “ha ocurrido un sismo que detonó la energía equivalente a 60,000,000,000 de kilogramos de TNT”, cuando es mucho más fácil decir que “ha ocurrido un sismo de magnitud 8 en la escala de Richter”. Con toda la información hasta ahora, el título cobra sentido: La relación entre las estrellas y las notas musicales es que ambas se miden en escalas logarítmicas. Como dijo el matemático profesor, Stan Gudder “La esencia de las matemáticas no es hacer las cosas simples complicadas, sino hacer las cosas complicadas simples”. Nuestros caminos se dividen y te agradezco el tiempo de la lectura. Espero haberte ayudado a entender mejor este concepto, o en su defecto, espero haberte incentivado a investigar más. ¡Te dejo estos videos por si todavía tienes dudas, hasta luego! 13/11/21 HMEM Ya sea gracias a la televisión nacional o extranjera, alguna vez hemos oído de este escenario, ante el participante ( o nosotros) se presentan 3 puertas diferentes, el presentador (Chabelo para los mexicanos) le dice al participante que elija cualquiera de esas opciones, sin embargo, no podrá saber lo que hay adentro, el presentador procede a “liberar” una de las puertas con un “premio” poco deseable (en ocasiones era una cabra), nuestro participante es informado de que en una de las puertas restantes hay un premio más tentador como un automóvil o una televisión, el participante puede cambiar su decisión y elegir la puerta restante o puede mantenerse firme y conservar la puerta inicial. Por un tiempo, esto pasó desapercibido, pues la mayoría creía que era pura cuestión de azar, ya que las posibilidades parecían ser parejas, 50% un lujoso auto y 50% una cabra apestosa, pero se puede demostrar que la probabilidad es de un 66% realmente, de hecho, muchos matemáticos dudaban de está afirmación hasta que se pudieron hacer simulaciones computarizadas, he aquí el proceso de una manera sencilla: Este tema se puede abordar de distintas maneras, pero a mi parecer, la forma gráfica es apta para todo público, sin embargo, también se puede explicar de forma intuitiva, al no cambiar las posiblidades son de ⅓ pues a pesar de tener información, la posibilidad no se altera, pero si cambiamos, podemos cambiar y ganar o cambiar y perder y dado que hay 2 cabras y 1 coche las posibilidades de ganar son de ⅔. . Siempre hay varias formas de abordar un problema y la forma matemática detalla lo que pasa de manera más profunda y lógica, adjunto aquí un link con dicha explicación.
https://www.estadisticaparatodos.es/taller/montyhall/montyhall.html#3 Y aquí tenemos un video Tik Tok ilustrando este escenario, llamado "Problema de Monty Hall": https://www.tiktok.com/@ryuubalam/video/7031714195993365766 Por Mariana ¿Alguna vez entraste a una tienda a buscar algo de ropa y te encontraste con una tabla de medidas corporales como el peso o la longitud de tu cintura, y te preguntaste para que pudiera servir eso?
La respuesta es el algoritmo de clasificación K vecinos más cercanos o KNN (por sus siglas en ingles K Nearest Neighbors). Pero ¿cómo funciona este algoritmo? Supongamos que “X” es un dato que se necesita predecir. Primero se encuentra un punto “K” que sea el más cercano a “X” y luego se clasifican los puntos que serán sus vecinos K. La clase con más puntos cercanos a “X” será la predicción. O, resumidamente, busca los puntos más cercanos al que se está tratando de predecir y lo clasifica basado en la mayoría de los datos que lo rodean. Para encontrar los puntos más cercanos se encuentra la distancia entre estos utilizando medidas de distancias. Algo interesante sobre este algoritmo es que no aprende un modelo. En su lugar, memoriza las instancias de formación que posteriormente usará como conocimiento para predecir. Ahora veámoslo en el ejemplo de la ropa, lo que hace la tienda es tomar las medidas de un grupo de personas y las posibles medidas de un nuevo cliente. Ahora busca la distancia entre esas medidas para acomodarlas en orden de jerarquía y ya en orden toma las primeras 3 o 5 tallas. Posteriormente según las nuevas medidas, busca las primeras 3 o 5 tallas y selecciona la más popular o la que se repita más veces, y esa será la talla que te sugerirá. Como puedes ver es un algoritmo muy sencillo aplicable en sistemas de recomendación (como las medidas de tu cuerpo para la ropa), búsqueda semántica y detección de anomalías en datos. Por José Carlos Díaz Mtz, con modificaciones por José Luis Gómez Muñoz Las distancias no euclidianas son un aspecto importante para el desarrollo de “machine learning”, con aplicaiones en comunicación, ajedrez y como viajamos. Para diferentes escenarios se utilizan diferentes tipos de distancias. Una de estas es la distancia de Hamming, que se calcula utilizando lo que llamamos “bits”. La distancia de Hamming calcula la distancia entre dos listas donde los correspondientes elementos son distintos. Una cosa interesante sobre este tipo de distancia es que los elementos utilizados no tienen que ser números, pueden ser palabras. Por ejemplo, la distancia de hamming entre “loba” y “roma” es de 2, porque para convertir loba a roma necesitas cambiar 2 letras para obtener ese resultado.
Ahora imagina que te piden la distancia del origen (0,0) al punto (3,4). Si utilizas la distancia euclidiana tu respuesta sería 5 porque estás utilizando el sistema de pitágoras. Y aunque la respuesta es correcta, pero solo funciona en ciertos aspectos en la vida cotidiana. Por ejemplo, si yo quisiera saber la distancia de mi casa a mi escuela podría utilizar la distancia euclidiana. Pero, no sería práctico ya que no voy a mi escuela perfectamente en una línea recta. Ahí es donde nos puede ayudar la distancia Manhattan (Taxicab). Se utiliza esta manera de calcular la distancia cuando quieres ir del punto A al punto B, pero no quieres o no puedes ir en una línea recta. Como dice el nombre, en una ciudad como Manhattan donde las calles son como rejillas la distancia de la ruta del punto A al B puede ser calculada con la distancia Manhattan. Para obtener tu resultado necesitaría la fórmula: d= |x2-x1|+|y2-y1| 17/11/2021 Escrito por: Ameyalli Contreras S. ¿Alguna vez te has preguntado cómo se ocultan mensajes para que nadie, más que ciertas personas, los puedan leer? La respuesta es la criptología, el estudio de sistemas, claves y lenguajes ocultos o secretos. Dentro de esta, se encuentran las dos ramas principales que permiten el cifrado y descifrado de información, la criptografía y el criptoanálisis. La palabra criptografía proviene del griego kriptos = ocultar y graphos = escritura, es decir, ocultar la escritura, o más formalmente, aplicar alguna técnica para hacer ininteligible un mensaje. A su vez, la palabra criptoanálisis tiene sus raíces en el idioma griego, adoptando la definición del arte de descifrar criptogramas o códigos sin poseer la clave de cifrado. Existen diversos tipos de cifrado, los cuales han ido evolucionando con el paso de los años para crear claves cada vez más complejas. Uno de los primeros métodos criptográficos de los que se tiene conocimiento y evidencia es el Cifrado César, el cual consiste en sustituir cada letra de un mensaje por su tercera siguiente en el alfabeto. Es un cifrado considerado simple en la actualidad, pero que en su momento representó un método de alto nivel de dificultad. Otro método de cifrado con el mismo principio es el ROT-13 el cual consiste en desplazar las letras 13 lugares en el abecedario, así la palabra HOLA se cifraría como UBYN. En la actualidad los cifrados son mucho más complejos que sólo recorrer letras, por ejemplo, los datos de las tarjetas de crédito están cifrados con el algoritmo RSA, el cual fue creado en 1978 por Rivest, Shamir y Adlman. Este es el sistema criptográfico asimétrico más conocido y usado, debido a su complejidad de descifrado. Este se basa en el hecho matemático de la dificultad de factorizar números muy grandes. Para factorizar un número el sistema más lógico consiste en empezar a dividir sucesivamente éste entre 2, entre 3, entre 4, y así sucesivamente, buscando que el resultado de la división sea exacto, es decir, de resto 0, con lo que ya tendremos un divisor del número. Por ello a un hacker le tomaría miles de años descifrar un mensaje. Una de las técnicas más comunes para desencriptar información, principalmente cuando se trata de cifrados antiguos y sencillos, es el análisis de frecuencias, tal como el famoso detective Sherlock Holmes en la historia de “The dancing men”. Esta técnica consiste en contar qué tan a menudo se repite cada letra o símbolo en un mensaje. Una vez hecho esto hay que comparar las frecuencias con una gráfica de frecuencia de letras en el idioma que queramos comparar, para que una vez que este sea identificado, nos sea posible comenzar a descifrar la clave o código y tener la oportunidad de encontrar un patrón de cifrado. Mientras más largo sea el mensaje que se analiza, más sencillo es encontrar una buena relación entre la gráfica de frecuencias del mensaje y la gráfica de frecuencia de letras de un idioma, ya que esta última funciona como una huella digital que es lo que nos permite identificar el idioma en que el mensaje fue cifrado. La importancia de la criptografía radica en que es el único método actual capaz de hacer cumplir el objetivo de la Seguridad Informática, la cual es de “mantener la privacidad, integridad, autenticidad y no repudio de los datos”. Permite proteger la información contra accesos no autorizados, lo que garantiza su confidencialidad a la vez que provee mecanismos para asegurarla. Su aplicación principal se da tanto en las redes informáticas como en los datos almacenados en medios fijos y extraíbles. Lo que es verdad, es que es más fácil encriptar que desencriptar información, dado que esta última requiere de paciencia y muchas habilidades, y como se dijo anteriormente descifrar códigos es un arte. Y tú, ¿estás listo para entrar al mundo de los mensajes secretos? En la siguiente liga puedes ver un video Tik Tok sobre este tema, hecho por la estudiante Isabella: www.tiktok.com/@ryuubalam/video/7038749226427321605 Por: Alan Contreras Prieto Normalmente cuando piensas en números al azar, piensas que todos los números tienen la misma probabilidad de aparecer. El 1 un noveno de las veces, el 2 otro noveno de las veces, el 3 lo mismo y así con los demás números. Pero, ¿qué pensarías si hay casos donde esto no sucede? El primero en darse cuenta de este fenómeno fue Simon Newcomb, en 1881. Un día mientras usaba un libro de logaritmos notó que las primeras páginas estaban más desgastadas que las que les seguían, siendo un libro tan necesario para su profesión algo equiparable al uso de la tecla 1 en el teclado de una computadora. También se dio cuenta de que los dígitos iniciales de los números no están distribuidos equitativamente. Sino que el 1 aparece mas frecuentemente que el 2 y así consecutivamente. Llegó a la conclusión de que: “la ley de probabilidad de ocurrencia de números es tal que las mantisas de sus logaritmos son equiprobables”. Sin embargo, el asunto se olvidó rápidamente y no fue hasta 1938, que Frank Albert Benford Jr. se dio cuenta de ese mismo patrón. Entusiasmado, estudió números provenientes de muestras de todo tipo: direcciones de personas, estadísticas de beisbol, longitudes de ríos, etc. Y al notar que, en efecto, había un patrón. postuló la llamada "ley de los números anómalos de Benford". La teoría matemática propuesta por Benford dicta que la frecuencia esperada se calcula con la formula logarítmica: P(n)=Log10(1+1/n) = Log10(n+1) - Log10(n) *siendo n el digito que queremos calcular Según esta ley la probabilidad para números que empiezan por 1 es casi del 30%, para el 2 es un poco más del 17%, para el 3 algo más del 12 % y para el resto es cada vez menor. Hay varios ejemplos de como se presenta la ley de Benford en el mundo.
• Una población en crecimiento va a aumentar mas lentamente cuando son 1000 que cuando son 2000, conforme más gente hay, más rápidamente aumenta. Pasando más tiempo en los números más bajos. • Si en una ciudad se crea una calle, y empiezan a construir casas con el paso tiempo. Primero será la 1, 2, 3 hasta el 9. Luego empiezan decenas, del 10 al 19, 20 a 29 hasta el 99. Viéndolo así, tienen la misma probabilidad, la ley de Benford entra cuando ninguna calle tiene exactamente 99 casas. Y es muy poco posible que siempre lleguen a mas de 50. Sin embargo, siempre pasan por el 10. • Los seguidores/suscriptores de algún perfil en una red social. Con 1000 seguidores es mas lento llegar a 2000, que de 2000 a 3000. Pues en el caso de 2000 a 3000 te conoce mas gente y te ayuda a expandirte más rápidamente. Y con cada mil seguidores más es aún más fácil llegar a más gente. • Otro caso actual es la cantidad de gente infectada por Covid-19. Es más fácil pasar de 3000 a 4000 infectados, que de 1000 a 2000. Ya que con más gente infectada el virus tiene mas posibilidades para llegar a más gente. La ley de Benford no es aplicable en distribuciones demasiado estrictas o de corto rango, como las alturas de las personas (donde casi todas son 1.XX m) o la cantidad de dedos en las manos (donde casi todos son 5 y solamente una diminuta minoría un numero diferente). Tampoco sería útil con los datos de los números de teléfonos celulares en México Este análisis matemático es incluso capaz detectar actividades fraudulentas. Aquellos que no sigan la ley de Benford son un foco rojo de que algo no está bien. Sin embargo, tampoco es motivo definitivo de fraude. La teoría es que si alguien intenta falsificar su declaración de la renta tendrá que inventar algún dato. Por lo visto, la tendencia del defraudador es utilizar números que empiezan por dígitos situados a mitad de la escala, como el 5, el 6 y el 7 y pocos que empiezan por uno. Por ejemplo, Hacienda en Estados Unidos determinó que si las cifras empiezan por 3 una cantidad alarmante de veces (mas o menos del 40%) hay motivos suficientes para empezar una investigación sobre fraude fiscal y ha probado tener gran éxito. En la siguiente liga puedes ver un video Tik Tok acerca de este tema, realizado por la estudiante Alda Michelle: www.tiktok.com/@ryuubalam/video/7038734698675326214 |
IDMIngeniería en Ciencia de Datos y Matemáticas Archivos
Junio 2019
Categorías
Todos
|