Explicando Inferencia por Aleatorización a un futbolero
Explicando Inferencia por Aleatorización a un futbolero Explicando Inferencia por Aleatorización a un futbolero English version Para celebrar una fecha importante, 5 amigos invitan a 5 jugadores de futbol profesional para jugar un partido. Los amigos no conocen a los jugadores profesionales. Los contrataron a través de un manager. Para que el encuentro sea más interesante, decidieron poner un premio importante al equipo ganador. Los 5 amigos juegan bien, pero piensan que si ellos juegan contra los profesionales, van a perder con total seguridad. La idea entonces es armar equipos mezclados. ¿De cuántas formas se podrían armar los equipos? La respuesta es 252, que es la cantidad de formas en la que pueden seleccionarse 5 elementos de un grupo de 10 (i.e., número combinario C(10,5) )… Bueno, resulta que minutos antes del partido, los amigos escuchan un rumor de que el manager podría ser un estafador, y los profesionales, en realidad, podrían ser solamente impostores. Los amigos todavía tiene interés en ganar, pero sobre todo quieren asegurarse de que el manager no los esté estafando! Un primer amigo pensó lo siguiente: van a jugar los 5 amigos contra los 5 profesionales. Si pierden por mucha diferencia, entonces van a concluir que…
Optimal calibration of a ML classifier based on business knowledge
Clasificación óptima bajo decisiones de negocio Optimal calibration of a classifier based on business knowledge Versión en Español Calibrating a predictive algorithm for production in a business environment requires not only consideration of the algorithms' performance, underlying data, and related statistics, but also an economic evaluation of the related business-related actions that the algorithm will trigger. In my experience, this is a highly relevant topic but one that is not frequently considered or discussed. As a result of this, in many applications classifiers are configured without adequate consideration of business trade-offs, which is why I decided to write this post. To exemplify, consider a financial institution which is implementing a classifier (such as Logistic Regression classifier) to prevent fraudulent transactions. Of course, a fraud involves costs that the financial institution seeks to reduce. The classifier algorithm decides if each transaction that takes place in the system should be flagged as a possible fraud. Typically, such a flag triggers a series of actions that will be taken by the company, and that will also carry associated costs. What we will see next is that such costs need to be taken into account in order to adequately calibrate a predictive model. Suppose, to begin…
Note on AMMs “picked-off” risk
AMMs picked-off risk Note on AMMs "picked-off" risk It has been popularized the term "Impermanent loss" (IL) to refer to costs incurred by liquidity providers (LPs) of an AMM pool in the case relative market prices change, and those changes are profited out by arbitrageurs. This Twitter thread by @AnthonyLeeZhang and @guil_lambert discuss that a more appropriate term for this loss is "picked-off" risk. In my understanding (thanks to discussions with Javier Garcia Sanchez), IL is not the best term and below are my notes of why. IL is also referred as an "opportunity cost", meaning that LPs would have been better staying out of the AMM in such a case. I tend to think that the term "opportunity cost" idea is neither adequate. It is my understanding that "picked-off risk" or "picked-off loss" are right terms. As mentioned, this situation takes place when: i) the relative prices of the assets of interest (i.e., those in the pool) change outside the AMM (in the "market" or centralized exchange of reference), and ii) an arbitrageur takes advantage of the price differential (between the one provided by the AMM and market) to obtain a benefit. My understanding is that this is indeed…
Un atlas de deudas para Argentina
Debt distress atlas español English version En Argentina, el elevado endeudamiento de los hogares fue identificado por autoridades nacionales como uno de los problemas más urgentes del país.1 También se han producido en los medios de comunicación distintos debates en relación a sus causas, y en torno, por ejemplo, al papel que podrían jugar los préstamos crediticios con altas tasas de interés elevadas. 2 Estas discusiones a nivel nacional son paralelas a un creciente interés de la literatura financiera en el tema de las finanzas de los hogares. En particular, la literatura reconoce que se está experimentando un avance acelerado en términos de inclusión financiera, un fenómeno que estaría impulsado por las innovaciones en fintech y por la búsqueda de la democratización en las finanzas.3 Estos son algunos de los temas detrás de nuestro interés en estudiar cuestiones relacionadas con el acceso a la financiación y a la cuestión del endeudamiento de los hogares, con Argentina como estudio de caso. Un factor adicional es que una creciente literatura académica muestra la importancia de estudiar cuestiones relacionadas con las circunstancias económicas de los hogares a nivel local, evidenciando, por ejemplo, la relevancia de una unidad de análisis como el barrio, para…
Bienes públicos, Gitcoin, y financiamiento cuadrático
english Gitcoin – blog post Bienes públicos, Gitcoin, y financiamiento cuadrático1 Hay algo que tienen en común las inversiones que se realizan en las ciudades, en la actividad de ciertas startups, y el software open source gratuito. La inversión en la generación de un espacio verde, un museo, un espacio de arte, reporta un beneficio no solo para los beneficiarios inmediatos, sino que también vuelven más atractivo el barrio, la ciudad en cuestión, etc. Típicamente, este fenómeno puede verificarse en el incremento del valor de las propiedades cercanas. En el caso de las startups, si la inversión en una de ellas, por ejemplo, hace que ésta pueda innovar exitosamente en un modelo de negocio, este será luego copiado por muchas empresas, cuyos valores también se incrementarán en consecuencia. El último ejemplo es la inversión en código abierto (gratuito). Se estima que el 99% de las aplicaciones desarrolladas por las compañías actualmente contienen software open source, alcanzando hasta un 70% del código de esas aplicaciones (Synopsis, 2020). Esto implica un ahorro muy importante por parte de las compañías gracias a la utilización de este tipo de código, que fue posibilitado gracias a la inversión de compañías o grupos de desarrolladores pioneros2.…
An indebtedness atlas for Argentina
The indebtedness atlas An indebtedness atlas for Argentina The level of indebtedness of the general population has recently been signaled by national authorities [as one of the most pressing problems in Argentina1. While the country ranks relatively low in terms of financial inclusion, for example, with less than 10% of adults borrowing from a traditional bank in 2017 (Demirguc-Kunt, et. al, 2018), there is also an active debate on the role of high-interest rates loans, such as payday loans2. While the literature has shown that neighborhoods matter for upward income mobility or in shaping children outcomes (Chetty et al. 2020), the relationship between neighborhoods and access to credit or indebtedness has remained relatively unexplored. Which neighborhoods in Argentina are the most problematic in terms of financial distress of their population? Which neighborhoods exhibit signals to be credit constrained? Does the physical proximity of credit suppliers play a role? Are there neighborhoods which tend to finance at higher costs, for example, due to a higher participation of payday borrowing? What has been the effects of national policies providing low cost to the population on their indebtedness and financial distress? In this project we are building fine-grain maps of the indebtedness of…
Ideas y proyectos para ingenieros y administradores relacionados a la emergencia del COVID-19
Ideas y proyectos para ingenieros y administradores relacionados a la emergencia del COVID-19 Ideas y proyectos para ingenieros y administradores relacionados a la emergencia del COVID-19 En este post compilo algunos links a proyectos de ingeniería relacionados con la emergencia del COVID-19, y también les dejo más abajo algunas ideas sobre cambios que creo que se están desarrollando o se van a desarrollar en algunos mercados que pueden dar lugar al desarrollo de nuevas aplicaciones y negocios relacionados. Compilé esto pensando en los alumnos de ingeniería que fui conociendo estos años y en mis alumnos de economía/negocios. Para ellos especialmente, van primero estas palabras introductorias: Vivimos tiempos extraordinarios y realmente inciertos. Si las medidas de distanciamiento que se están tomando no logran contener el eventual crecimiento exponencial de casos de coronavirus, el sistema hospitalario podría verse superado por varias veces su capacidad. Esta frase aplica casi a cada lugar y país del mundo. Sumemos a esta emergencia el efecto económico de las medidas de aislamiento social. La economía va a cambiar seguramente de manera drástica en los meses por venir, con actividades que van a frenarse, pero también a transformarse. Esto también significa que se generarán nuevas oportunidades, y…
Installing H3 on a Linux Subsystem in Windows 10
Installing H3 on a Linux Subsystem in Windows 10 Installing H3 on a Linux Subsystem in Windows 10 H3 is a library developed by the Uber team, that implements spatial analysis based on indexed hexagons. Hexagons have especially interesting properties for spatial operations. See more here. My experience installing H3 on Windows was not good. H3 did not work, and errors were not clear on the causes either. After some googling I reached the conclusion that crafting that installation could become a headache. So I decided to test the alternative way of using Linux as a subsystem of Windows. This turn out very well. I collect in this post the steps for the complete setup: 1. Install the Linux subsystem The procedure for this installation is simple and [explained here] (https://docs.microsoft.com/en-us/windows/wsl/install-win10). The steps: Using Windows Powershell (wich is available on Windows), enter the command that authorizes the execution of the subsystem: Restart Install a Linux distribution. The distributions can be found at Microsoft Store. In my case I downloaded and installed Ubuntu 18.04 LTS. Just download and install. No special configurations required here. Once installed we will have access to Ubuntu through a shortcut: 2. Preparing the installation of…
Reshape of lat and lon coordinates in MongoDB, using the aggregate pipeline
Reshape of lat and lon coordinates in MongoDB, using the aggregate pipeline Summary To transform a large number of documents in a MongoDB collection with spatial data, for example: {lat: -58.1, lon: -34.2} to a GeoJson format, recognizable by MongoDB spatial analysis functions, for example: {type: ”Point”, location: [- 58.1, -34.2]} It seems advisable to use the aggregation framework: db.tweets.aggregate ([{$project: {location: {type: "Point", coordinates: ["$lon", "$lat"]}}}, $ out: {$out: "newcollectionname"}] ); The problem An usual task in the database in MongoDB may be to prepare the data for spatial tasks. As I described in the previous post, it is necessary to have the data in the compatible format, in this case as a GeoJson. For example, if we are working with points: {type: ”Point”, location: [- 58.1, -34.2]} {type: ”Point”, location: [- 58.1, -34.2]} That is, specifying a "type" key that specifies that it is a point, and then a "location" key with an array of the coordinates pair: longitude and latitude (in that order!) If working with polygons: {type: "Polygon", coordinates: [[[0, 0], [3, 6], [6, 1], [0, 0]]]} The problem with my data is that it was in the following format and I needed to do…
Implementing a scalable geospatial operation in MongoDB
Implementing a scalable geospatial operation in MongoDB Summary In this note I document an initial test implementation of a spatial join involving 22 millions of points to nearly 16 thousands polygons using MongoDB. I document the necessary steps to run the operation. My results took more time that I expected, a total of more than 12 hours. My conclusion is that the approach can be scalable if combined with other approaches such as the simplification of polygons. Intro In this post, I am sharing an implementation of a spatial join type of analysis at scale using MongoDB. MongoDB is a Non-SQL database system, which is extensively used in industry to store large databases distributed over multiple (cloud) machines for storing files. My case is the analysis of a large database over 22 million geo-located tweets. My first objective is to implement a spatial join kind of analysis, that essentially counts tweets in censal radiuses, which are spatial polygons. In this case I have 15,700 polygons. Such an operation is standardly implemented in geospatial packages such as Arcgis or Qgis, and in Python, for example, using Geopandas. But my ultimate objective is finding a solution that is scalable with large amounts…