Clasificación óptima bajo decisiones de negocio

Optimal calibration of a classifier based on business knowledge

Versión en Español

Calibrating a predictive algorithm for production in a business environment requires not only consideration of the algorithms' performance, underlying data, and related statistics, but also an economic evaluation of the related business-related actions that the algorithm will trigger. In my experience, this is a highly relevant topic but one that is not frequently considered or discussed. As a result of this, in many applications classifiers are configured without adequate consideration of business trade-offs, which is why I decided to write this post.

To exemplify, consider a financial institution which is implementing a classifier (such as Logistic Regression classifier) to prevent fraudulent transactions. Of course, a fraud involves costs that the financial institution seeks to reduce. The classifier algorithm decides if each transaction that takes place in the system should be flagged as a possible fraud. Typically, such a flag triggers a series of actions that will be taken by the company, and that will also carry associated costs. What we will see next is that such costs need to be taken into account in order to adequately calibrate a predictive model.

Suppose, to begin with, that the institution fits a fraud model based on historical data. For this, the institution has a record of transactions (in its training set) including information on whether each one of them was a fraud or not. Suppose a variable takes a value of 1 if the transaction was actually a fraud, and 0 otherwise. Fitting the fraud model returns a predictor function such that, given a set of observed characteristics () for a given transaction, yields a related probability of fraud. Let us denote such a function as .

In a second step, as part of the classification stage, using the fitted function , a transaction will be marked as a possible fraud only if a certain predicted fraud probability is reached. For exposition purposes, let's denote the variable that will contain the result of this classification, so that a transaction is classified as fraud by assigning , and otherwise. As a default, the standard rule considers that a transaction will be classified as fraudulent if the predictor function gives it more than a 50% probability of fraud. However, this rule can be changed. For example, a "conservative" rule might be to mark a transaction as fraudulent only if that transaction was given a predicted probability greater than 90% (i.e., if ). Let's generally denote this minimum probability (or "threshold") with the letter . (i.e. the transaction will be classified as fraudulent only if ).

Let's now consider putting this classifier into production. The probability that any transaction processed in the system will be classified as fraud can be written as the probability that its predicted probability will exceeded the threshold (i.e., As we have already noted, increasing the threshold implies reducing the probability of marking any transaction as fraudulent ( ).

How to determine the value of the threshold ? As we will discuss, the decision on should be a decision based on the business actions the classification will trigger, which must take into account the different types of classification errors. Let's see:

On the one hand, if a transaction is reported as fraud, a series of actions will typically be implemented to confirm it: for example, the transaction (and in some cases the corresponding user account) will be blocked, and a contact with the account's owner will be sought -via email, the client will be asked to contact the institution, etc.-. Let's call these "monitoring actions", and suppose that they have an expected cost for the company (measured in the currency that is being used), and for simplicity we will assume that it is known, constant, and we will denote that cost with . In addition, if the alleged fraud was real, we will further assume that the loss associated with the fraud will be avoided because of such actions. The average cost of fraud episodes is typically known to companies, or can be easily estimated, and we will denote the expected cost of a fraud as .

On the other hand, we must also consider that by marking a transaction as a fraud, a mistake of incorrectly marking a legitimate transaction can be made, and this also generates costs for the company. For example, a client who experiences an illegitimate blocking of their transactions (or their account) might get frustrated and decide to stop being a client of the financial institution. The action could also affect the company's reputation if the client discharges their frustration using social media, etc. In some cases, consequences of this type can be measured. For example, the company can analyze the behavior of clients after being blocked, monitor social media for related cases, etc. In any case, it should be noted that by incorrectly flagging an action as fraud, a cost that cannot be avoided is the one of taking the monitoring action (i.e., the cost of assigning a person to receive a customer's complaints, make an inspection of the transactions, etc.). This type of error (i.e., incorrectly pointing out the fraud when in fact it does not occur) is commonly called a Type II Error, or "false positive". Let's assume here that this expected cost is known and denote it with .

It follows from what we have said so far that, in the instance of model calibration, changing the classification threshold modifies the expected costs of each situation. A higher, more conservative threshold, we said, reduces the probability of flagging a transaction as fraudulent (i.e., ). This reduction occurs regardless of whether the transaction was fraudulent in the first place. In particular, an increase in the threshold reduces the probability of making a false positive error ((ie, ) and its associated cost. In turn, it will also reduce the probability of catching a fraud ((ie, )) and its associated cost.

It follows that establishing an optimal classification threshold results from considering both sources of costs. The data scientist team should then consider both sources of costs and find the threshold that minimizes those costs. Using the notation proposed so far, we can formally express the company problem, as finding the optimal value of that minimizes the expected cost for a given transaction1:

That is, the expected cost for the company is comprised of the expected cost of a fraud not captured, the expected cost of fraud captured, and the expected costs of signaling a legitimate transaction as a fraud (i.e., false positives), weighted by their respective probabilities. For example, in the case of the first term, the expected cost of an uncaught fraud is comprised of the cost of the fraud weighted by the conditional probability of not having found the fraud when it occurred, and also weighted by the probability that the fraud existed in the first place.

The optimization of this problem requires that the optimal value of satisfies the following condition2:

Intuitively, the optimal value for requires equalizing the expected marginal benefit of a caught fraud against the expected marginal cost of making a signaling error. A reduction of increases the marginal benefit of catching the fraud, but at the cost of increasing the marginal cost associated with false positives.

Notice that some of the components of the optimal calibration in Equation 1 can be directly estimated using the training data (for instance, an estimate for the probability of fraud is the fraction of the number of fraudulent transactions relative to total number of transactions). Other components, such as the marginal changes in probabilities (e.g., , ), can be estimated using the outcomes of the machine learning/ model fitting stage, as we will discuss below. Finally, the components related to economic costs of triggered actions, need to be separately collected, or carefully estimated if does not exist at the time of implementing the classifier for the first time.

One way to easily identify the optimal calibration, involves using the ROC curve, a widely used tool for diagnosing the classification model's fit. Lets discuss this method and some related examples.

Optimum calibration on the ROC curve

The ROC curve is the graph that illustrates the diagnostic capacity of the classifier as the discrimination threshold is changed. It plots the true positive rates ("TPR", also called "recall") against the false positive rate ("FPR"). We can think of this curve as the estimate of the theoretical relationship that we have been discussing so far (i.e., between the probability of successfully capturing a fraud and the probability of a false positive) for different values of the threshold probability .

As an example, the graph below represents, in orange, a simulated ROC curve that could have emerged from a fitting process. Each point on that curve is associated with a possible threshold value . Higher values of implies moving along the curve towards the lower left corner. Calibrating the model for production implies choosing a point in the curve. Which should be the optimal threshold?

To identify the optimal threshold on the graph, it is helpful to rewrite the above equation as follows

Note that the ratio of the marginal probabilities on the right hand side of the equation can be approximated on the graph as the slope of the ROC curve ( ) since the slope at a point on the curve measures a change in the rate of true positives for each point of change in the rate of false positives.

In this way, the identification of the optimal threshold implies identifying the point of the curve where the slope of the ROC curve is exactly equal to .

 

Optimal ROC curve and k

It is worth examining what elements determine the optimal slope (i.e., position on the curve).

On the one hand, the optimal slope will be greater the greater the ratio between the probability that a transaction is legitimate relative to the probability of fraud . The less frequent fraud cases are (relative to the normal transaction cases), the higher the slope and the optimal value of . This in turn implies that it is optimal to have a relatively small false positive rate and also a small recall rate. Intuitively, if fraud is very rare, even a low false positive rate can mean significant amounts of wrongly marked transactions, so it is convenient to reduce this rate as much as possible, increasing the classifier's threshold.

On the other hand, the second factor in the optimal slope condition () indicates that the greater the monetary cost of the false positive relative to the cost of the fraud, the greater the slope and the need to be conservative with the classifier.

Finally, note that increasing the monitoring cost (n.b., , which appears in both the numerator and the denominator of the optimal condition), has the effect of increasing the value of the slope. Intuitively, increasing the cost of monitoring flagged transactions economically discourages the classification of transactions as fraudulent, leading to an increase in the optimal threshold.

Numeric Example

Finally, with the aim of facilitating the identification of the optimal threshold in practice, let's propose here a numerical example. Suppose that the data science team has implemented several fits of the model for different threshold levels, obtaining the respective measures of capture (recall), and precision (precision). Our objective is to identify the optimal level for the classification threshold, and in this way to optimally calibrate the classifier.

To do so, we must start by identifying the business variables to build the components of the optimal condition. Suppose that after analyzing the business conditions, the data science team arrives at the values shown in the table below. For the example, we assume that a fraud has an expected value of loss of $2,000. Suppose that frauds, during a representative month, took place 250 times, and the total number of non-fraudulent transactions during that month were 2,5003. In other words, the ratio of non-fraudulent to fraudulent transactions was 10 to 1. Finally, suppose that the expected cost of a false positive is $200 and of the monitoring cost is ​about $10 per flagged transaction.

Based on these values, the left-hand side components of the last equation can be computed. Thus, as shown in the table below, the optimum slope value can be found to be approximately 1.05.

Business variables for optimal threshold determination

Let us now turn to analyze the data that emerged from the classifier. We assume in this case that the resulting values were the precision metric (i.e., percentage of true positives over the total number of reported cases) and the recall metric (i.e., percentage of total capture of frauds). These values are presented in the table below in columns A and C, and are marked in blue.

Note that the values were ordered according to the recall rate obtained (consistent with a lower value of the threshold ). Our goal now is to reconstruct the slope of the ROC curve, in other words, the rate of change in the algorithm recall per unit increase in the rate of false positives. The table shows the calculation procedure: First, in column B, the false positive rate is computed. Then, in columns D and E, the false positive and capture variations are computed, respectively. Finally, in column F, the approximate slope is computed as the ratio between both increments.

Analyzing the values in column F, we can see that the closest slope to the optimal condition that we obtained in the previous table is the one that arose in Run 10. In this case, the slope was 1.05.

Classifier data and optimal threshold

 

Conclusions / Take-away

  • The optimal calibration of a machine learning classifier from the business point of view must take into account, from the outset, the business actions that will be triggered from it, and how they will impact the business. It is important to note that such calibration cannot be delegated exclusively to the data used as part of the statistical learning (machine learning) stage. Such business information needs to be separately collected, or carefully estimated if does not exists at the time of implementing the classifier for the first time.
  • The economic rule of thumb for the optimal calibration of probability threshold is to balance the expected marginal benefit of increased capture against the expected cost of false positives. Note that the key components of these costs are the relative frequency of fraud cases relative to cases without fraud, as well as the costs related to each triggered action.
  • A practical way to identify the optimal threshold is through the analysis of the slope of the ROC curve. The optimal threshold is located at the point of the curve with a slope that equals the value given by: .

 

I thank Julian Amaya and Manuel Cassiani for helpful comments and suggestions.

 

Versión en Español

 

Calibración óptima de un clasificador en base a variables del negocio

Calibrar un algoritmo predictivo para su puesta en producción en un entorno de negocios requiere, no solo de la consideración de las cuestiones propias del funcionamiento de los algoritmos y estadísticos relacionados, sino también, de una evaluación económica de las acciones relacionadas que el algoritmo disparará.

Para ejemplificar, considere una situación de negocio en un contexto financiero donde se busca implementar un clasificador para la prevención de fraude. Por supuesto, los fraudes implican costos que la institución financiera busca reducir. El algoritmo clasificador va a señalar a cada transacción que ocurra en en el sistema como un posible fraude o como una transacción normal. Típicamente esta señalización de un posible fraude implica una serie de acciones que tendrán un costo esperado para la empresa. Lo que veremos a continuación, es que las consideraciones de los costos asociados tienen implicancias en la calibración adecuada de los modelos predictivos.

Suponga, para comenzar, que la institución ajusta un modelo de clasificación de fraude (como por ejemplo, un modelo basado en Regresión Logística) en base a sus datos históricos. La institución cuenta para esto con un registro de transacciones en su training set, incluyendo la información sobre si cada una de ellas fue un fraude o no. Supongamos que la variable toma el valor 1 si la transacción fue efectivamente un fraude y 0 sino. El resultado del ajuste del modelo de fraude es una función predictora tal que, dado un conjunto de características observadas para una transacción determinada (), le otorga una probabilidad de fraude. Denotemos a tal función como .

En un segundo paso, en la instancia de predicción, contando con la una función ajustada , se señalará a una transacción como un posible fraude sólo si la predicción alcanzó un cierto nivel de probabilidad. A los fines de la exposición, denotemos como a la variable que contendrá el resultado de esta clasificación, de manera que una transacción se clasifica como fraude asignándole , y si se clasifica como una transacción sin fraude. En general, la regla por defecto suele considerar que se clasificará a una transacción como fraudulenta si la función predictora le otorga más de un 50% de probabilidad de fraude. Sin embargo, esta regla se puede cambiar. Por ejemplo, una regla "conservadora" podría marcar a una transacción como fraude solo si se le otorgó a esa transacción más del 90% de probabilidad de fraude (i.e., si ). A los fines de la exposición, denotemos en general a esta probabilidad mínima (o "threshold") con la letra , es decir, se clasificará la transacción como fraudulenta solo si .

Consideremos ahora la puesta en producción del predictor. Es decir, se implementa esta regla en el sistema de negocio. La probabilidad de que una transacción cualquiera sea clasificada como fraude se puede escribir como la probabilidad de que esa transacción haya superado el umbral (i.e., . Como ya notamos, aumentar el threshold implica reducir la probabilidad de marcar una transacción cualquiera como fraudulenta .

¿Cómo determinar el valor de ? La decisión sobre debe ser una decisión fundamentada en variables de negocio, que debe tener en cuenta los distintos tipos de errores de clasificación. Veamos:

Por una parte, de señalar una transacción como fraude, típicamente se implementarán una serie de acciones para confirmar el mismo: por ejemplo, se bloqueará la transacción (y en algunos casos la cuenta), y se buscará establecer un contacto con el titular (por email, que el cliente llame a la institución, etc.). Suponga que el conjunto de acciones de monitoreo de un posible fraude tiene un costo esperado para la empresa (medido en la moneda que se esté utilizando), y para simplificar supondremos que es conocido, constante, y que denotaremos . Si el supuesto fraude fue real, supondremos además que como resultado de tales acciones se evitará la pérdida asociada al fraude. Típicamente las empresas conocen el costo promedio de los episodios de fraude, o puede estimarse fácilmente, y vamos a denotar a este costo esperado como .

Por otra parte, debemos considerar también que al señalar una transacción como fraudulenta se puede cometer el error de señalar incorrectamente a una transacción legítima (i.e., no fraudulenta), y que esto también genera un costo para la empresa. Por ejemplo, un cliente que experimenta un bloqueo ilegítimo de sus transacciones o de su cuenta podría enojarse y decidir dejar de ser cliente de la entidad financiera. La acción podría repercutir en la reputación de la institución si el cliente habla mal de la misma a través de las redes sociales, etc. En algunos casos, consecuencias de este tipo pueden medirse. Por ejemplo, se analiza posteriormente si los clientes que sufrieron este tipo de bloqueos por parte de la institución dejaron de ser clientes o cambiaron su comportamiento de alguna forma registrada en la entidad, o en las mismas redes sociales. En cualquier caso, hay que notar que al señalar incorrectamente una acción como fraude, el costo que no puede evitarse en estos casos es el de tomar la acción de monitoreo, (el costo de asignar a una persona para recibir los reclamos de un cliente, que haga una inspección de las transacciones, etc.).

Este tipo de error (señalar incorrectamente el fraude cuando en realidad el mismo no ocurre) se llama comúnmente Error de Tipo II, o "falso positivo" y vamos a suponer aquí que ese costo esperado es conocido y lo denotaremos como .

Se sigue de lo expuesto hasta aquí que, en la instancia de calibración del modelo, cambiar el threshold de clasificación, modifica los costos esperados de cada situación. Un threshold más alto o conservador, dijimos, reduce la probabilidad de marcar una transacción como fraudulenta (i.e., ). Esta reducción se da sin importar si la transacción era fraudulenta o no en primer lugar. En particular, un aumento del threshold reduce la probabilidad de cometer un error de falso positivo ((i.e., ) y su costo asociado. A su vez, también reducirá la probabilidad de capturar un fraude ((i.e., )) y su costo asociado.

Por lo tanto, podemos inferir que establecer un threshold de clasificación óptimo resulta de considerar ambas fuentes de costos. La función del data scientist entonces debe ser considerar ambas fuentes de costos y buscar el threshold que minimice esos costos. Utilizando la notación planteada hasta aquí, podemos plantear el problema de minimización del costo esperado que enfrenta la empresa para una transacción cualquiera en los siguientes términos4:

Es decir, el costo esperado para la empresa, se compone de los costos esperados por fraude no capturado, por fraude capturado, y por los costos de señalizar como fraudes transacciones legítimas (i.e., falsos positivos), ponderados por sus respectivas probabilidades. Por ejemplo, en el caso del primer término, el costo esperado del fraude no capturado se compone por el costo del fraude ponderado por la probabilidad condicional de no haber encontrado el fraude cuando este ocurrió, y a su vez ponderado por la probabilidad de que el fraude exista en primer lugar.

La optimización de este problema requiere que el valor de óptimo cumpla la siguiente condición5:

Intuitivamente, el valor óptimo para requiere igualar el beneficio marginal esperado del fraude capturado, contra el costo marginal esperado de cometer un error al señalizar. Una reducción de , aumenta el beneficio marginal de la captura del fraude, pero al costo de incrementar el costo asociado a los falsos positivos.

Notese que algunos de los componentes de la calibración óptima en la Ecuación 1 se pueden estimar directamente utilizando los datos disponibles sobre los que se está ajustando el modelo (por ejemplo, una estimación de la probabilidad de fraude es la fracción del número de transacciones fraudulentas en relación con el número total de transacciones). Otros componentes, como los cambios marginales en las probabilidades (p. ej., , ), se puede estimar utilizando los resultados de la etapa de aprendizaje automático/ajuste del modelo, como veremos a continuación. Finalmente, los componentes relacionados con los costos económicos de las acciones desencadenadas deben recopilarse por separado o estimarse cuidadosamente si no existen al momento de implementar el clasificador por primera vez.

Una forma de identificar fácilmente la calibración óptima consiste en utilizar la curva ROC, una herramienta ampliamente utilizada para diagnosticar el ajuste del modelo de clasificación. Analicemos este método y algunos ejemplos relacionados.

Calibración óptima en la curva ROC

La curva ROC es el gráfico que ilustra la capacidad de diagnóstico del clasificador a medida que cambiamos el threshold de discriminación. En la curva ROC se trazan las tasas de verdaderos positivos ("TPR", también llamado "recall") contra la tasa de falsos positivos ("FPR"). Podemos pensar a esta curva como la estimación de la relación teórica que venimos discutiendo hasta aquí, entre la probabilidad de capturar un fraude exitosamente y la probabilidad del falso positivo (i.e., asignar erróneamente una transacción legítima como fraude) para distintos valores de la probabilidad umbral .

A modo de ejemplo, el gráfico más abajo representa, en naranja, una curva ROC que podría haber surgido de un proceso de ajuste. Cada punto en esa curva está asociado a un valor posible del umbral . A mayor nos movemos sobre la curva hacia el extremo inferior izquierdo. ¿Cual debería ser el umbral óptimo?

Para identificar el umbral óptimo en el gráfico, es útil reescribir la ecuación anterior de la siguiente manera

Notar que el cociente de las probabilidades marginales en el lado derecho de la ecuación se puede aproximar en el gráfico como la pendiente de la curva ROC ( ) ya que la pendiente en un punto de la curva mediría precisamente un cambio entre la tasa de verdaderos positivos por cada punto de cambio en la tasa de falsos positivos.

De esta manera, la identificación del threshold óptimo implica identificar el punto de la curva donde la pendiente de la curva ROC es exactamente igual a .

 

Curva ROC y k óptimo

Vale la pena examinar qué elementos determinan la pendiente óptima y la relación en la curva.

Por una parte, la pendiente óptima será mayor mientras mayor sea el ratio entre la probabilidad de que una transacción sea legítima relativa a la probabilidad de un fraude . Mientras menos frecuentes sean los casos de fraude (relativos a los casos de transacciones normales), mayor será la pendiente y por lo tanto también el valor óptimo de . Esto a su vez, implicará que es óptimo tener una tasa relativamente pequeña de falsos positivos y también una tasa pequeña de captura. Intuitivamente, si los fraudes son muy raros, aún una tasa baja de falso positivo puede significar cantidades importantes de transacciones marcadas erróneamente, por lo que conviene reducir esa tasa lo más posible, aumentando el threshold del clasificador.

Por otra parte, el segundo factor en la condición de la pendiente óptima () indica que mientras mayor sea el costo monetario del falso positivo relativo al costo del fraude, mayor será la pendiente y la necesidad de ser conservador con el clasificador.

Por último, nótese que aumentar el costo relacionado al monitoreo (n.b., , que aparece tanto en el numerador como en el denominador de la condición óptima ), tiene el efecto de aumentar siempre el valor de la pendiente. Intuitivamente, aumentar el costo del monitoreo de las transacciones marcadas desalienta económicamente la clasificación de transacciones como fraudulentas, lo que lleva a aumentar el umbral óptimo.

Ejemplo Numérico

Por último, con ánimos de facilitar la identificación del umbral óptimo en la práctica, propongo aquí un ejemplo numérico. Supongamos que el equipo de data science ha realizado varios ajustes para distintos niveles del umbral, encontrando medidas de captura (recall), y de precisión (precision). El objetivo es identificar el nivel óptimo para el umbral de clasificación, y de esta manera calibrar definitivamente el clasificador.

Para hacerlo, debemos comenzar por identificar las variables de negocio de manera de construir los componentes de la condición óptima. Supongamos que luego de analizar los datos del negocio, el equipo de data science llega a los valores se exponen en la tabla a continuación. Para el ejemplo, suponemos que un fraude tiene un valor esperado de pérdida de $2,000. Supongamos que los fraudes, durante un mes representativo, ocurrieron en 250 ocasiones, y el número de transacciones no fraudulentas durante ese mes fue de 2,5006. Es decir, el ratio del número de casos de no-fraude relativo a los de fraude fue de 10 a 1. El costo esperado del falso positivo es $200 y del monitoreo es 10 dólares.

En base a estos valores, se puede computar los componentes del lado izquierdo de la última ecuación presentada. Así, como se muestra en la tabla a continuación, se puede llegar a que el valor de la pendiente óptima es aproximadamente 1.05.

Variables de negocio para el umbral óptimo

Pasemos ahora a analizar los datos de que surgieron del clasificador. Suponemos en este caso que los valores resultantes fueron el valor de la precisión (porcentaje de verdaderos positivos sobre el total de casos señalados) y el recall (i.e., porcentaje captura total de fraudes). Estos valores se presentan en la tabla a continuación en las columnas A y C, y están marcados en azul.

Notar que los valores fueron ordenados de acuerdo a la tasa de captura obtenida (consistente con un menor valor del umbral ). Nuestro objetivo ahora es reconstruir la pendiente de la curva ROC, en otras palabras la tasa de variación del recall por unidad de incremento en la tasa de falsos positivos. La tabla muestra el procedimiento de cálculo: En primer lugar, en la columna B, se computa la tasa de falsos positivos. Luego, en las columnas D y E, se computan las variaciones de falsos positivos y de captura respectivamente. Por último en la columna F, se computa la pendiente aproximada como el cociente entre ambos incrementos.

Al analizar los valores de la columna F, podemos ver que la pendiente más cercana a la condición óptima que obtuvimos en la tabla anterior es la que surgió en el Run número 10. En este caso la pendiente resultó de 1.05.

Datos del clasificador y umbral óptimo

Conclusiones / Take-away

  • La calibración óptima de un clasificador de aprendizaje automático desde el punto de vista del negocio debe tener en cuenta, desde el primer momento, las acciones de negocio que se dispararán a partir del mismo, y como las mismas impactarán en el negocio. Es importante remarcar que tal calibración no puede delegarse exclusivamente a los datos que se utilizan como parte del aprendizaje estadístico (machine learning). Es necesario recolectar tal información de manera separada o bien estimarla con cuidado si todavía no existe.
  • La regla económica para determinar el umbral de clasificación óptimo consiste en balancear el beneficio marginal esperado de una mayor captura contra el costo esperado que implicarán los falsos positivos. Notar que los componentes clave de dicho umbral son la frecuencia relativa de casos fraude relativos a los casos sin fraude, y también los costos económicos relativos a cada acción que será disparada por el algoritmo.
  • Una forma práctica de identificar el umbral óptimo es a través del análisis de la pendiente de la curva ROC. Debe identificarse aquel punto de la curva cuya pendiente cumple la condición óptima de ser igual a .

 

Agradezco a Julian Amaya and Manuel Cassiani por sus comentarios y sugerencias.

 

 


1 Note that in order to logically complete this expression, it would be necessary to consider the cases in which non-fraudulent transactions are not correctly non flagged (T=0 and F=0), but this term is nulled-out since there are no related costs.
2 This equation arises from the problem's first-order condition, that is, looking for the derivative of the expected cost function in terms of and setting it equal to 0. Before taking the derivative the probability of not signaling a real fraud, is replaced by the complement of signaling it out (i.e., , and rewriting the objective function as . Note that differentiating this function and setting it equal to 0 gives: .
3 Note that the classification of transactions may not be performed on all the transactions that occur in the company, if it has been detected that some specific types of transactions are not required to be subject to classification (i.e., extremely unlikely to be fraud).
4 Notar que para completar lógicamente esta expresión restaría considerar los casos en donde transacciones no fraudulentas son correctamente no señaladas, pero ese término se anula pues no hay costos relacionados.
5 La condición surge de identificar la condición de primer orden, esto es, buscar la derivada de la función de costo esperado en términos de e igualar a 0. Previamente, es útil utilizar el hecho de que la probabilidad de no señalar un fraude real, es el complemento de no señalarlo (i.e., y reescribir la función objetivo como . Notar que derivando esta función e igualando a 0 se obtiene: .
6 Notar que la clasificación de transacciones podría no realizarse sobre todas las transacciones que ocurren en la entidad financiera, si ya se han detectado algunos tipos específicos de transacciones que no requieren ser sujeto de clasificación.

Leave a Reply

Your email address will not be published. Required fields are marked *