Artuiculo 11
Artuiculo 11
Artuiculo 11
a,*
Xiaosong Lu a, Junyang Du a, Guoqing Wang , Xuzhi Li a, Li Sol a , Liping Zheng a,
Huang Xinghua b
a
Laboratorio Estatal de Protección Ambiental Clave de Gestión Ambiental del Suelo y Control de la Contaminación, Instituto de Ciencias Ambientales de Nanjing, Ministerio de
Montaje: Deyi Hou Con el rápido aumento de la cantidad y las fuentes de big data, el uso de big data y métodos de aprendizaje automático para identificar la contaminación
del suelo se ha convertido en un punto de investigación. Sin embargo, estudios previos que utilizaron información básica de sitios como índices de
Palabras clave: identificación de contaminación tuvieron principalmente problemas de baja precisión y eficiencia al realizar predicciones de modelos complejos para
Aprendizaje multitarea
múltiples tipos de contaminación del suelo. En este estudio, recopilamos datos ambientales de 199 sitios en 6 industrias típicas que involucran
Red de mezcla de expertos de puertas múltiples
contaminación orgánica y de metales pesados. Después de la fusión y selección de características, se utilizaron 10 índices basados en fuentes y vías de
Interpretabilidad del modelo del marco SHAP.
contaminación para establecer el sistema de índice de identificación de la contaminación del suelo. La red Multigate MixtureofExperts (MMoE) se
Identificación de sitios de contaminación del suelo.
construyó para llevar a cabo múltiples tareas de identificación de la contaminación por metales pesados del suelo, COV y SVOC simultáneamente. El
Análisis de factores impulsores
marco SHAP se utilizó para revelar la importancia de los índices de identificación de la contaminación en los múltiples resultados del MMoE y obtener
sus factores determinantes. Los resultados mostraron que las precisiones del modelo MMoE fueron 0,600, 0,783 y 0,850 para las identificaciones de
contaminación de metales pesados del suelo, COV y SVOC, respectivamente, que fueron entre un 0 y un 20 % superiores a las precisiones de las redes
neuronales de BP de tareas individuales. Los índices de materia prima que contienen compuestos orgánicos, la escala empresarial, los rastros de
contaminación del suelo y los tipos de industrias tienen una importancia significativa diferente en la contaminación del suelo del sitio. Este estudio
propuso una forma más eficiente y
* Autor para correspondencia en: Instituto de Ciencias Ambientales de Nanjing, Ministerio de Ecología y Medio Ambiente, calle Jiangwangmiao #8, Nanjing 210042, China.
Dirección de correo electrónico: [email protected] (G. Wang).
método preciso para identificar la contaminación del suelo del sitio y sus factores determinantes, que ofrece un paso hacia la realización de una
identificación inteligente y un control de riesgos de la contaminación del suelo del sitio a nivel mundial.
1. Introducción Modelo de red de expertos (MMoE), que divide las capas de red compartidas
subyacentes en múltiples redes de expertos compartidas y aprende sus contribuciones
Con el rápido desarrollo de la tecnología de big data y de inteligencia artificial, los a las diferentes tareas. Debido al intercambio flexible de parámetros en el caso del
métodos de aprendizaje automático se han aplicado ampliamente a la identificación de aprendizaje multitarea, la precisión y estabilidad del modelo MMoE son relativamente
la contaminación en el campo del entorno ecológico debido a sus excelentes mejores que los modelos de tarea única cuando los nodos de sus redes son similares
capacidades de reconocimiento de clasificación y computación de regresión (Janeck y (Yan et al., 2023) .
´
Monica, 2022; Zhang et al . ., 2021). Algunos investigadores han creado modelos de El análisis de la importancia del índice de identificación en la contaminación del
aprendizaje automático para identificar rápidamente la contaminación del suelo a suelo del sitio es de gran importancia para las causas de múltiples tipos de contaminación
escalas regionales mediante la construcción del sistema de índice de identificación del suelo, lo que es útil para guiar la dirección de la recopilación de big data ambientales
relacionado con la geografía e información básica como la economía regional, los tipos del sitio y la toma de decisiones sobre el control de la contaminación del sitio. En la
de industria, los años de uso industrial y las propiedades del suelo, para reducir el actualidad, la investigación sobre métodos de aprendizaje automático se centra
costo. de investigación, evaluación y gestión ambiental del sitio (Rampanelli et al., 2021; principalmente en la contaminación del suelo y la predicción de riesgos ambientales,
Lakshmi et al., 2021). Wang y cols. (2022a) obtuvieron la información de producción de pero carece de un análisis de las causas y los factores impulsores de la contaminación
las empresas de pesticidas de la Red de Información sobre Pesticidas de China para del suelo. Algunas investigaciones clasifican la importancia de los índices de
construir un sistema de índice para la identificación rápida de la contaminación del contaminación del suelo utilizando medidas de importancia variable de modelos de
suelo en sitios potencialmente contaminados (PCS). Jia et al. (2019) obtuvieron árboles como el árbol de decisión, el bosque aleatorio y XGboost. Sin embargo, aún
información básica, como nombres de empresas y ubicaciones geográficas de más de falta la interpretación de modelos de “caja negra” como SVM y redes neuronales
7000 empresas en el delta del río Yangtze, basándose en la API del motor de búsqueda artificiales (ANN), así como las tasas de contribución positiva y negativa de los índices
de Google. Luego, se utilizaron modelos de aprendizaje automático de máquina de sobre la contaminación del sitio (Li et al., 2022). Lundberg y Lee (2017) propusieron el
vectores de soporte (SVM) y perceptrón multicapa (MLP) para predecir los tipos de marco SHApley Additive exPlanations (SHAP), que da cuenta de la contribución
industrias y los riesgos de contaminación de sitios potencialmente contaminados. Sin marginal de cada participante en un proceso de cooperación y proporciona una
embargo, debido a la falta de índices clave de las fuentes y vías de contaminación del distribución objetiva de los beneficios. En el aprendizaje automático, si las características
suelo del sitio, como los tipos de contaminantes contenidos en las materias primas, el se consideran como cada participante, el problema en sí se convierte en una tarea y, al
nivel de control de la contaminación, la información del estrato del sitio, etc., los estudios combinarlo con el aprendizaje automático, la magnitud de la contribución de cada
anteriores tuvieron problemas de baja precisión y cientificidad insuficiente. Por lo tanto, característica es la importancia de la característica y se puede calcular (Bi et al . ,
es de gran importancia establecer un sistema de índice más completo basado en 2020). En comparación con el método de interpretación intrínseca de los métodos de
fuentes y vías de contaminación para mejorar la precisión de la identificación de la incrustación de modelos lineales y de árbol, el marco SHAP es un marco de
contaminación del suelo y explorar sus factores impulsores. interpretación ex post clásico. Puede proporcionar un valor SHAP para SVM, MLP y
redes neuronales para estimar la contribución de cada característica. El marco SHAP
Debido a las diferentes materias primas y contaminantes particulares de las también presenta predictores con relaciones positivas o negativas con la variable
empresas en diversas industrias, puede haber tipos complejos de contaminación del objetivo para proporcionar explicaciones locales y globales (Marcílio y Eler, 2020; Xu et
suelo, como metales pesados, compuestos orgánicos volátiles (VOC) y compuestos al., 2022).
orgánicos semivolátiles (SVOC) en los PCS (Yan et al . al., 2022). Para múltiples tipos En este estudio, se construyó un sistema de índice de identificación de la
de contaminación, las especificaciones técnicas actuales para la remediación de la contaminación del suelo que incluía información básica, potencial de contaminación de
contaminación del suelo recomendarían diferentes tecnologías aplicables según su la materia prima, nivel de control de la contaminación y capacidad de migración de los
volatilización y descomposición (Zhang et al., 2021). Además, la contaminación orgánica contaminantes del suelo. El modelo de aprendizaje multitarea de la red MMoE se
del suelo, especialmente los COV, provocará olores graves, lo que es un factor construyó para mejorar la precisión y eficiencia de las predicciones de contaminación
importante para la gestión ambiental del sitio (Zhou et al., 2023). Por lo tanto, la por metales pesados del suelo, COV y SVOC. El marco de interpretabilidad de SHAP
identificación rápida e inteligente de la contaminación del suelo del sitio en función de se utilizó para calcular la importancia de las características de los índices de
los diferentes tipos de contaminación es útil para proporcionar una base científica para identificación de la contaminación del suelo en los tres resultados de las tareas de
el control de la contaminación del suelo y la remediación de PCS. MMoE, así como para revelar los factores impulsores de múltiples tipos de contaminación
del suelo. El propósito de este estudio es (1) construir un modelo de aprendizaje
Investigaciones anteriores sobre la identificación de la contaminación del suelo en multitarea de la red MMoE para identificar múltiples contaminaciones del suelo según
un sitio se centran principalmente en un determinado tipo de contaminación en el el sistema de índice relacionado con las fuentes y vías de contaminación del sitio. (2)
escenario de una sola tarea, que no puede cumplir con el escenario de aprendizaje de confirman que la precisión del modelo MMoE para la predicción de la contaminación
tareas múltiples con tipos de PCS complejos y diversos de contaminación del suelo. del suelo es mayor que la de la red neuronal BP de tarea única. (3) explorar un método
Ante problemas complejos, las tareas generalmente se dividían en múltiples subtareas para identificar los factores impulsores de múltiples contaminaciones del suelo
independientes y se entrenaban múltiples modelos, lo que provocaba altos costos de combinando el modelo de red MMoE y el marco SHAP. Este estudio espera proporcionar
mantenimiento y baja eficiencia de predicción de los modelos. El aprendizaje multitarea un método eficiente y preciso para la identificación inteligente de la contaminación del
(MTL) es un tipo de algoritmo de aprendizaje automático que tiene como objetivo suelo en un sitio, así como una base científica para la gestión ambiental y el control de
combinar varias piezas de información de múltiples tareas para mejorar el rendimiento la contaminación de empresas en industrias contaminantes clave.
del modelo y la capacidad de generalización (Zhu et al., 2022; Kendall et al., 2018 ) . .
La idea básica de MTL es que diferentes tareas pueden compartir una representación 2. Materiales y métodos
de características común y, por tanto, entrenarlas de forma conjunta (Zhao et al., 2017;
Kim y Sohn, 2021). El MTL original del modelo de fondo compartido utiliza el intercambio 2.1. Construcción de conjuntos de datos y etiquetas.
2
Machine Translated by Google
organización de protección ambiental (http://v2.lvwang.org.cn). Todos los sitios Hay 8 índices en la especificación técnica del CMEE seleccionados como índices de
pertenecen a las seis industrias contaminantes clave, incluyendo el procesamiento de identificación de la contaminación del suelo del PCS (Tabla 1). Además, se
combustibles, la fabricación de materias primas y productos químicos, la fabricación complementaron como índices de identificación de la contaminación del suelo los tipos
farmacéutica, la fundición de metales ferrosos, la fundición de metales no ferrosos y la industriales de empresas, la escala empresarial y las materias primas que contienen
fabricación de productos metálicos. Debido a las diferentes fuentes y vías de metales pesados y compuestos orgánicos. Hay 15 índices originales que cubren cuatro
contaminación de las industrias manufactureras, los sitios industriales mineros no se categorías de información básica sobre empresas; se seleccionaron como índices de
utilizaron para la identificación y análisis de la contaminación del suelo en este estudio. identificación de la contaminación del suelo el potencial de contaminación de las
La información ambiental relacionada con la contaminación del suelo del sitio se materias primas, el nivel de control de la contaminación y la capacidad de migración
obtuvo mediante extracción artificial para establecer el sistema de índice de de los contaminantes del suelo (Tabla 1). Para el índice discontinuo se asignan valores
identificación de la contaminación del suelo. Para cada extracción de información del entre 0 y 1 según su relación lógica. Además, los seis tipos de industrias empresariales
sitio, se creó un documento específico para registrar las fuentes de todos los datos del se procesaron en modo de codificación OneHot porque no existe una relación lógica
índice, además de ser verificado por otro personal de recolección de datos para o cuantitativa. Para reducir las características redundantes y mejorar la precisión y
garantizar la calidad de los datos. La información básica, como el tiempo de inicio y la eficiencia de los modelos, fusionamos índices similares para producir los nuevos
escala de la empresa, que faltaba en algunos informes de investigación ambiental del índices Byears y Cscore (ecuaciones (1) y (2)). Finalmente, en este estudio se utilizaron
sitio, se obtuvo y complementó a través del sitio web de consulta de información el un total de 10 índices de identificación de tiempo y contaminación del suelo para
empresarial. entrenamiento del modelo y el análisis de factores impulsores (Tabla 2).
2.1.2. Procesamiento de datos de índices de identificación de contaminación del suelo del sitio.
Por años tiempo = Yu / Ts × 100 (1)
El sistema de índice de identificación de contaminación del suelo de este estudio
se refiere a la “Especificación técnica sobre evaluación y clasificación de riesgos para
donde Yu representa el número de años de utilización industrial de la empresa; Ts
parcelas empresariales en producción (prueba)”, que consta de 19 índices de detección
representa el tiempo de puesta en marcha de la empresa; Baños _tiempo representa
de riesgo de contaminación del suelo, que cubren las cuatro categorías de nivel de
la puntuación de utilización industrial/tiempo de puesta en marcha de la empresa; y
gestión de riesgo ambiental de empresas, estado de contaminación, ruta de migración
100 es el coeficiente de amplificación.
de contaminantes y receptores sensibles (CMEE Ministerio de Medio Ambiente
Ecológico de China, 2017). Dado que el objetivo de este estudio es identificar la Puntuación C = Cw + Cs + Ch (2)
contaminación del suelo por PCS, no se consideraron los índices relacionados con la
En la ecuación, Cw, Cs y Ch representan las puntuaciones de peligro oculto de las
evaluación del riesgo de contaminación del sitio, como los receptores sensibles y las
medidas de tratamiento de aguas residuales, desechos sólidos y desechos peligrosos.
propiedades fisicoquímicas de los contaminantes en la especificación técnica. Allá
Fig. 1. Un marco para identificar múltiples contaminaciones del suelo de PCS basado en el modelo de aprendizaje multitarea de la red MMoE.
3
Machine Translated by Google
tabla 1
Índice de identificación de la contaminación del suelo del sitio original de este estudio. Índices de identificación de la contaminación seleccionados de las directrices técnicas; Índices seleccionados de directrices
técnicas y excluyendo los factores relacionados con el riesgo para la salud de la información relacionada con los contaminantes. *Índices adicionales más allá de las especificaciones técnicas.
Información básica Categoría industrial* Seis industrias clave de este estudio 0 y 1 después de la
Medidas antifiltración subterráneas Sin instalaciones subterráneas, instalaciones subterráneas con prevención perfecta, instalaciones subterráneas con Asignado como 0, 0,5, 0,8 y
prevención imperfecta, instalaciones subterráneas sin prevención 1,0
Potencial de contaminación de Materias primas que contienen Contiene metales pesados, no contiene metales pesados. Asignado como 1,0 y 0
la materia prima. metales pesados*
Materias primas que contienen Contiene compuestos orgánicos, no contiene compuestos orgánicos. Asignado como 1.0 y 0
compuestos orgánicos*
Capacidad de migración de Profundidad del agua subterránea* 0,3–90 Rango de 0 a 1 después de la
contaminantes del suelo. normalización
Permeabilidad del suelo en Arcilla, Ranura, Arena, Grava Asignado como 0,1, 0,3, 0,7 y
vadose 1,0
Tabla 2
Índices de identificación de contaminación del suelo después de la fusión de características. Los valores originales de los índices se pueden encontrar en la Tabla 1. Yu y Ts en la ecuación. (1) representan los años de
utilización industrial y el tiempo de puesta en marcha de la empresa; Cw, Cs y Ch en la ecuación. (2) son los niveles de tratamiento de aguas residuales, residuos sólidos y residuos peligrosos, respectivamente.
Categoría de índice Índice Abreviatura tipo numérico Valores de índice después del preprocesamiento de datos
Información básica del sitio Tipos de industria Bindustria Discontinuo 0 y 1 después de la codificación One
Años de utilización industrial/Tiempo de puesta en marcha años _tiempo Continuo Hot Calculado por la ecuación. (1)
Susto empresarial Benter_scare Discontinuo Asignado como 0,1, 0,3, 0,7 y 1,0 Asignado
Potencial de contaminación de las materias primas. Materias primas que contienen metales pesados. pesado Discontinuo como 0 y 1 Asignado
Materias primas que contienen compuestos orgánicos. porgánico Discontinuo como 0 y 1 Asignado
Nivel de control de la contaminación Rastros de contaminación del suelo. traza Discontinuo como 0 y 1 Calculado por
Puntuación de riesgo de control de la contaminación puntuación c Continuo la ecuación. (2)
Cobertura de suelo endurecida en áreas clave cubierta Discontinuo Asignado como 0,2, 0,6, 0,8 y 1 Asignado
Medidas antifiltración para el subsuelo. Cseepage Discontinuo como 0, 0,5, 0,8 y 1 Asignado como
Capacidad de migración de contaminantes del suelo. Permeabilidad del suelo en vadosa. MPerme Discontinuo 0,1, 0,3, 0,7 y 1,0
respectivamente. Cscore representa la puntuación de riesgo de control de la contaminación y cuanto 2.2. Entrenamiento y optimización de modelos.
mayor sea el valor, menos adecuadas serán las medidas de control de la contaminación (Tabla 2).
2.2.1. Construcción de un modelo MMOE de aprendizaje multitarea.
2.1.3. Objetivo de identificación de contaminación y construcción de etiquetas.
Este estudio construyó etiquetas de categorías y modelos de clasificación para cumplir con los (1) La estructura de la red neuronal BP de tarea única
requisitos de predicción cualitativa de la contaminación del suelo del sitio.
Teniendo en cuenta las necesidades de migración y gestión de la contaminación del suelo, se La red neuronal BP es una red feedforward multicapa entrenada utilizando el algoritmo BP, que
establecieron tres tipos de contaminación de metales pesados del suelo, COV y SVOC, como es uno de los modelos de redes neuronales más utilizados (Zhou, 2016). La estructura de la red
objetivos de predicción en este estudio. Según los resultados de detección de los 199 informes de neuronal BP se divide principalmente en tres capas: la capa de entrada, la capa oculta y la capa de
investigación del sitio, se detectaron un total de 13 metales pesados, 42 compuestos orgánicos salida (Deng et al., 2021). La muestra se transmite desde la capa de entrada, la procesa la capa
volátiles (COV) y 88 compuestos orgánicos semivolátiles (SVOC). Los valores nacionales de oculta y luego se transmite a la capa de salida. Si la salida real no es consistente con la salida
detección de riesgos para contaminantes del suelo en la “Calidad ambiental del suelo: estándar de esperada, el error entre la salida real y la salida esperada se propaga de regreso a la capa de
control de riesgos para la contaminación del suelo en terrenos de desarrollo” se utilizaron para entrada a través de la capa oculta, y los pesos de conexión y umbrales de cada neurona se corrigen
determinar si el suelo está contaminado. Para los contaminantes del suelo para los cuales no se capa por capa ( Ketkar , 2017). Teóricamente, una red neuronal BP de tres capas puede lograr
especificaron valores de detección nacionales, se utilizaron como suplementos los valores de cualquier precisión y aproximarse a cualquier función continua (Wen y Yuan, 2020; Zarra et al., 2019).
detección de riesgos del Nivel de detección regional (RSL) publicados por la Agencia de Medio
Ambiente de EE. UU. De acuerdo con si el contenido de contaminantes de los tres tipos de
contaminación anteriores excedió el valor de detección del suelo, los valores de los atributos de la
contaminación por metales pesados, COV y SVOC del suelo en las tres tareas de predicción se
etiquetaron como Sí o No y se codificaron como 1 o 0 respectivamente. .
(2) La estructura del modelo de aprendizaje multitarea de la red MMoE
4
Machine Translated by Google
probabilidad de la etiqueta y de la iésima subtarea. La pérdida es la suma de todos los resultados del
cálculo de las funciones de pérdida de subtareas.
yk = ∑n gk i(x)fi(x) (4) TP + TN
yo=1
Precisión (Acc) = (6)
TP + TN + FP + FN
1
donde i y n representan la iésima subtarea y el número de subtareas, respectivamente. (8)
j = |S|!(|N| −∑|S| − 1 )![f(S {j} )− f(S)]
Para redes neuronales de tarea única y MMoE, n es 1 y 3 respectivamente. y es la |N|! S Nizquierda{j}
etiqueta binaria 0 o 1, y p(yi) es la salida
5
Machine Translated by Google
Fig. 3. Hiperparámetros óptimos de modelos de tarea única mediante el método de búsqueda aleatoria utilizando Keras Tuner.
Tabla 3
Espacios de búsqueda aleatoria y valores óptimos de hiperparámetro de redes de tarea única y MMoE.
Número de nodos de capa ocultos 10–100; intervalos de 2 Tarea 1: 98 Red de expertos: 150
Tarea 2: 84 Capa de torre: 38
Tarea 3: 38
Tasa de aprendizaje 1e5 – 1e1; intervalos de diez veces. 0,01 0.001
6
ycol
Machine Translated by Google
Lu
X.
Cienc
1662
Ambi
Total
Medi
(202
903
del
7
Fig. 4. Correlaciones entre índices de identificación de contaminación del suelo y diferentes tipos de contaminación. *p < 0,05; **p < 0,01.
Machine Translated by Google
Fig. 5. Exactitudes y valores de val_loss de redes neuronales MMoE y de tarea única en el proceso de entrenamiento del modelo. Las tareas 1, 2 y 3 son la identificación de la contaminación del suelo
por metales pesados, COV y SVOC, respectivamente.
Fig. 6. Comparación de exactitudes y precisiones de modelos de redes neuronales MMoE y de tarea única.
3.2. Rendimiento del modelo de red MMoE que identifica múltiples contaminaciones mayores o iguales a los de la red neuronal BP de tarea única (Fig. 6).
del suelo
En este trabajo, se utilizó la función Softmax para extraer los vectores de las redes de
Todas las subtareas para predicciones de metales pesados del suelo, COV y SVOC control y obtener sus distribuciones de peso. Los resultados mostraron que el resultado de
lograron una convergencia después de 500 pasos de entrenamiento del modelo, la cuarta red de expertos fue mayor que el de las otras redes de expertos, lo que indica
respectivamente. Las precisiones del modelo MMoE para predecir la contaminación del que las características compartidas aprendidas por la cuarta subred de expertos podrían
suelo por metales pesados, COV y SVOC fueron 0,60, 0,78 y 0,85, respectivamente. En ser más útiles para la identificación de la contaminación del suelo por metales pesados.
cuanto a los modelos de redes neuronales de BP, las precisiones de la predicción de tres Las tareas de identificación de contaminación de COV y SVOC del suelo fueron las más
subtareas fueron 0,50, 0,73 y 0,85 (Fig. 5). Los resultados muestran que el uso del modelo inclinadas hacia la tercera y segunda red de expertos, respectivamente (Fig. 7). En
MMoE puede mejorar efectivamente la precisión de la identificación de la contaminación comparación con el modelo de red neuronal BP, MMoE puede utilizar de manera flexible
del suelo cuando la precisión del modelo de tarea única para identificar la contaminación funciones compartidas de acuerdo con las características de las tareas, para mejorar la
del suelo es baja. Además, la precisión del modelo MMoE para identificar los tres tipos de precisión de todas las subtareas. El uso del modelo MMoE en lugar de redes neuronales
contaminación fue de 0,74, 0,64 y 0,78, respectivamente, que fueron BP de tarea única para identificar la contaminación del suelo del sitio no solo puede
mejorar la eficiencia del modelado, sino también mejorar significativamente el rendimiento
general de la predicción del modelo.
0,4
0,24 0,25
0,23 0,23 Los resultados del análisis explicativo muestran que los valores SHAP medios de
0,21 0,21 0,23
0,19 Porganic, Benter_scare, Ctrace y la industria química (Bindustry_chemical) para la
0,2 0,18 0,18 0,18
0,17 0,17 0,16
sotsroespeexP
d
e
0,17 contaminación del suelo por metales pesados son 0,190, 0,130, 0,080 y 0,075,
respectivamente, que son significativamente más altos que otros índices. Entre ellos, el
0.1 producto químico Porganic y Bindustry_ tienen un impacto negativo en la contaminación
del suelo por metales pesados, mientras que Benter_scare y Ctrace tienen un impacto
positivo en la contaminación del suelo por metales pesados. En cuanto a la contaminación
0
significativos. del suelo por COV y SVOC, tanto el como Porganic tienen efectos positivos
12345
Los valores medios de Baños _tiempo SHAP de Baños _tiempo en COV y SVOC del suelo
Identificación de experto
fueron 0,127 y 0,097, respectivamente. El Porganic fue el segundo índice importante para
Fig. 7. Distribuciones de peso de redes de control para múltiples subtareas extraídas por la función la contaminación del suelo por COV y SVOC, que tienen valores SHAP medios de 0,070 y
Softmax. 0,090 respectivamente (Fig. 8). Los resultados anteriores muestran que algunos índices de
8
Machine Translated by Google
Fig. 8. Importancia de los índices sobre la contaminación del suelo. Los paneles A, B y C son los valores SHAP de los índices de contaminación del suelo por metales pesados, COV y SVOC basados en todas las muestras.
Los paneles D, E y F son los rangos de importancia (SHAP medio) de los índices.
La información básica, el potencial de contaminación de las materias primas y el nivel de control de la La bindustria es el factor más importante en los tres tipos de contaminación del suelo, que tienen
contaminación tienen diferentes impactos significativos en la contaminación del suelo. impactos positivos y negativos en la contaminación orgánica y de metales pesados del suelo,
Sin embargo, los índices de capacidad de migración de contaminantes del suelo tuvieron el menor respectivamente (Fig. 9C). Al calcular los valores SHAP de cada índice para los resultados de tres
efecto en la tarea de clasificación de la identificación de la contaminación del suelo de PCS. Los subtareas del modelo MMoE, es posible identificar los factores impulsores de múltiples contaminaciones
valores SHAP de la escala empresarial se correlacionaron negativamente con la contaminación del del suelo en sitios individuales, además de ser útiles para la prevención y el control de la contaminación
suelo, lo que indicó que las empresas medianas y grandes tenían más probabilidades de causar del suelo en el PCS.
contaminación del suelo que las micro y pequeñas empresas. Además, debido a las numerosas
subcategorías y los complejos tipos de materias primas de la industria química, Bindustry_chemical
es menos sensible a la identificación de la contaminación que Porganic. Por lo tanto, es necesario 4. Discusión
obtener información detallada sobre las materias primas en lugar de los tipos de industrias
empresariales como un índice importante para la identificación de la contaminación del suelo del sitio. 4.1. Efecto y perspectiva del modelo MMoE en la identificación de la contaminación
del suelo del sitio.
3.4. Análisis de los factores impulsores de la contaminación del suelo del sitio. En los últimos años, los departamentos de gestión ambiental de algunas provincias de China han
diseñado y desarrollado plataformas de gestión de información para respaldar el estudio de la
Este estudio presentó los resultados del análisis de factores impulsores de tres sitios individuales contaminación del suelo de los PCS (Lu et al., 2022). Sin embargo, todavía falta la aplicación de
con diferentes industrias según el marco SHAP. métodos de aprendizaje automático en plataformas de información para identificar la contaminación
método. Los resultados mostraron que la importancia total de los índices de impacto del suelo del sitio.
negativo sobre la contaminación del suelo por metales pesados, como Porganic, Las herramientas API de aprendizaje automático y aprendizaje profundo eficientes y de código abierto
Bindustry_chemical, Ctrace (0), etc., es más significativa que la de los índices de impacto positivo.
existentes, como sklearn, Keras y pytorch, se pueden implementar en la plataforma de información
Por lo tanto, la probabilidad de predicción de la contaminación del suelo por metales pesados es para realizar rápidamente la construcción de modelos de aprendizaje automático (Abdallah et al.,
0,13, lo que da como resultado la predicción de que no habrá contaminación del suelo por metales 2022; Daly et al. , 2022 ; Jiang et al., 2022).
pesados en este sitio. Debido al impacto positivo significativo de dos índices de Byears _time (1.03) Sin embargo, utilizar el método tradicional de modelado de plataformas de aprendizaje automático
y Porganic (1.0), se predijo que el sitio tendría contaminación del suelo por VOC y SVOC con para identificar diferentes tipos de contaminación del suelo requiere entrenar múltiples modelos
resultados de probabilidad de 0.76 y 1.0, respectivamente (Fig. 9A). En el sitio de la industria de simultáneamente (Kia et al., 2017). Conducirá a mayores costos de mantenimiento de modelos para
procesamiento de combustible, el impacto de los índices negativos sobre la contaminación del suelo plataformas de aprendizaje automático, incluida la optimización de los hiperparámetros del modelo
por metales pesados es más significativo que el de los índices positivos, que resultan en la predicción para múltiples tareas. El aprendizaje multitarea tiene como objetivo realizar la transferencia de
de que no habrá contaminación del suelo por metales pesados. En cuanto a la contaminación del conocimientos y mejorar el desempeño mediante el uso de relaciones entre tareas y ha mostrado un
suelo por VOC y SVOC, Byears _time, Benter_scare, Bindustry y Ctrace tienen impactos positivos desempeño prometedor en muchas aplicaciones (Ma y Tan, 2021). Este estudio también confirmó
significativos, que tienen una importancia total mayor que la de los índices de impacto negativos (Fig. que el uso de redes de múltiples expertos que combinan y el mecanismo subyacente de intercambio
9B). En el lugar de fundición de metales no ferrosos, el de información del modelo MMoE puede capturar las diferencias de tareas de los tres.
9
Machine Translated by Google
Fig. 9. Análisis de los factores impulsores de múltiples tipos de contaminación del suelo en sitios individuales según los valores SHAP. Los paneles A, B y C representan las tasas de contribución de
varios índices a la producción de probabilidad de las predicciones de contaminación del suelo. f(x) es el resultado de probabilidad del modelo MMoE para predecir las tres contaminaciones del suelo.
El valor base es el valor promedio de la predicción del modelo según el conjunto de datos. El rojo y el azul indican que el índice empuja el valor previsto hacia arriba o hacia abajo desde el valor base
hasta f(x).
tareas de predicción y mejorar su precisión de predicción. En trabajos destacados, al implementar el reciben más atención porque tienen más probabilidades de contaminar el suelo. Además, la
modelo MMoE en la plataforma de identificación de la contaminación del suelo del sitio, se pueden interpretación parcial del marco SHAP es útil para identificar los factores impulsores en cada PCS,
reducir efectivamente los costos de gestión del modelo y facilitar la aplicación en escenarios de así como para llevar a cabo la decisión de control de la contaminación específica (Jas y Dodagoudar,
ingeniería (P. Wu et al., 2022). 2023).
Debido al conjunto de datos limitado en este estudio, los modelos de clasificación para la Según las métricas del modelo MMoE, la precisión de la predicción de la contaminación por
identificación de la contaminación del suelo del sitio se construyeron en lugar de modelos de regresión, metales pesados fue menor que la de los COV y SVOC del suelo.
lo que indica que no se pudo establecer la relación entre varios índices y el contenido de Estudios anteriores han demostrado que las fuentes de contaminación del suelo por metales pesados
contaminantes del suelo. Además, las etiquetas de categorías y los modelos de clasificación conducen son más complejas que los contaminantes orgánicos del suelo, incluida la descarga de aguas
al efecto insignificante de los índices relacionados con la migración de la contaminación del suelo residuales industriales y la deposición de polvo de empresas en las industrias de minería, fundición y
sobre las múltiples contaminaciones del suelo. En el futuro, con datos disponibles en más de 100.000 galvanoplastia, así como el material original del suelo y un alto fondo geológico ( Liu et al., 2023;
sitios obtenidos del estudio nacional de contaminación del suelo de empresas industriales clave Wang et al., 2022; YF Wu et al., 2022). Los factores anteriores conducen a la dificultad de dominar
realizado entre 2017 y 2020, se podrán construir modelos de aprendizaje automático para tareas de los índices sensibles de identificación de la contaminación por metales pesados del suelo y a una baja
regresión para predecir el contenido de contaminantes del suelo del sitio, así como las tasas de precisión de la predicción del modelo. Por lo tanto, es necesario complementar índices más sensibles
contribución a la producción. de los índices de migración y degradación de la contaminación del suelo en las especificaciones técnicas del CMEE para mejorar la precisión de la identificación de la
(Jiang et al., 2021). contaminación por metales pesados del suelo. Además, para áreas con un alto nivel geológico, se
deben adoptar criterios de evaluación de la contaminación más apropiados para identificar la
contaminación del suelo mediante el uso del aprendizaje automático. Estos métodos serían útiles
para mejorar la precisión de la identificación de la contaminación del suelo por metales pesados en
4.2. Factores impulsores de diferentes tipos de contaminación del suelo del sitio.
los sitios.
El resultado del análisis de factores impulsores mostró que utilizar tipos de industrias como índice
clave para identificar la contaminación del suelo es inexacto porque muchas industrias tienen
diferencias significativas en subcategorías y materias primas (Yang et al., 2022). Es más preciso
identificar la contaminación por COV y SVOC del suelo analizando si las materias primas contienen 4.3. Uso de la tecnología de la información para mejorar la eficiencia y la
compuestos orgánicos (Li et al., 2021). Además, el índice de escala empresarial, que no está incluido estandarización de la recopilación de datos ambientales del sitio.
en la especificación técnica, también tuvo un efecto muy significativo en los resultados de predicción
del modelo. Por lo tanto, las empresas lager con una larga historia de producción y establecimiento La información básica de una empresa, la posibilidad de contaminación de las materias primas,
temprano deberían el nivel de control de la contaminación y otros datos generalmente deben obtenerse mediante
investigación, recopilación de datos y personal en el sitio.
10
Machine Translated by Google
entrevistas. Luego, esa información se convierte en una tabla de datos estructurados mediante Agradecimientos
extracción y resumen manuales. El método tradicional de registro y resumen manual para obtener
datos tiene problemas como baja eficiencia y mala estandarización (Wang, 2019). En los últimos Este estudio cuenta con el apoyo financiero de National Key Research y
años, la tecnología de gestión de la información de los estudios de sitio se ha desarrollado Programa de Desarrollo de China (Nº 2018YFC1800202).
rápidamente. En el estudio nacional de contaminación del suelo de tierras agrícolas y sitios de
empresas industriales clave realizado entre 2017 y 2020 en China, se utilizó una terminal móvil y Referencias
una plataforma de gestión de información para recopilar, almacenar y gestionar datos del estudio
Abdallah, AM, Rheinheimer, DE, Rosenberg, DE, Knox, S., Harou, JJ, 2022. Un ecosistema de software interoperable
(Lu et al., 2022) . Además, los departamentos ecológicos y ambientales de algunas provincias de
para almacenar, visualizar y publicar datos de modelado de sistemas de recursos hídricos. Reinar. Modelo.
China han diseñado y desarrollado sucesivamente plataformas de gestión de información para Software. 151, 105371.
respaldar los estudios de contaminación del suelo de los PCS de empresas cerradas y parques Bergstra, J., Bengio, Y., 2012. Búsqueda aleatoria para optimización de hiperparámetros.
La investigación y aplicación actuales sobre la recopilación de big data ambientales sugirieron metilguanosina basado en XGBoost y SHAP. Mol. El r. Nuclé.
Ácidos. 22, 362–372.
que la tecnología de información terminal basada en Internet móvil y el sistema de posicionamiento
CMEE (Ministerio de Medio Ambiente Ecológico de China), 2017. Especificación técnica sobre detección de riesgos y
global podrá recopilar información del sitio de manera precisa y eficiente (Wang, 2019) . Se podría clasificación de riesgos de parcelas de tierra de empresas en producción (prueba). https://www.mee.gov.cn/gkml/
usar una terminal portátil para ingresar información preestablecida, en lugar del método de registro hbb/bgt/201708/W0201708185813701 30828.pdf.
Jia, XL, Hu, BF, Marchant, BP, Zhou, LQ, Shi, Z., Zhu, Y., 2019. Un marco metodológico para identificar fuentes
potenciales de contaminación del suelo por metales pesados basado en el aprendizaje automático: un estudio de
5. Conclusión caso en el Delta del Yangtsé, China. Reinar. Contaminación. 250, 601–609.
Jiang, YF, Wang, HL, Lei, M., Hou, DY, Chen, SC, Hu, BF, Huang, MX, Song, W.
En este trabajo, se construyó una red MMoE de aprendizaje multitarea para múltiples W., Shi, Z., 2021. Una metodología de evaluación integrada para la gestión de sitios potencialmente
predicciones de la contaminación del suelo por metales pesados, COV y SVOC basada en el contaminados basada en datos públicos. Ciencia. Medio ambiente total. 783, 146913.
Jiang, ZW, Yang, SH, Liu, ZY, Xu, Y., Xiong, YJ, Qi, ST, Pang, QQ, Xu, JZ, Liu, F.
sistema de índice relacionado con las fuentes y vías de contaminación del sitio. Confirmamos que la
Q., Xu, T., 2022. Combinación del aprendizaje automático y la previsión meteorológica para predecir
combinación de redes de múltiples expertos y el mecanismo subyacente de intercambio de desastres por inundaciones en tierras agrícolas: un estudio de caso en la cuenca del río Yangtze. Reinar. Modelo.
características del modelo MMoE pueden mejorar la precisión de las múltiples tareas para la Software. 155, 105436.
Kendall, A., Gal, Y., Cipolla, R., 2018. Aprendizaje multitarea mediante la incertidumbre para sopesar las pérdidas en
identificación de metales pesados del suelo y contaminación orgánica. La combinación de modelos
geometría y semántica de escenas. En: Actas de la Conferencia IEEE sobre visión por computadora y
MMoE y SHAP
reconocimiento de patrones, págs.
reveló la importancia y las tasas de contribución de varios índices sobre la contaminación del suelo Ketkar, N., 2017. Feed Forward Neural Networks. Aprendizaje profundo con Python, primera ed.
Apress, Berkeley, CA, págs. 1531.
por metales pesados, COV y SVOC. En trabajos futuros, el uso de terminales portátiles y plataformas
Kia, SM, Pedregosa, F., Blumenthal, A., Passerini, A., 2017. Recuperación de patrones espaciotemporales a nivel de
de información inteligentes basadas en el modelo MMoE conducirá a la rápida recopilación de grupo en la decodificación MEG mediante el aprendizaje conjunto de funciones multitarea.
información ambiental del sitio y a la identificación inteligente de la contaminación del suelo. Este J. Neurosci. Metanfetamina. 285, 97108.
Kim, TS, Sohn, SY, 2021. Aprendizaje multitarea para la identificación de condiciones de salud y la predicción de la
estudio propuso un método más eficiente y preciso para identificar la contaminación del suelo del
vida útil restante: enfoque de red neuronal convolucional profunda.
sitio y sus factores determinantes, lo que ofrece un paso hacia la realización de una identificación J. Intel. Fabricante. 32, 2169–2179.
inteligente y un control de riesgos de la contaminación del suelo del sitio a nivel mundial. Lakshmi, D., Akhil, D., Kartik, A., Gopinath, KP, Arun, J., Bhatnagar, A., Rinklebe, J., Kim, W., Muthusamy, G., 2021.
Inteligencia artificial (IA ) aplicaciones en adsorción de metales pesados utilizando biocarbón modificado. Ciencia.
Medio ambiente total. 801, 149623.
Li, TK, Liu, Y., Bjerg, PL, 2021. Priorización de sitios potencialmente contaminados: a
Declaración de contribución de autoría CRediT comparación entre la aplicación de un modelo de transporte de solutos y un método de detección de riesgos en
China. J. Medio Ambiente. Gestionar. 281, 111765.
Li, XZ, Jiang, R., Wang, GQ, Chen, YD, Long, T., Ling, YS, 2022. Una comparación
Xiaosong Lu: conceptualización, metodología, software, visualización, análisis formal, escritura
estudio de normas ambientales de suelos para terrenos agrícolas entre diferentes. Reinar.
borrador original. Junyang Du: investigación, curación de datos, redacción: revisión y edición. Ciencia. 43, 577–585. https://doiorg443.webvpn.las.ac.cn/10.13227/j.hjkx.2021062 03.
11
Machine Translated by Google
Marcílio, WE, Eler, DM, 2020. De las explicaciones a la selección de funciones: evaluación del valor SHAP como Xu, YR, Zeng, XH, Bernard, S., He, Z., 2022. Predicción basada en datos del pH del neutralizador y la posición de
mecanismo de selección de funciones (eds). En: 2020 33a Conferencia SIBGRAPI sobre Gráficos, Patrones la válvula para un control preciso de la dosificación de productos químicos en una planta de tratamiento
e Imágenes, Brasil, págs. de aguas residuales. J. Limpio. Pinchar. 96, 101845.
Rampanelli, GB, Braun, AB, Visentin, C., et al., 2021. El proceso de selección de un método para identificar Yan, K., Wang, HZ, Lan, Z., Zhou, JH, Fu, HZ, Wu, LS, Xu, JM, 2022. Contaminación por metales pesados en el
sitios potencialmente contaminados: un estudio de caso en un municipio del sur de Brasil. suelo de sitios contaminados en China: estado de la investigación y evaluación de la contaminación durante
Encuesta Agua Aire Suelo. 232, 26. las últimas dos décadas. J. Limpio. Pinchar. 373, 133780.
Suzuki, SN, Kameyama, R., Yamaguchi, M., Okada, A., Hirata, K., et al., 2022. Yan, JH, He, Z., He, SG, 2023. Aprendizaje multitarea de evaluación del estado de salud y
Desarrollo de creador de contenidos para terminales móviles en sistema de libros de texto activo y examen Predicción de la vida útil restante de máquinas equipadas con sensores. Confiable. Ing. Sistema. Seguro.
de servidor de contenidos basado en la nube. Proc. Computadora. Ciencia. 207, 14081416. 234, 109141.
Wang, XH, 2019. Identificación inteligente y control preciso del riesgo de contaminación del sitio. Yang, J., Li, LY, Liang, YH, Wu, JH, Wang, ZQ, Zhong, QM, Liang, S., 2022.
impulsado por el Big Data. Reinar. Prot. 47, 1316. Desempeño de sostenibilidad de la industria química global basado en la productividad total de factores
Wang, ZM, Zhou, W., Jiskani, IM, Luo, HT, Ao, ZC, Mvula, EM, 2022. Características anuales de la contaminación verdes. Ciencia. Medio ambiente total. 830, 154787.
por polvo y su prevención y control para la protección ambiental en minas a cielo abierto. Ciencia. Medio Zarra, T., Galang, MG, Ballesteros, F., Belgiorno, V., Naddeo, V., 2019. Gestión de olores ambientales mediante
ambiente total. 825, 153949. redes neuronales artificiales: una revisión. Reinar. En t. 133,
Wang, X., Yu, DS, Ma, LX, Lu, XS, Song, J., Lei, M., 2022a. Uso de búsqueda de big data y aprendizaje automático 105189.
para predecir la probabilidad de riesgo para la salud humana a partir de suelos de sitios de pesticidas en Zhang, QL, Huang, GX, Wang, XH, et al., 2021. Tecnología de construcción para el sitio
China. J. Medio Ambiente. Gestionar. 320, 115798. Sistema de recomendación de planes de remediación y control de riesgos de contaminación respaldado por
Wang, SX, Zhang, S., Guo, LY, Rong, CY, Chai, LJ, 2022b. Una compresión con pérdida razonamiento basado en casos y aprendizaje automático. J. Medio Ambiente. Ing. Tecnología. 10,
Algoritmo para datos de PMU basado en una combinación de expertos de puertas múltiples y unidad 10121021.
recurrente de puertas. Proceder. CSUEPSA. https://doi.org/10.19635/j.cnki.csuepsa.000969. Zhao, L., Sun, Q., Ye, J., Chen, F., Lu, CT, Ramakrishnan, N., 2017. Presentan modelos de aprendizaje multitarea
Wen, L., Yuan, XY, 2020. Previsión de emisiones de CO2 en el departamento comercial de China, a través de la restringidos para la predicción de eventos espaciotemporales. Traducción IEEE. Conocimiento.
red neuronal de BP basada en bosque aleatorio y PSO. Frente. Ecológico. Reinar. 718, 137194. Ing. de datos. 29, 10591072.
Zhou, ZH, 2016. Aprendizaje automático, primera ed. Prensa de la Universidad de Tsinghua, Beijing,
Wu, YF, Li, X., Yu, L., Wang, TQ, Wang, JN, Liu, TT, 2022a. Revisión de la contaminación del suelo por págs. 97108.
metales pesados en China: distribución espacial, fuentes primarias y alternativas de remediación. Zhou, XH, Zhou, X., Wang, CM, Zhou, HD, 2023. Impactos ambientales y de salud humana de los compuestos
Recurso. Conservar. Recibe. 181, 106261. orgánicos volátiles: una revisión en perspectiva. Quimiosfera 313, 137489.
Wu, P., Yuan, W., Ji, L., Zhou, L., Zhou, Z., Feng, WB, Gao, YK, 2022b. Misil
Diseño de optimización de formas aerodinámicas utilizando redes neuronales profundas. Aerosp. Ciencia. Zhu, Y., Wu, XD, Qiang, JP, Hu, XG, Zhang, YH, Li, PP, 2022. Representación
Tecnología. 126, 107640. aprendizaje con codificador automático disperso y profundo para el aprendizaje multitarea. Reconocimiento de patrones.
129, 108742.
12