Revisão da Literatura sobre segurança da Inteligência Artificial e comparação entre organizações ‒ 2018 (Parte 2)

Por Larks (Effective Altruism Forum)

IA-ONGs2

Como evitar o risco da Inteligência Artificial? (Arte digital: José Oliveira | Fotografias: Pixabay)

Resumo: Faço a revisão de uma quantidade significativa de pesquisas de 2017 relacionadas com a segurança da Inteligência Artificial e faço alguns comentários sobre para onde vão os meus donativos este ano.

Conteúdo

Introdução
The Machine Intelligence Research Institute (MIRI)
The Future of Humanity Institute (FHI)
Global Catastrophic Risks Institute (GCRI)
The Center for the Study of Existential Risk (CSER)
AI Impacts
Center for Human-Compatible AI (CFHCA)
Outras organizações relacionadas
Trabalho semelhante realizado por outras entidades
Outros grandes desenvolvimentos deste ano
Conclusão
Declaração de intenções
Bibliografia

The Future of Humanity Institute (FHI)

O FHI de Oxford solicitou que não fossem incluídos nesta análise, por isso não farei qualquer comentário sobre se são, ou não, uma boa organização para financiar. Se não se tivessem recusado (e dependendo da sua situação quanto a financiamento), teriam sido um forte candidato. Isso foi decepcionante para mim, pois parece-me que este ano produziram uma lista de publicações impressionante, incluindo muitas colaborações. Apontarei brevemente duas pesquisas que publicaram este ano, mas lamento não poder dar informação mais detalhada.

Saunders et al. publicaram Trial without Error: Towards Safe Reinforcement Learning via Human Intervention [“Tentativa sem erro: para uma aprendizagem por reforço segura através da intervenção humana”], um bom artigo no qual tentam criar um Aprendiz por Reforço que possa aprender “em segurança”, treinando um algoritmo de reconhecimento de catástrofe para supervisionar o treinamento. É uma idéia atraente e um bom uso do conjunto OpenAI Atari, embora tenha ficado mais impressionado com o fato de concluírem que sua abordagem não seria escalável (ou seja, não funcionaria). Não é comum os pesquisadores publicarem resultados negativos! Uma menção honrosa vai também para o artigo muito bom (mas não serão assim todos os seus artigos?) Sandberg et al. That is not dead which can eternal lie: the aestivation hypothesis for resolving Fermi’s paradox [“Não está morto o que eternamente jaz inanimado: a hipótese de estivação para resolver o Paradoxo de Fermi”] que é relevante na medida em que sugere que o Paradoxo de Fermi, na realidade, não é evidência contra a IA como um risco existencial.

O Brundage Bot da FHI aparentemente lê todos os documentos sobre aprendizagem de máquina já escritos.

 

Global Catastrophic Risks Institute (GCRI)

O Global Catastrophic Risks Institute é coordenado por Seth Baum e Tony Barrett. Produziram trabalho sobre vários riscos existenciais, incluindo riscos não-IA. Algum desse trabalho parece bastante útil, especialmente o Feeding Everyone No Matter What [“Alimentar todos custe o que custar”] de Denkenberger, sobre como garantir o fornecimento de alimentos em caso de desastre, e é provavelmente do interesse do tipo de pessoa que leria este documento. No entanto, está fora do assunto que abordamos. No âmbito da IA, fazem muito trabalho sobre cenários estratégicos e são muito prolíficos.

O Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy [“Pesquisa de Projetos de Inteligência Artificial Geral para Ética, Risco e Política”] de Baum tenta analisar todos os projetos de pesquisa de Inteligência Artificial Geral (IAG) existentes. Esse é um grande projeto e o louvo por isso. Não sei até que ponto isto é novidade para pessoas que estejam bem informadas, mas para mim, pelo menos, foi muito informativo. A única crítica que tenho é que poderia tentar diferenciar mais entre capacidade/credibilidade ‒ por exemplo, minha impressão é que a Deepmind é surpreendentemente mais capaz que muitas das organizações menores listadas ‒ mas isso é claramente exigir demais. Para mim é difícil avaliar a precisão, mas não encontrei qualquer erro (para além de ter ficado surpreendido que a AIXI registe “não especificado” para o compromisso com a segurança, dada a quantidade de artigos de segurança da IA que saem da ANU).

O Social Choice Ethics in Artificial Intelligence [“Ética de Escolha Social na Inteligência Artificial”] de Baum argumenta que as abordagens do tipo de aprendizagem de valores para a ética da IA (como a CEV) contêm muitos graus de liberdade para os programadores refinarem e escolherem seus valores, não os tornando melhores do que simplesmente os programadores escolherem diretamente um sistema ético. Os programadores podem escolher de quem serão os valores usados ​​para aprender, como são medidos e como são agregados. No geral, não estou totalmente convencido ‒ por exemplo, percorra o argumento na página 3, o argumento da Lei dos Grandes Números poderia justificar que calculássemos a média de muitos pontos de vista para obtermos a verdadeira ética, mesmo que não tivéssemos como verificar de forma independente a verdadeira ética. E há uma certa ironia no fato de se notarem fortemente as visões de esquerda do autor, apesar de toda a preocupação do artigo com o risco de falta de imparcialidade. Mas, apesar disso, gostei do artigo, especialmente pela discussão de quem terá legitimidade ‒ algo que parece necessitar de uma solução filosófica, em vez de uma solução de aprendizagem de máquina.

O Value of Global Catastrophic Risk (GCR) Information: Cost-Effectiveness-Based Approach for GCR Reduction [“Valor da informação sobre Risco Catastrófico Global (RCG): Abordagem baseada no custo-eficácia para a redução do RCG”] de Barrett abrange muitos assuntos familiares e, em seguida, tenta fazer uma análise de custo-benefício com o método Monte Carlo, visando um pequeno número de intervenções para ajudar a fazer face à guerra nuclear e ao impacto por cometa. Depois de muito se refletir para mecanizar o processo, teria sido bom ver a análise de uma maior variedade de riscos!

Baum & Barrett publicaram Global Catastrophes: The Most Extreme Risks [“Catástrofes globais: os riscos mais extremos”] que essencialmente parece ser uma introdução geral, razoavelmente bem argumentada, ao tópico dos riscos existenciais. Esperemos que as pessoas que compraram o livro por outros motivos o leiam e fiquem convencidas.

O Towards a Integrated Assessment of Global Catastrophic Risk [“Para uma avaliação integrada do Risco Catastrófico Global”] de Baum & Barrett é uma obra introdutória semelhante sobre riscos catastróficos, mas o local de apresentação ‒ um colóquio sobre riscos catastróficos ‒ parece menos útil, visto que as pessoas que a possam ler, provavelmente já se preocupam com o assunto, e não me parece que aprofunde suficientemente o risco da IA per se para convencer aqueles que já estavam preocupados com os riscos existenciais, mas não com a AI como risco existencial. No ano passado, fiquei impressionado (e ainda estou) com o seu trabalho On the Promotion of Safe and Socially Beneficial Artificial Intelligence [“Sobre a promoção da Inteligência Artificial segura e socialmente benéfica”], que fazia críticas perspicazes, convincentes e aplicáveis ​​à linguagem do tipo “Corrida às armas de IA”. Fiquei menos convencido pelo artigo deste ano Reconciliation Between Factions Focused on Near-Term  and Long-Term Artificial Intelligence [“Reconciliação entre facções focadas na Inteligência Artificial no curto e no longo prazo”], que defende um re-alinhamento das preocupações com a IA de curto prazo vs. preocupações com a IA de longo prazo, para preocupados vs. não-preocupados com a IA. No entanto, não estou seguro das razões pelas quais alguém concordaria com isso ‒ os preocupados a longo prazo atualmente não passam muito tempo discutindo acerca de preocupações a curto prazo (mesmo que se achasse que os argumentos de discriminação de IA eram orwellianos, por que razão haveríamos de nos preocupar com isso?), e convencer os preocupados a curto prazo a parar de criticar as preocupações a longo prazo, parece aproximadamente tão difícil quanto simplesmente convencê-los a se tornarem preocupados a longo prazo.

A GCRI gastou aproximadamente 117 mil dólares em 2017, o que é surpreendentemente baixo considerando a sua produtividade. Isso foi inferior a 2016; aparentemente os seus subsídios do Departamento de Segurança Interna dos EUA chegaram ao fim.

 

The Center for the Study of Existential Risk (CSER)

O CSER é um grupo localizado em Cambridge que se dedica aos riscos existenciais. Da mesma forma que o GCRI trabalham em uma variedade de questões, nomeadamente incluindo o trabalho de Ree sobre a resiliência de infraestrutura.

No ano passado, critiquei-os por não terem produzido pesquisas on-line ao longo de vários anos; agora possuem uma página separada que lista algumas, mas talvez nem todas as pesquisas.

Liu, um pesquisador do CSER, escreveu The Sure-Thing principle and P2 [“O princípio da Coisa-Certa e o P2”] e foi segundo autor no artigo de Gaifman e Liu, A simpler and more realistic subjective decision theory [“Uma teoria de decisão subjetiva mais simples e mais realista”], ambos sobre os fundamentos matemáticos da teoria de decisão bayesiana, que é um tópico valioso para a segurança da IA em geral. Estranhamente, nenhum dos artigos mencionou a CSER como financiador do artigo ou como parceria.

Heart of DARCness [“O coração da DARC — Deliberação Aniquila as Crenças Reflexivas”] de Liu e Price argumenta que os agentes não têm crenças acerca do que farão ao decidir se devem fazê-lo ‒ a sua determinação está temporariamente indefinida. Não fiquei convencido ‒ mesmo alguém que esteja a decidir se tem 75% de confiança ou 50% de confiança, presumivelmente haverá algumas probabilidades que determinem qual o lado de uma aposta que tomaria caso fosse forçado a escolher? Também não tenho certeza da relação direta com a segurança da IA.

Também se reuniram e participaram de workshops sobre IA e teoria das decisões, nomeadamente no Simpósio de IA e Sociedade no Japão, mas em geral tenho relutância em dar crédito às organizações em virtude disso, pois são muito difíceis de avaliar para o observador externo e, idealmente, workshops levam à produção de artigos ‒ que, nesse caso, podemos avaliar.

O CSER também fez uma quantidade significativa de divulgação, incluindo a apresentação à Câmara dos Lordes e aparentemente possuem experiência em divulgação na China (com múltiplos falantes nativos de mandarim), o que pode ser importante, dada a posição da pesquisa de IA ​​da China e a separação cultural do oeste.

Estão a empreender uma aposta publicitária inovadora que não irei mencionar pois não tenho a certeza se já estará publicada. Em geral, parece-me que a maioria dos caminhos para o sucesso envolvem a construção de consensos entre os pesquisadores principais de aprendizagem de máquina, e os esforços “populares” arriscam prejudicar a nossa credibilidade, por isso não estou tão otimista quanto a esse ponto.

Seu orçamento anual é cerca de 750 mil libras, e estimo que um pouco menos da metade irá para o risco da IA. Aparentemente precisam angariar fundos para continuarem existindo, uma vez que o seu financiamento actual termina em 2019. 

 

AI Impacts

A AI Impacts é um pequeno grupo que faz trabalho de estratégia de alto nível, especialmente em cronologias da IA, um pouco associadas ao MIRI.

Parecem ter produzido significativamente mais este ano do que no ano passado. A sua realização principal é o When will AI exceed Human Performance? Evidence from AI Experts [“Quando irá a IA exceder a performance humana? Evidências de especialistas em IA”], no qual foram reunidas as opiniões de centenas de pesquisadores de IA sobre questões cronológicas da IA. Houve algumas conclusões bastante relevantes, como a maioria dos pesquisadores considerar o argumento de Risco Catastrófico da IA relativamente plausível, mas duvidar que haja algo que possa ser feito de construtivo a curto prazo, ou que pesquisadores asiáticos pensam que a IA de nível humano está significativamente mais próxima do que os americanos pensam. Parece-me que a proposta de valor aqui é a dobrar: em primeiro lugar, fornece uma fonte de estimativas cronológicas para quando tomamos decisões que dependem de quanto tempo temos e, em segundo lugar, para provar que a preocupação com o risco da AI é uma posição respeitável e dominante. Aparentemente foi um dos artigos mais discutidos de 2017.

Do mesmo modo, também têm dados sobre melhorias em uma série de indicadores relacionados à AI, como custos de computação ou progresso algorítmico.

John Salvatier (membro da AI Impacts na época) também foi o segundo autor do Agent-Agnostic Human-in-the-Loop Reinforcement Learning [“Aprendizagem de reforço humano-em-controle agente-agnóstico”], juntamente com Evans (FHI, 4.º autor), que tenta projetar uma interface para a aprendizagem por reforço na qual o agente é abstraído, para que se possa facilmente mudar o agente subjacente.

O orçamento da AI Impacts é pequeno em comparação com a maioria das outras organizações listadas aqui; cerca de 60 mil dólares no momento. Aparentemente, novos fundos seriam gastos na contratação de mais pesquisadores a tempo parcial.

 

Center for Human-Compatible AI (CFHCA)

O Center for Human-Compatible AI, fundado por Stuart Russell em Berkeley, foi lançado em agosto de 2016. Como no momento não estão procurando por mais recursos, apenas pesquisarei brevemente alguns trabalhos sobre aprendizagem cooperativa de reforço inverso.

O The Off-Switch Game [O Jogo do Botão para desligar”] de Hadfield-Menel et al. é um bom artigo que produz e formaliza (pelo menos agora li-o) o resultado muito intuitivo de que a IA de aprendizagem por valor pode ser corrigível (pelo menos em alguns casos) porque considera que o fato de um ser humano pressionar o botão de desligar é uma evidência de que essa é a melhor coisa a se fazer. O artigo Should Robots Be Obedient [“Robôs devem ser obedientes”] de Milli et al. está na mesma linha do Cooperative Inverse Reinforcement Learning [“Aprendizagem cooperativa de reforço inverso”] de Hadfield-Menel et al. (do ano passado) sobre a aprendizagem por valores a partir dos seres humanos, especificamente em relação a se esses agentes estariam dispostos a obedecer um comando para “desligar”, de acordo com o artigo de Soares sobre Corrigibility [“Corrigibilidade”]. Faz uma análise interessante sobre o compromisso entre obediência e os resultados nos casos em que os humanos são falíveis.

Em ambos os casos, considerei que os artigos eram criteriosos e tinham boa análise. No entanto, não me parece que nenhum dos dois seja convincente ao mostrar que a corrigibilidade ocorra “naturalmente” ‒ pelo menos não a força da corrigibilidade que precisamos.

Encorajo-os a manter seu site mais atualizado.

No geral, acho que sua pesquisa é boa e sua equipe promissora. Contudo, aparentemente possuem financiamento suficiente por agora, por isso não doarei este ano. Se isso mudar e pedirem capital adicional, certamente poderia financiá-los nos próximos anos.

 

Outras organizações relacionadas

The Center for Applied Rationality (CFAR) trabalha na tentativa de melhorar a racionalidade humana, especialmente com o objetivo de ajudar com os esforços na área dos riscos existenciais da AI.

The Future of Life Institute (FLI) realizou um enorme programa de concessão de bolsas para tentar iniciar o financiamento no campo da pesquisa em segurança da IA. Definitivamente parece haver muito mais acadêmicos trabalhando no problema agora, mas é difícil dizer em que medida isso se pode atribuir ao FLI.

Eighty Thousand Hours (80K) fornecem conselhos de carreira, sendo a segurança da IA uma das principais áreas de causa.

 

Conteúdo (seguinte)

Introdução
The Machine Intelligence Research Institute (MIRI)
The Future of Humanity Institute (FHI)
Global Catastrophic Risks Institute (GCRI)
The Center for the Study of Existential Risk (CSER)
AI Impacts
Center for Human-Compatible AI (CFHCA)
Outras organizações relacionadas
Trabalho semelhante realizado por outras entidades
Outros grandes desenvolvimentos deste ano
Conclusão
Declaração de intenções
Bibliografia


Texto de Larks (2.ª parte de 3) publicado originalmente no Effective Altruism Forum a 20 de dezembro de 2017.

Tradução de Ronaldo Batista. Revisão de José Oliveira.

Botao-assineBoletim

Anúncios

Deixe um comentário

Faça o login usando um destes métodos para comentar:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s