Revisão da Literatura sobre segurança da Inteligência Artificial e comparação entre organizações ‒ 2018 (1)

Por Larks (Effective Altruism Forum)

IA-ONGs1

Como evitar o risco da Inteligência Artificial? (Arte digital: José Oliveira | Fotografias: Pixabay)

Resumo: Faço a revisão de uma quantidade significativa de pesquisas de 2017 relacionadas com a segurança da Inteligência Artificial e faço alguns comentários sobre para onde vão os meus donativos este ano.

Conteúdo

Introdução
The Machine Intelligence Research Institute (MIRI)

The Future of Humanity Institute (FHI)
Global Catastrophic Risks Institute (GCRI)
The Center for the Study of Existential Risk (CSER)
AI Impacts
Center for Human-Compatible AI (CFHCA)
Outras organizações relacionadas
Trabalho semelhante realizado por outras entidades
Outros grandes desenvolvimentos deste ano
Conclusão
Declaração de intenções
Bibliografia

 

Introdução

Como no ano passado, tentei rever a pesquisa produzida por várias organizações que trabalham na segurança da Inteligência Artificial (IA) para ajudar potenciais doadores a obter uma melhor compreensão do panorama. Este é um papel semelhante ao que a GiveWell desempenha relativamente a instituições de caridade na área da saúde global e algo similar a um analista de títulos financeiros em relação aos possíveis investimentos. Mais uma vez parece que ninguém tentou fazê-lo, tanto quanto eu saiba, por isso assumi a tarefa novamente. Embora tenha sido capaz de trabalhar no assunto de forma significativamente mais eficiente do que no ano passado, infelizmente estou muito ocupado com meu trabalho diário, o que reduziu drasticamente a quantidade de tempo que consegui dedicar-lhe.

Meu objetivo é basicamente avaliar os resultados de 2017 de cada organização e compará-los ao seu orçamento. Isso deve dar uma ideia do custo-eficácia, em média, das organizações. Então, será possível considerar fatores que podem aumentar ou diminuir a relação custo-eficácia marginal daqui em diante. Concentramo-nos em organizações, não em pesquisadores.

Julgar as organizações a partir do historial da sua produção, naturalmente, irá favorecer organizações mais maduras. Uma nova startup, cujo valor reside todo no futuro, estará em desvantagem. No entanto, parece-me que isso está correto. Quanto mais nova for a organização, mais os fundos devem vir de pessoas com um conhecimento de proximidade. À medida que as organizações amadurecem e adquirem sinais de qualidade mais facilmente verificáveis, suas fontes de financiamento podem mudar para montantes de dinheiro maiores e menos especializados. É assim que funciona com as startups que se transformam em empresas públicas e acho que o mesmo modelo se aplica aqui.

Este julgamento envolve a análise de um grande número de documentos que foram produzidos em 2017 relacionados com os riscos existenciais (Xrisk). Esperemos que a volatilidade da produção ano após ano seja suficientemente baixa, para que esta seja uma métrica razoável. Também tentei incluir artigos de dezembro de 2016 para levar em conta o fato de que estou a omitir a produção de dezembro de 2017, mas não posso ter certeza de ter feito isso com sucesso.

Este artigo concentra-se no trabalho sobre o risco da IA. Se achar que outras causas também são importantes, suas prioridades podem ser diferentes. Isso afeta particularmente o GCRI e o CSER, pois ambas fazem muito trabalho sobre outros assuntos.

Concentramo-nos quase exclusivamente em artigos, ao invés da divulgação ou outras atividades. Em parte foi assim porque são muito mais fáceis de medir; embora tenha havido um grande aumento no interesse em segurança da IA durante o último ano, é difícil determinar quem é o responsável por isso e, em parte, porque me parece que o progresso deve vir ao convencer os pesquisadores de IA, o que me parece resultar da divulgação técnica e da publicação de bons trabalhos, e não de trabalhos populares/políticos.

A minha impressão é que a política quanto a assuntos técnicos (por oposição a questões que atraem opiniões vincadas da população em geral) é normalmente feita pelo governo e pelos funcionários públicos em consulta com, e sendo influenciados por, interesses e especialistas externos. Sem um consenso especializado (por exemplo, dos melhores pesquisadores em aprendizado de máquina [Pt. aprendizagem automática/machine learning (ML)] no Google, CMU e Baidu), nenhuma política útil será promulgada. Forçar diretamente uma política parece que, caso consiga alguma coisa, será provavelmente o entrave do consenso de especialistas. As tentativas de influenciar diretamente o governo para regular as pesquisas da IA parecem muito controversas, e correm o risco de serem comparadas com a oposição ignorante aos alimentos geneticamente modificados ou à energia nuclear. Não queremos que a situação “nós-contra-eles”, que ocorreu com as mudanças climáticas, aconteça aqui. Os pesquisadores da IA que menosprezam a lei de segurança, considerando-a como uma imposição e um estorvo a serem suportados ou evitados, provavelmente serão mais difíceis de convencer da necessidade de se ser voluntariamente mais seguro, especialmente porque os regulamentos, na realidade, podem ser totalmente ineficazes. O único caso que me lembro em que os cientistas estejam relativamente satisfeitos com regulamentos de segurança punitivos, na energia nuclear, é aquele em que muitos dos que estavam inicialmente preocupados eram os próprios cientistas. Diante disso, parece-me que, na realidade, as políticas de divulgação visando a população geral provavelmente terão um valor esperado negativo.

A boa notícia sobre a divulgação deste ano é que não tivemos nenhuma publicidade verdadeiramente terrível que me lembre, mas apelo às organizações que se lembrem que as atividades pessoais de seus funcionários, especialmente os de cargos mais elevados, refletem-se nas próprias organizações, por isso deveriam tomar cuidado para não agir/falar de maneiras que sejam ofensivas para aqueles que estão fora dessa redoma e evitar a contratação de pessoas insensatas.

Parte da minha motivação para escrever isto é ajudar mais pessoas a ficarem informadas sobre o panorama da segurança da IA para que possam contribuir melhor com trabalho direto e doações. Com relação às doações, no momento, Nick Beckstead, em seu papel de Gestor de Fundos do Long-Term Future Fund e administrador do Open Philanthropy Project, provavelmente é o financiador mais importante neste trabalho. Provavelmente também estará significativamente mais informado sobre o assunto do que eu, mas parece-me importante que a vitalidade desta área não dependa de uma única pessoa, mesmo que essa pessoa seja incrível.

 

The Machine Intelligence Research Institute (MIRI)

O MIRI é o maior grupo totalmente dedicado aos riscos existenciais da IA. Com sede em Berkeley, se concentra em pesquisa matemática improvável de ser produzida por acadêmicos, tentando construir as bases para o desenvolvimento de IA seguras.

O seu trabalho de fundações de agentes é essencialmente a tentativa de desenvolver a maneira correta de pensar sobre os agentes e a aprendizagem/tomada de decisão, ao detectar áreas onde os nossos modelos atuais falham e buscando aperfeiçoá-los. Grande parte de seu trabalho este ano parece envolver a tentativa de abordar, de algum modo, a auto-referência ‒ como podemos projetar, ou mesmo apenas criar um modelo de agentes que sejam suficientemente inteligentes para pensar sobre si mesmos? Este trabalho é técnico, abstrato e requer uma crença considerável em sua visão de longo prazo, já que raramente é aplicável localmente, sendo muito difícil avaliar de forma independente a sua qualidade.

Em 2016, anunciaram que estavam a direcionar-se ligeiramente para um trabalho que se aproximava da literatura sobre ML, uma mudança que me pareceu ser um erro. No entanto, vendo a pesquisa que publicaram ou a página de revisão de 2017, na prática, parece ter sido uma mudança de direcção menor do que me parecia, já que a maior parte de seu trabalho parece permanecer em tipos de fundações de agentes altamente diferenciados e não substituíveis ‒ parece improvável que qualquer pessoa que não se sinta motivada pela segurança da IA produzisse esse trabalho. Mesmo entre as pessoas preocupadas com a IA amigável, poucos fora do MIRI produziriam esse trabalho.

O artigo Toward Negotiable Reinforcement Learning: Shifting Priorities in Pareto Optimal Sequential Decision-Making [“Para a aprendizagem de reforço negociável: mudança de prioridades na tomada de decisão sequencial ótima de Pareto”] (em outro lugar intitulado “Servant of Many Masters” [“Servo de muitos Senhores”]) de Critch é um artigo muito bom. Basicamente identifica o resultado da eficiência de Pareto caso se tenha dois agentes com diferentes crenças que queiram concordar com uma função de utilidade para uma IA, em uma generalização do Cardinal welfare, individualistic ethics, and interpersonal comparisons of utility [“Bem-estar cardinal, ética individualista e comparações interpessoais de utilidade”] de Harsanyi. O principal pressuposto é que ambos querem usar suas crenças atuais quando calculam o valor esperado do negócio para si mesmos, e a conclusão (que me surpreende) é que ao longo do tempo a IA terá de levar cada vez mais em conta os valores do negociador cujas crenças eram mais rigorosas. Embora me pareça que essa seja necessariamente a interpretação de Critch, considero-a como uma espécie de redução ao absurdo do pressuposto. Seguramente, se eu estivesse negociando acerca de uma função de utilidade, gostaria que o agente aprendesse sobre o mundo e usasse esse conhecimento para promover melhor os meus valores… e não para que aprendesse sobre o mundo, decidisse que eu era um idiota com um modelo do mundo errado, e que me ignorasse depois disso? Se me parece que a IA é/será mais inteligente do que eu, deveria estar feliz por ela fazer coisas que não tenho consciência de me irem beneficiar, e evitar fazer coisas que acredito erradamente que me irão ajudar. Por outro lado, se as partes são estados-nação bem informados em vez de indivíduos, a perspectiva de um “superar” o outro poderá ser útil para evitar corridas aos armamentos?

O artigo Optimal polynomial-time estimators [“Estimadores óptimos de tempo polinomial”] de Kosoy aborda um tópico semelhante ao trabalho de Indução Lógica ‒ atribuindo “probabilidades” a afirmações lógicas/matemáticas/dedutivas sob limitações computacionais ‒ mas com uma abordagem bastante diferente para solucioná-la. O trabalho parece impressionante, mas na verdade não o entendi. De acordo com o seu enquadramento consegue provar que vários resultados da teoria da probabilidade também se aplicam às expressões lógicas, o que parece ser o que queremos. (Note-se que, na prática, este artigo foi publicado em dezembro de 2016 e, portanto, está incluído neste ano em vez de no anterior).

O artigo de Carey, Incorrigibility in the CIRL Framework [“Incorrigibilidade no quadro da Aprendizagem de Reforço Cooperativo (CIRL)”], é uma resposta ao Should Robots be Obedient [“Os Robôs devem ser obedientes”] de Milli et al. e ao The Off-Switch Game [“O Jogo do Botão para desligar”] de Hadfield-Menel. Carey, basicamente, argumenta que não é necessariamente o caso das CIRLs serem “automaticamente” corrigíveis se as crenças da IA sobre o valor estiverem muito erradas, por exemplo devido à parametrização incorreta ou à atribuição de um zero antes de algo em que o caso seja esse. A seção de discussão tem alguns argumentos interessantes, por exemplo, apontando que um algoritmo projetado para se encerrar, a menos que tivesse um histórico de prever perfeitamente o que os humanos desejariam, ainda assim poderia falhar se sua ontologia fosse insuficiente, pois não conseguiria perceber que estava em desacordo com os humanos durante a fase de treinamento. Concordo que a complexidade e a fragilidade do valor podem significar que é muito provável que o modelo de valor de qualquer IA será parcialmente (e, portanto, para uma inteligência artificial geral (AGI), catastroficamente) mal parametrizado. No entanto, não tenho certeza em que medida os exemplos que constituem grande parte do artigo contribuem para esse argumento. O argumento de Milli só é válido quando a IA pode aprender os parâmetros e, dado que este artigo pressupõe que os humanos escolham a ação errada por acidente em menos de 1% dos casos, parece que a IA deveria atribuir uma grande quantidade de evidências a um comando para desligar… em vez disso, a IA parece simplesmente ignorá-lo?

Algumas das publicações do MIRI deste ano parecem ser principalmente explicações melhores sobre o trabalho anterior. Por exemplo, A Formal Approach to the Problem of Logical Non-Omniscience [“Uma abordagem formal do problema da não-omnisciência lógica”] de Garrabrant et al. parece ser basicamente uma versão mais fácil de entender da Logical Induction [“Indução lógica”] do ano passado. Da mesma forma, a Functional Decision Theory: A New Theory of Instrumental Rationality [“Teoria da decisão funcional: uma nova teoria da racionalidade instrumental”] de Yudkowsky e Soares parece ser, basicamente, uma nova exposição do trabalho clássico da teoria da decisão MIRI/Less Wrong (LW) ‒ veja, por exemplo, Toward Idealized Decision Theory [“Para uma teoria da decisão idealizada”] de Soares et al.. Do mesmo modo, não me parece que haja muito novidade no Cheating Death in Damascus [“Enganar a morte em Damasco”] de Soares et al.. Fazer com que as coisas sejam mais fáceis de entender é útil ‒ e o artigo de Indução Lógica do ano passado era um pouco denso ‒ mas, obviamente, não é tão impressionante quanto inventar coisas novas.

Quando perguntei sobre os melhores resultados de 2017, o MIRI indicou-me uma enorme quantidade de trabalhos que tinham publicado em agentfoundations.org como sendo uma das suas principais realizações desse ano, especialmente este, este e este, que levantam e depois resolvem um problema sobre como encontrar agentes da teoria de jogo que possam se modelar de forma estável, formulando-os como um problema topológico de ponto fixo. Há também muitos outros trabalhos em fundação de agentes que parecem interessantes, mas não estou inteiramente seguro de como avaliar o seu mérito. Estes parecem mais “trabalho em andamento” do que trabalho acabado ‒ na maioria das organizações, estou apenas a avaliar o mérito no último caso. O MIRI poderia responder, com alguma razão, que o processo acadêmico convencional é muito ineficiente, e que parte do seu motivo de existência é fazer coisas que as universidades não conseguem. No entanto, mesmo que não se dê prioridade à revisão pelos pares, ainda assim me parece importante escrever as coisas em artigos. Caso contrário, é extremamente difícil para quem está de fora, avaliar ‒ é igualmente prejudicial para potenciais financiadores e para pessoas que desejem entrar nesta área. Infelizmente, é possível que, se continuarem assim, o MIRI possa produzir muito trabalho valioso que seja cada vez mais ilegível a partir do exterior. Então, em geral, parece-me que considero isso como evidência de que o MIRI, na verdade, continua a fazer pesquisas, mas aguardará até serem publicadas no ArXiv para que realmente lhes seja feita uma revisão. Caso não se concorde com esta abordagem, o MIRI vai parecer muito mais produtivo e que a sua possibilidade de pesquisa estará a acelerar em 2017 em contraste com 2016. Se, em vez disso, apenas se olhar para os artigos publicados, 2017 parece ser um “ano fraco” após 2016.

No ano passado, não fiquei muito entusiasmado em ver que Eliezer estava passando muito tempo produzindo conteúdo na plataforma Wiki, Arbital, como parte de seu trabalho no MIRI, pois havia um claro conflito de interesse ‒ ele era um acionista significativo da Arbital e, além disso, eu previa que a Arbital fracassasse. Agora que a Arbital parece ter realmente fracassado, estou satisfeito por ele estar passando menos tempo aí, mas não percebo por que ainda passa aí algum tempo, por menor que seja ‒ embora algumas destas coisas pareçam ter sido publicadas a partir de outro lugar.

O livro de Eliezer Inadequate Equilibria [“Equilíbrios inadequados”], no entanto, parece ser de alta qualidade ‒ basicamente outra série ‒ embora apenas relevante na medida em que a segurança da IA possa ser uma das muitas aplicações do assunto do livro. Por outro lado, também incentivo os leitores a lerem este excelente artigo de Greg Lewis (FHI).

Também apreciei o There’s No Fire Alarm for Artificial General Intelligence [“Não há alarme de incêndio para a Inteligência Geral Artificial”], que, apesar de ser acessível para quem for leigo na matéria, parece-me que apresenta um argumento convincente de que, mesmo quando a AGI esteja iminente, não haveria (/talvez não houvesse) um sinal de que este fosse o caso, e seus diálogos socráticos sobre segurança na mentalidade requeriam o desenvolvimento de uma IA segura.

Lamentei saber que a Jessica Taylor deixou o MIRI, pois parece-me que fazia um bom trabalho.

O MIRI gastou cerca de 1,9 milhões de dólares em 2017 e pretende aumentar rapidamente essa soma para 3,5 milhões de dólares em 2019, para financiar novos pesquisadores e a sua nova equipe de engenharia.

No início deste ano, a The Open Philanthropy Project concedeu ao MIRI uma doação de 3,75 milhões de dólares (ao longo de 3 anos), em grande parte porque um avaliador ficou impressionado com o seu trabalho em Indução Lógica. Poderá recordar-se que esta foi uma parte significativa da razão para ter recomendado o MIRI no ano passado. No entanto, como esta revisão se concentra no trabalho dos últimos doze meses, não irão receber crédito pelo mesmo trabalho dois anos consecutivos! A OPP disse que planeja financiar cerca de metade do orçamento do MIRI. Do lado positivo, pode-se argumentar que esta foi essencialmente uma forma de igualar as doações em 1:1 para o MIRI ‒ mas há seguramente problemas de teoria do jogo aqui. Além disso, se acreditar no processo do OpenPhil, poderá considerar isso um sinal positivo da qualidade do MIRI. Por outro lado, se você acha que o custo-eficácia marginal do MIRI está diminuindo em relação ao intervalo de vários milhões de dólares, isso pode reduzir sua estimativa da relação custo-eficácia do dólar marginal.

Também há 1 milhão de dólares em doações plausíveis contrafactualmente válidas disponíveis para o MIRI (mas não para outras organizações de Riscos Existenciais da IA).

Finalmente, ressaltarei que no MIRI têm sido muito generosos com seu tempo ao ajudar-me a entender o que estão fazendo.

 

Conteúdo (seguinte)

Introdução
The Machine Intelligence Research Institute (MIRI)
The Future of Humanity Institute (FHI)
Global Catastrophic Risks Institute (GCRI)
The Center for the Study of Existential Risk (CSER)
AI Impacts
Center for Human-Compatible AI (CFHCA)
Outras organizações relacionadas
Trabalho semelhante realizado por outras entidades
Outros grandes desenvolvimentos deste ano
Conclusão
Declaração de intenções
Bibliografia


Texto de Larks publicado originalmente no Effective Altruism Forum a 20 de dezembro de 2017.

Tradução de Ronaldo Batista e revisão de José Oliveira.

Botao-assineBoletim

Anúncios

Deixe um comentário

Faça o login usando um destes métodos para comentar:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s