Revisão da Literatura sobre segurança da Inteligência Artificial e comparação entre organizações ‒ 2018 (Parte Final)

Por Larks (Effective Altruism Forum)

IA-ONGs3

Como evitar o risco da Inteligência Artificial? (Arte digital: José Oliveira | Fotografias: Pixabay)

Resumo: Faço a revisão de uma quantidade significativa de pesquisas de 2017 relacionadas com a segurança da Inteligência Artificial e faço alguns comentários sobre para onde vão os meus donativos este ano.

Conteúdo

Introdução
The Machine Intelligence Research Institute (MIRI)
The Future of Humanity Institute (FHI)
Global Catastrophic Risks Institute (GCRI)
The Center for the Study of Existential Risk (CSER)
AI Impacts
Center for Human-Compatible AI (CFHCA)
Outras organizações relacionadas
Trabalho semelhante realizado por outras entidades
Outros grandes desenvolvimentos deste ano
Conclusão
Declaração de intenções
Bibliografia

 

Trabalho relacionado de outras entidades

Deep Reinforcement Learning from Human Preferences [Aprendizagem por reforço profundo a partir de preferências Humanas], foi possivelmente o meu artigo preferido do ano, o que possivelmente não deveria ser uma surpresa, já que que dois dos autores (Christiano e Amodei da OpenAI) o ano passado foram autores de Concrete Problems in AI Safety [Problemas concretos em segurança da IA]. Aplica ideias sobre bootstrapping que Christiano vem discutindo já há um tempo ‒ fazer com que os seres humanos treinem uma IA que, em seguida, treina outra IA, etc. O modelo funciona significativamente melhor do que eu esperava e, como sempre, me agrada ver a colaboração entre OpenAI e Deepmind.

Christiano continua a produzir conteúdos muito interessantes em seu blog, como este sobre Corrigibilidade. Quando li seus artigos pela primeira vez sobre como efetuar bootstrap em segurança através de procedimentos de treino iterativos, a minha reacção foi, ainda que isso parecesse uma ideia interessante, não me parecia haver muito em comum com a tendência dominante de Aprendizagem de Máquina. No entanto, agora parece haver uma série de documentos práticos sobre aprendizagem por imitação. Não tenho a certeza se este foi sempre o caso, e eu simplesmente desconhecia, ou se se tornaram mais proeminentes no último ano. De qualquer forma, passei a considerar esta abordagem como promissora para integrar a segurança na tendência dominante do trabalho em Aprendizagem de Máquina. Ele também escreveu um ótimo texto no blog explicando como o AlphaZero funciona e argumenta que isso apoia suas ideias sobre aprimoramento.

Também foi bom ver ~ 95 artigos abordarem a convocação do ano passado de Amodei et al. sobre Problemas Concretos.

O artigo DropoutDAgger [DropoutDAgger: Uma abordagem bayesiana para a aprendizagem segura por imitação] de Menda et al. sobre exploração segura parece se encaixar nesta categoria. Basicamente, apresentam uma forma de aprendizagem de imitação em que a IA que está sendo treinada pode explorar um pouco, mas não tem permissão para se afastar muito da política dos especialistas ‒ embora eu não tenha a certeza da razão pela qual fazem sempre com que o aprendiz explore no sentido que lhe pareça melhor, em vez de atribuir algum peso à sua incerteza face ao resultado, do género pesquisar-usar.  Não sei em que medida Amodei et al. poderão ter inspirado isso, já que parece ser (em um grau significativo) uma extensão do Query-Efficient Imitation Learning for End-to-End Autonomous Driving [Aprendizagem por imitação eficiente nas “queries” para condução autônoma de ponta-a-ponta] de Zhang e Cho.

No entanto, não quero dar demasiado crédito a trabalho que melhora a segurança “local” que não resolva também os grandes problemas de segurança da IA, porque este trabalho provavelmente acelera a IA de nível humano insegura. Há muitos artigos nesta categoria, mas, por razões óbvias, não os abordarei.

A Self-Regulating Artificial General Intelligence [Inteligência Artificial Geral auto regulatória] de Gan contém um bom formalismo econômico em torno das IAs tomarem o poder dos seres humanos e levanta o argumento interessante de que, se precisarmos de IAs especialistas para alcançar certas coisas, as primeiras IAs de nível humano podem não exibir o comportamento de arranque pois seriam incapazes de confiar suficientemente nos agentes tomadores de poder que necessitariam criar. Sou cético quanto à solidez do pressuposto quanto à necessidade de IAs especializadas ‒ certamente mesmo que seja necessário criar agentes de IA separados para tarefas diferentes, em vez de integrá-los, bastaria dar-lhes capacidades especializadas e os mesmos objetivos. De qualquer forma, o artigo sugere a possibilidade interessante de que a humanidade possa fazer uma IA que seja inteligente o suficiente para perceber ser incapaz de resolver o problema de alinhamento para se auto-melhorar com segurança… e portanto, o progresso para por aí ‒ embora, claro, não devamos contar com isso.

O Plausibility and Probability in Deductive Reasoning [Plausibilidade e probabilidade no raciocínio dedutivo] de MacFie também aborda a questão de como atribuir probabilidades a declarações lógicas, em uma linha semelhante a muitas pesquisas do MIRI.

O Human-aligned artificial intelligence is a multiobjective problem [A Inteligência Artificial alinhada aos seres humanos é um problema multiobjectivo] de Vamplew et al. argumenta que devemos considerar uma classe mais ampla de funções do que combinações lineares ao combinar funções de utilidade.

O Google Deepmind continua a produzir pesquisas impressionantes, algumas das quais parecem relevantes para o problema, como a Value-Decomposition Networks For Cooperative Multi-Agent Learning [Redes de decomposição em valores para a aprendizagem cooperativa de múltiplos agentes] de Sunehag et al. e a Comparison of Maximum Likelihood and GAN-based training of Real NVPs [Comparação entre treino  por máxima verosimilhança e por redes geradoras antagonistas (GAN) de geradores NVPs (sem preservação de volume)] de Danihelka et al. sobre evitar o sobreajuste.

Em termos de previsão das cronologias da IA, um outro artigo que achei interessante foi o de Gupta et al., Revisiting the Unreasonable Effectiveness of Data [Revisitando o artigo “The Unreasonable Effectivess of Data” (A eficácia não razoável dos dados)],  que argumentou que, pelo menos para tarefas de visão, o desempenho melhorou logaritmicamente em relação ao tamanho do conjunto de dados.

O Foresight Institute publicou um livro branco sobre o tema geral da política e do risco da IA.

O One Hundred Year Study on Artificial Intelligence [Um estudo de cem anos sobre a Inteligência Artificial] de Stanford produziu um relatório do Índice IA, que é basicamente um relatório sobre o progresso no campo até 2016. Curiosamente, várias métricas que rastrearam, resumidas na sua métrica de “Vitalidade”, sugerem que o campo de facto regrediu em 2016, pela minha experiência com dados similares no mundo financeiro, essa metodologia deixa-me bastante cético. Infelizmente, o relatório dedicou apenas uma única palavra ao assunto da segurança da IA.

Em uma nota mais leve, o estimado GK Chesterton voltou do além-túmulo para eviscerar um cético do risco da IA, e um grupo de pesquisadores (alguns do FHI) provou que é impossível criar uma máquina maior do que um ser humano, o que é um alívio. 

Outros grandes desenvolvimentos deste ano

O Deepmind da Google produziu o AlphaZero, que aprendeu a vencer as melhores IAs (e, portanto, também os melhores seres humanos) em Go, Xadrez e Shogi em apenas algumas horas a jogar consigo mesma.

A criação de fundos do AE, incluindo o Long-Term Future Fund [Fundo para o Futuro a Longo Prazo], administrado por Nick Beckstead, que fez uma doação relativamente pequena relacionada à Segurança da IA, e conservou os outros 96%.

O Open Philanthropy Project financiou o MIRI e o OpenAI (e nesse processo adquiriu um assento na diretoria deste último).

Nvidia (que faz GPUs usadas em Aprendizagem de Máquina) viu seu preço de ações aproximadamente dobrarem, após quadruplicar no ano anterior.

Hillary Clinton provavelmente estava preocupada com o risco de IA(?) Mas, infelizmente, Putin parece ter preocupações menos úteis sobre uma corrida às armas de IA… ou seja, em garantir que a vence. E a China anunciou um plano nacional para IA com características chinesas ‒ mas tenha em mente que eles falharam nisso antes, como seu impulso na pesquisa de Semicondutores, embora empresas como a Baidu pareçam estar a fazer pesquisas impressionantes.

Houve alguns artigos sugerindo que a crise da reprodutibilidade pode estar chegando à Aprendizagem de Máquina(?)

Conclusão

De certa forma, este foi um excelente ano. A minha impressão é que a causa da segurança da IA está se tornando cada vez mais importante, com muitos pesquisadores não-afiliados às organizações acima mencionadas trabalhando pelo menos tangencialmente nela.

No entanto, é difícil do ponto de vista de um doador externo. Algumas das organizações que fazem o melhor trabalho são bem financiadas. Outras (MIRI) parecem fazer um bom trabalho, mas é significativamente (talvez necessariamente) mais difícil para quem vê de fora avaliar do que no ano passado, já que não parece haver um artigo extremamente significativo como o ano passado. Eu vejo o trabalho do MIRI como uma aposta remota de que a sua visão específica do cenário estratégico seja correta, mas, isso considerado, eles são basicamente insubstituíveis. O trabalho do GCRI e do CSER a esse propósito é mais convencional, mas a produtividade do GCRI é especialmente notável, dada a ordem de grandeza de diferença no tamanho do orçamento.

Como mais uma vez não consegui tornar a selecção filantrópica em uma ciência, ao invés disso tentei pesar subjetivamente a produtividade das diferentes organizações em relação aos recursos que eles usaram para gerar esse resultado, e doar de acordo com isso.

Meu constante desejo é promover uma tomada de decisão intelectualmente vivaz e independente entre os meus leitores; espero que ao delinear acima os fatos como os vejo isso seja útil para alguns leitores. Aqui está a minha decisão final, em ROT-13  para que você possa tirar as suas próprias conclusões primeiro se desejar:

Qbnçõrf Fvtavsvpngvinf cnen b Znpuvar Vagryyvtrapr Erfrnepu Vafgvghgr r b Tybony Pngnfgebcuvp Evfxf Vafgvghgr. Hzn dhnagvn zhvgb zrabe cnen b NV Vzcnpgf.

No entanto, desejo enfatizar que todas as organizações acima mencionadas parecem estar fazendo um bom trabalho sobre o problema mais importante que enfrenta a humanidade. É próprio da tomada de decisões mediante a escassez priorizar algumas sobre outras, e espero que todas as organizações compreendam que isso, às vezes, necessariamente envolve comparações negativas.

Obrigado por ler até aqui; espero que lhe tenha sido útil. Alguém sugeriu que, em vez de fazer isso anualmente, eu deveria fazer um blog onde publicasse algumas análises de eventos relacionados ao risco da IA, à medida que ocorrem. Presumivelmente ainda haveria um relatório anual como este na temporada de doações. Se você achar isso útil, avise-me. 

Declaração de intenções

Fui bolseiro no MIRI na época em que era SIAI, fui voluntário muito brevemente na GWWC (parte do CEA) e uma vez candidatei-me a uma vaga no FHI. Sou amigo pessoal de pessoas do MIRI, FHI, CSER, CFHCA e AI Impacts, mas não do GCRI (portanto, caso esteja preocupado com a parcialidade, deverá lhes atribuir mais peso… embora isso também signifique que tenho menos conhecimento direto). No entanto, não tenho vínculos financeiros além de ser um doador e nunca me envolvi romanticamente com quem já tenha estado em qualquer uma dessas organizações.

Eu compartilhei um rascunho das seções relevantes deste documento com representantes do MIRI, CSER e GCRI e AI Impacts. Agradeço ao Alex Flint e ao Jess Riedel por terem ajudado a revisar um rascunho deste documento. Quaisquer insuficiências e erros remanescentes são meus.

Editado em 2017-12-21: erros ortográficos, correção da afiliação de Amodei.

Editado 2017-12-24: correção menor dos números da CSER.

Bibliografia

Adam D. Cobb, Andrew Markham, Stephen J. Roberts; Learning from lions: inferring the utility of agents from their trajectories; https://arxiv.org/abs/1709.02357
Alexei Andreev; What’s up with Arbital; http://lesswrong.com/r/discussion/lw/otq/whats_up_with_arbital/
Allison Duettmann; Artificial General Intelligence: Timeframes & Policy White Paper; https://foresight.org/publications/AGI-Timeframes&PolicyWhitePaper.pdf
Anders Sandberg, Stuart Armstrong, Milan Cirkovic; That is not dead which can eternal lie: the aestivation hypothesis for resolving Fermi’s paradox; https://arxiv.org/pdf/1705.03394.pdf
Andrew Critch, Stuart Russell; Servant of Many Masters: Shifting priorities in Pareto-optimal sequential decision-making; https://arxiv.org/abs/1711.00363
Andrew Critch; Toward Negotible Reinforcement Learning: Shifting Priorities in Pareto Optimal Sequential Decision-Making; https://arxiv.org/abs/1701.01302
Andrew MacFie; Plausibility and Probability in Deductive Reasoning; https://arxiv.org/pdf/1708.09032.pdf
Assaf Arbelle, Tammy Riklin Raviv; Microscopy Cell Segmentation via Adversarial Neural Networks; https://arxiv.org/abs/1709.05860
Ben Garfinkel, Miles Brundage, Daniel Filan, Carrick Flynn, Jelena Luketina, Michael Page, Anders Sandberg, Andrew Snyder-Beattie, and Max Tegmark; On the Impossibility of Supersized Machines; https://arxiv.org/pdf/1703.10987.pdf
Chelsea Finn, Tianhe Yu, Tianhao Zhang, Pieter Abbeel, Sergey Levine; One-Shot Visual Imitation Learning via Meta-Learning; https://arxiv.org/abs/1709.04905
Chen Sun, Abhinav Shrivastava Saurabh Singh, Abhinav Gupta; Revisiting Unreasonable Effectiveness of Data in Deep Learning Era; https://arxiv.org/pdf/1707.02968.pdf
Chih-Hong Cheng, Frederik Diehl, Yassine Hamza, Gereon Hinz, Georg Nuhrenberg,  Markus Rickert, Harald Ruess, Michael Troung-Le; Neural Networks for Safety-Critical Applications – Challenges, Experiments and Perspectives; https://arxiv.org/pdf/1709.00911.pdf
Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané; Concrete Problems in AI Safety; https://arxiv.org/abs/1606.06565
David Abel, John Salvatier, Andreas Stuhlmüller, Owain Evans; Agent-Agnostic Human-in-the-Loop Reinforcement Learning; https://arxiv.org/abs/1701.04079
Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell; The Off-Switch Game; https://arxiv.org/pdf/1611.08219.pdf
Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel, Stuart Russell; Cooperative Inverse Reinforcement Learning; https://arxiv.org/abs/1606.03137
Eliezer Yudkowsky and Nate Soares; Functional Decision Theory: A New Theory of Instrumental Rationality; https://arxiv.org/abs/1710.05060
Eliezer Yudkowsky; A reply to Francois Chollet on intelligence exposion; https://intelligence.org/2017/12/06/chollet/
Eliezer Yudkowsky; Coherant Extrapolated Volition; https://intelligence.org/files/CEV.pdf
Eliezer Yudkowsky; Inadequate Equilibria; https://www.amazon.com/dp/B076Z64CPG
Eliezer Yudkowsky; There’s No Fire Alarm for Artificial General Intelligence; https://intelligence.org/2017/10/13/fire-alarm/
Filipe Rodrigues, Francisco Pereira; Deep learning from crowds; https://arxiv.org/abs/1709.01779
Greg Lewis; In Defense of Epistemic Modesty; http://effective-altruism.com/ea/1g7/in_defence_of_epistemic_modesty/
Haim Gaifman and Yang Liu; A simpler and more realistic subjective decision theory; https://link.springer.com/article/10.1007%2Fs11229-017-1594-6
Harsanyi; Cardinal welfare, individualistic ethics, and interpersonal comparisons of utility; http://www.springer.com/us/book/9789027711861
Ivo Danihelka, Balaji Lakshminarayanan, Benigno Uria,  Daan Wierstra, Peter Dayan; Comparison of Maximum Likelihood and GAN-based training of Real NVPs; https://arxiv.org/pdf/1705.05263.pdf
Jiakai Zhang, Kyunghyun Cho; Query-Efficient Imitation Learning for End-to-End Autonomous Driving; https://arxiv.org/abs/1605.06450
Joshua Gans; Self-Regulating Artificial General Intelligence; https://arxiv.org/pdf/1711.04309.pdf
Katja Grace, John Salvatier, Allan Dafoe, Baobao Zhang, Owain Evans; When will AI exceed Human Performance? Evidence from AI Experts; https://arxiv.org/abs/1705.08807
Kavosh Asadi, Cameron Allen, Melrose Roderick, Abdel-rahman Mohamed, George Konidaris, Michael Littman; Mean Actor Critic; https://arxiv.org/abs/1709.00503
Kunal Menda, Katherine Driggs-Campbell, Mykel J. Kochenderfer; DropoutDAgger: A Bayesian Approach to Safe Imitation Learning; https://arxiv.org/abs/1709.06166
Mario Lucic, Karol Kurach, Marcin Michalski, Sylvain Gelly, Olivier Bousquet; Are GANs Created Equal? A Large-Scale Study; https://arxiv.org/abs/1711.10337
Martin Rees; “Black Sky” Infrastructure and Societal Resilience Workshop; https://www.cser.ac.uk/media/uploads/files/Black-Sky-Workshop-at-the-Royal-Society-Jan.-20171.pdf
Mile Brundage; Brundage Bot; https://twitter.com/BrundageBot
Minghai Qin, Chao Sun, Dejan Vucinic; Robustness of Neural Networks against Storage Media Errors; https://arxiv.org/abs/1709.06173
Myself; 2017 AI Risk Literature Review and Charity Evaluation; http://effective-altruism.com/ea/14w/2017_ai_risk_literature_review_and_charity/
Nate Soares and Benja Fallenstein; Towards Idealized Decision Theory; https://arxiv.org/pdf/1507.01986.pdf
Nate Soares and Benjamin Levinstein; Cheating Death in Damascus; https://intelligence.org/files/DeathInDamascus.pdf
Nates Soares, Benja Fallenstein, Eliezer Yudkowsky, Stuart Armstrong; Corrigibility; https://intelligence.org/files/Corrigibility.pdf
Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei; Deep Reinforcement Learning from Human Preferences; https://arxiv.org/abs/1706.03741
Paul Christiano; AlphaGo Zero and capability amplification; https://ai-alignment.com/alphago-zero-and-capability-amplification-ede767bb8446
Peter Henderson, Riashat Islam, Philip Bachman, Joelle Pineau, Doina Precup, David Meger; Deep Reinforcement Learning that Matters; https://arxiv.org/abs/1709.06560
Peter Stone, Rodney Brooks, Erik Brynjolfsson, Ryan Calo, Oren Etzioni, Greg Hager, Julia Hirschberg, Shivaram Kalyanakrishnan, Ece Kamar, Sarit Kraus, Kevin Leyton-Brown, David Parkes, William Press, AnnaLee Saxenian, Julie Shah, Milind Tambe,  Astro Teller.; One Hundred Year Study on Artificial Intelligence; https://ai100.stanford.edu/
Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Czarnecki, Vinicius Zambaldi, Max Jaderberg, Marc Lanctot, Nicolas Sonnerat, Joel Z. Leibo, Karl Tuyls, Thore Graepel; Value-Decomposition Networks For Cooperative Multi-Agent Learning; https://arxiv.org/pdf/1706.05296.pdf
Peter Vamplew, Richard Dazeley, Cameron Foale, Sally Firmin, Jane Mummery; Human-aligned artificial intelligence is a multiobjective problem; https://link.springer.com/article/10.1007/s10676-017-9440-6
Ryan Carey; Incorrigibility in the CIRL Framework; https://arxiv.org/abs/1709.06275
Samuel Yeom, Matt Fredrikson, Somesh Jha; The Unintended Consequences of Overfitting: Training Data Inference Attacks; https://arxiv.org/abs/1709.01604
Scott Alexander; G.K. Chesterton on AI Risk; http://slatestarcodex.com/2017/04/01/g-k-chesterton-on-ai-risk/
Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares, Jessica Taylor; A Formal Approach to the Problem of Logical Non-Omniscience; https://arxiv.org/abs/1707.08747
Scott Garrabrant, Tsvi Benson-Tilsen, Andrew Critch, Nate Soares, Jessica Taylor; Logical Induction; http://arxiv.org/abs/1609.03543
Seth Baum and Tony Barrett; Global Catastrophes: The Most Extreme Risks; http://sethbaum.com/ac/2018_Extreme.pdf
Seth Baum and Tony Barrett; Towards an Integrated Assessment of Global Catastrophic Risk ; https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3046816
Seth Baum; On the Promotion of Safe and Socially Beneficial Artificial Intelligence; https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2816323
Seth Baum; Reconciliation Between Factions Focused on Near-Term and Long-Term Artificial Intelligence; https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2976444
Seth Baum; Social Choice Ethics in Artificial Intelligence; https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3046725
Seth Baum; Survey of Artificial General Intelligence Projects for Ethics, Risk, and Policy; https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3070741
Smitha Milli, Dylan Hadfield-Menell, Anca Dragan, Stuart Russell; Should Robots be Obedient; https://arxiv.org/pdf/1705.09990.pdf
Tony Barrett; Value of Global Catastrophic Risk (GCR) Information: Cost-Effectiveness-Based Approach for GCR Reduction; https://www.dropbox.com/s/7a7eh2law7tbvk0/2017-barrett.pdf?dl=0
Vadim Kosoy; Optimal Polynomial-Time Estimators: A Bayesian Notion of Approximation Algorithm; https://arxiv.org/abs/1608.04112
Victor Shih, David C Jangraw, Paul Sajda, Sameer Saproo; Towards personalized human AI interaction – adapting the behavior of AI agents using neural signatures of subjective interest; https://arxiv.org/abs/1709.04574
William Saunders, Girish Sastry, Andreas Stuhlmueller, Owain Evans; Trial without Error: Towards Safe Reinforcement Learning via Human Intervention; https://arxiv.org/abs/1707.05173
Xiongzhao Wang, Varuna De Silva, Ahmet Kondoz; Agent-based Learning for Driving Policy Learning in Connected and Autonomous Vehicles; https://arxiv.org/abs/1709.04622
Yang Liu and Huw Price; Heart of DARCness; http://yliu.net/wp-content/uploads/darcness.pdf
Yang Liu; The Sure-Thing principle and P2; http://www.academia.edu/33992500/The_Sure-thing_Principle_and_P2
Yunpeng Pan, Ching-An Cheng, Kamil Saigol, Keuntaek Lee, Xinyan Yan, Evangelos Theodorou, Byron Boots; Agile Off-Road Autonomous Driving Using End-to-End Deep Imitation Learning; https://arxiv.org/abs/1709.07174

 


Texto de Larks (parte final) publicado originalmente no Effective Altruism Forum a 20 de dezembro de 2017.

Tradução de Ronaldo Batista. Revisão de José Oliveira.

Botao-assineBoletim

Anúncios

Deixe um comentário

Faça o login usando um destes métodos para comentar:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

w

Conectando a %s