Шрифт:
Закладка:
180
Michael Jordan gives a Here is a magisterial lecture on modern stochastic gradient descent: simons.berkeley.edu/talks/michael-jordan-2017–5-2
181
Rumelhart D. E., Hinton G. E., Williams R. J. “Learning representations by back-propagating errors”. Nature 323, 533 536. 1986.
182
Однажды Бертран Рассел прочитал публичную лекцию по астрономии. В конце лекции пожилая дама в конце зала встала и сказала: «То, что вы нам рассказали, – чушь. Мир на самом деле – это спина гигантской черепахи». Рассел улыбнулся и ответил: «А на чем стоит черепаха?» «Вы очень умный, молодой человек, очень умный, – сказала старушка, – но я знаю ответ на этот вопрос. На другой черепахе». Старушка решила свою проблему с рекурсией, правда, за счет бесконечной регрессии. На практике цикл должен завершиться. – Прим. авт.
183
Вероятно, здесь ошибка автора, потому что в английском языке 26 букв, а не звуков. – Прим. ред.
184
В английском слове «cat» буква «c» читается [k]. – Прим. ред.
185
W. N. Francis, H. Kucera, “A Standard Corpus of Present-Day Edited American English, for use with Digital Computers.” Brown University, 1964, Revised and Amplified, 1979 clu.uni.no/icame/manuals/BROWN/INDEX.HTM
186
Rosenberg C. R., Sejnowski T. J. “Parallel Networks That Learn to Pronounce English Text”, Complex Systems, 1, 145–168, 1987.
187
Запись того, как звучит сеть на разных этапах обучения, можно скачать по ссылке: papers.cnl.salk.edu/~terry/NETtalk/
188
Seidenberg M. S. & McClelland J. L. (1989). “A distributed developmental model of word recognition and naming”. Psychological Review, 96, 523–568.
189
Rumelhart D. E. & McClelland J. (1986). “On learning the past tense of English verbs”. In Parallel Distributed Processing, Volume 2 (eds. D. E. Rumelhart & J. L. McClelland) Cambridge, Mass: MIT Press; McClelland J. L. & Patterson K. (2002). “Rules or Connections in PastTense inflections: What does the evidence rule out?” Trends in Cognitive Sciences, 6(11), 465–472. Pinker S. & Ulman M. T. (2002). “The past and future of the past tense.” Trends in Cognitive Sciences, 6(11), 456–463.
190
Имеется в виду Past Simple Tense – простое прошедшее время. – Прим. ред.
191
Seidenberg M. S. & Plaut D. C. (2014). “Quasiregularity and its discontents: the legacy of the past tense debate.” Cognitive science, 38(6), 1190–1228.
192
Буква «j» обычно дает звук [G], который примерно произносится «дьж», буква «у» может давать несколько звуков – [ai, i, j], – и произносится как «ай», «и» или «й». По правилам фамилия автора должна читаться как Седжновский, но на деле – Сейновски. – Прим. ред.
193
Издательство МТИ находится в Кембридже и специализируется на выпуске изданий научного и технического профиля. – Прим. ред.
194
Zipser D., Andersen R. A. 1988. “A back-propagation programmed network that simulates response properties of a subset of posterior parietal neurons”. Nature 331:679–84.
195
Взрослые с повреждением мозга делают некоторые странные ошибки при чтении слов. Если сеть симулированных нейронов обучена читать, а затем повреждена, у нее поразительно похожее поведение. Geoffrey E. Hinton, David C. Plaut and Tim Shallice, “Simulating Brain Damage”, Scientific American, October 1, 1993. – Прим. авт.
196
Сейчас – Fair Isaac Corporation. – Прим. ред.
197
Srivastava N., Hinton G., Krizhevsky A., Sutskever I. & Salakhutdinov R., “Dropout: A simple way to prevent neural networks from overfitting”. Journal of Machine Learning Research, 15:1929–1958, 2014.
198
Эпоха – один подход, во время которого нейросети предъявляются все обучающие примеры. – Прим. ред.
199
en.wikipedia.org/wiki/Netflix_Prize
200
Carlos A. Gomez-Uribe, Neil Hunt, “The Netflix Recommender System: Algorithms”, Business Value, and Innovation, Journal ACM Transactions on Management Information Systems 6: #13 (2016).
201
Bartol T. M. Jr., Bromer C., Kinney J. P., Chirillo M. A., Bourne J. N., Harris K. M., Sejnowski T. J. “Nanoconnectomic upper bound on the variability of synaptic plasticity”, eLife, 4:e10778, 2015.
202
Если упрощенно, средний уровень «сотня» (0,100) в бейсболе означает 10 процентов успешных ударов. – Прим. ред.
203
Это следует из закона больших чисел в теории вероятностей. Вот почему казино всегда выигрывают в долгосрочной перспективе, даже если могут проиграть в краткосрочной. – Прим. авт.
204
Силу синапса, то есть его способность передавать возбуждение от одного нейрона к другому, можно измерить в битах. От силы синапсов и их числа зависит общая емкость памяти мозга и, соответственно, точность хранимой в ней информации. – Прим. ред.
205
Jasmine Collins, Jascha Sohl-Dickstein, David Sussillo, “Capacity and Trainability in Recurrent Neural Networks”, arXiv:1611.09913 (2016).
206
Опасно придавать слишком большой вес совпадению: «24 часа в сутки, 24 бутылки в ящике. Просто совпадение? Не думаю». Это совпадение отмечается ежегодно в Принстонском университете в день Пола Ньюмана, 24 апреля. – Прим. авт.
207
Приблизительную оценку размерности можно найти, взяв квадратный корень произведения нижней и верхней границ (Лоуренс Вайнштейн и Джон А. Адам. «Оценка: Решение мировых проблем на оборотной стороне салфетки для коктейля», Princeton University Press, Princeton, NJ, 2009). Примем за верхнюю границу общее количество синапсов в коре (100 триллионов), а за нижнюю – количество синапсов на одном нейроне (100 тысяч); получается, что оценочное число синапсов, необходимых для представления сложного объекта, примерно миллиард. Применим то же правило, чтобы найти количество необходимых нейронов: верхняя граница – десять миллиардов, число нейронов в коре головного мозга, а нижняя – один нейрон. Таким образом, количество нейронов, необходимых для представления сложного объекта, составляет 100 тысяч, что также верно для количества нейронов меньше квадратного миллиметра коры. Тем не менее они могут быть широко распространены в различных частях коры. Мы можем оценить количество кортикальных областей, которые должны быть связаны, чтобы это