Kevin Kelly (Search Engine, Big Data)

There’s a dawning sense that extremely large databases of information, starting in the petabyte level, could change how we learn things. The traditional way of doing science entails constructing a hypothesis to match observed data or to solicit new data. Here’s a bunch of observations; what theory explains the data sufficiently so that we can predict the next observation?
It may turn out that tremendously large volumes of data are sufficient to skip the theory part in order to make a predicted observation. Google was one of the first to notice this. For instance, take Google’s spell checker. When you misspell a word when googling, Google suggests the proper spelling. How does it know this? How does it predict the correctly spelled word? It is not because it has a theory of good spelling, or has mastered spelling rules. In fact Google knows nothing about spelling rules at all.
Instead Google operates a very large dataset of observations which show that for any given spelling of a word, x number of people say “yes” when asked if they meant to spell word “y.” Google’s spelling engine consists entirely of these datapoints, rather than any notion of what correct English spelling is. That is why the same system can correct spelling in any language.

2 thoughts on “Kevin Kelly (Search Engine, Big Data)

  1. shinichi Post author

    The Google Way of Science

    by Kevin Kelly

    June 28, 2008

    https://kk.org/thetechnium/the-google-way/

    There’s a dawning sense that extremely large databases of information, starting in the petabyte level, could change how we learn things. The traditional way of doing science entails constructing a hypothesis to match observed data or to solicit new data. Here’s a bunch of observations; what theory explains the data sufficiently so that we can predict the next observation?

    It may turn out that tremendously large volumes of data are sufficient to skip the theory part in order to make a predicted observation. Google was one of the first to notice this. For instance, take Google’s spell checker. When you misspell a word when googling, Google suggests the proper spelling. How does it know this? How does it predict the correctly spelled word? It is not because it has a theory of good spelling, or has mastered spelling rules. In fact Google knows nothing about spelling rules at all.

    Instead Google operates a very large dataset of observations which show that for any given spelling of a word, x number of people say “yes” when asked if they meant to spell word “y.” Google’s spelling engine consists entirely of these datapoints, rather than any notion of what correct English spelling is. That is why the same system can correct spelling in any language.

    In fact, Google uses the same philosophy of learning via massive data for their translation programs. They can translate from English to French, or German to Chinese by matching up huge datasets of humanly translated material. For instance, Google trained their French/English translation engine by feeding it Canadian documents which are often released in both English and French versions. The Googlers have no theory of language, especially of French, no AI translator. Instead they have zillions of datapoints which in aggregate link “this to that” from one language to another.

    Once you have such a translation system tweaked, it can translate from any language to another. And the translation is pretty good. Not expert level, but enough to give you the gist. You can take a Chinese web page and at least get a sense of what it means in English. Yet, as Peter Norvig, head of research at Google, once boasted to me, “Not one person who worked on the Chinese translator spoke Chinese.” There was no theory of Chinese, no understanding. Just data. (If anyone ever wanted a disproof of Searle’s riddle of the Chinese Room, here it is.)

    If you can learn how to spell without knowing anything about the rules or grammar of spelling, and if you can learn how to translate languages without having any theory or concepts about grammar of the languages you are translating, then what else can you learn without having a theory?

    In a cover article in Wired this month Chris Anderson explores the idea that perhaps you could do science without having theories.

    This is a world where massive amounts of data and applied mathematics replace every other tool that might be brought to bear. Out with every theory of human behavior, from linguistics to sociology. Forget taxonomy, ontology, and psychology. Who knows why people do what they do? The point is they do it, and we can track and measure it with unprecedented fidelity. With enough data, the numbers speak for themselves.
     
    Petabytes allow us to say: “Correlation is enough.” We can stop looking for models. We can analyze the data without hypotheses about what it might show. We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.

    There may be something to this observation. Many sciences such as astronomy, physics, genomics, linguistics, and geology are generating extremely huge datasets and constant streams of data in the petabyte level today. They’ll be in the exabyte level in a decade. Using old fashioned “machine learning,” computers can extract patterns in this ocean of data that no human could ever possibly detect. These patterns are correlations. They may or may not be causative, but we can learn new things. Therefore they accomplish what science does, although not in the traditional manner.

    What Anderson is suggesting is that sometimes enough correlations are sufficient. There is a good parallel in health. A lot of doctoring works on the correlative approach. The doctor may not ever find the actual cause of an ailment, or understand it if he/she did, but he/she can correctly predict the course and treat the symptom. But is this really science? You can get things done, but if you don’t have a model, is it something others can build on?

    We don’t know yet. The technical term for this approach in science is Data Intensive Scalable Computation (DISC). Other terms are “Grid Datafarm Architecture” or “Petascale Data Intensive Computing.” The emphasis in these techniques is the data-intensive nature of computation, rather than on the computing cluster itself. The online industry calls this approach of investigation a type of “analytics.” Cloud computing companies like Google, IBM, and Yahoo(pdf), and some universities have been holding workshops on the topic. In essence these pioneers are trying to exploit cloud computing, or the OneMachine, for large-scale science. The current tools include massively parallel software platforms like MapReduce and Hadoop (see my earlier post), cheap storage, and gigantic clusters of data centers. So far, very few scientists outside of genomics are employing these new tools. The intent of the NSF’s Cluster Exploratory program is to match scientists owning large databased-driven observations with computer scientists who have access and expertise with cluster/cloud computing.

    My guess is that this emerging method will be one additional tool in the evolution of the scientific method. It will not replace any current methods (sorry, no end of science!) but will compliment established theory-driven science. Let’s call this data intensive approach to problem solving Correlative Analytics. I think Chris squander a unique opportunity by titling his thesis “The End of Theory” because this is a negation, the absence of something. Rather it is the beginning of something, and this is when you have a chance to accelerate that birth by giving it a positive name. A non-negative name will also help clarify the thesis. I am suggesting Correlative Analytics rather than No Theory because I am not entirely sure that these correlative systems are model-free. I think there is an emergent, unconscious, implicit model embedded in the system that generates answers. If none of the English speakers working on Google’s Chinese Room have a theory of Chinese, we can still think of the Room as having a theory. The model may be beyond the perception and understanding of the creators of the system, and since it works it is not worth trying to uncover it. But it may still be there. It just operates at a level we don’t have access to.

    But the models’ invisibility doesn’t matter because they work. It is not the end of theories, but the end of theories we understand. Writing in response to Chris Anderson’s article George Dyson says this much better:

    For a long time we were stuck on the idea that the brain somehow contained a “model” of reality, and that AI would be achieved by constructing similar “models.” What’s a model? There are 2 requirements: 1) Something that works, and 2) Something we understand. Our large, distributed, petabyte-scale creations, whether GenBank or Google, are starting to grasp reality in ways that work just fine but that we don’t necessarily understand.
     
    Just as we will eventually take the brain apart, neuron by neuron, and never find the model, we will discover that true AI came into existence without ever needing a coherent model or a theory of intelligence. Reality does the job just fine.
     
    By any reasonable definition, the “Overmind” (or Kevin’s OneComputer, or whatever) is beginning to think, though this does not mean thinking the way we do, or on any scale that we can comprehend.
     
    What Chris Anderson is hinting at is that Science (and some very successful business) will increasingly be done by people who are not only reading nature directly, but are figuring out ways to read the Overmind.

    What George Dyson is suggesting is that this new method of doing science — gathering a zillion data points and then having the OneMachine calculate a correlative answer — can also be thought of as a method of communicating with a new kind of scientist, one who can create models at levels of abstraction (in the zillionics realm) beyond our own powers.

    So far Correlative Analytics, or the Google Way of Science, has primarily been deployed in sociological realms, like language translation, or marketing. That’s where the zillionic data has been. All those zillions of data points generated by our collective life online. But as more of our observations and measurements of nature are captured 24/7, in real time, in increasing variety of sensors and probes, science too will enter the field of zillionics and be easily processed by the new tools of Correlative Analytics. In this part of science, we may get answers that work, but which we don’t understand. Is this partial understanding? Or a different kind of understanding?

    Perhaps understanding and answers are overrated. “The problem with computers,” Pablo Picasso is rumored to have said, “is that they only give you answers.” These huge data-driven correlative systems will give us lots of answers — good answers — but that is all they will give us. That’s what the OneComputer does – gives us good answers. In the coming world of cloud computing perfectly good answers will become a commodity. The real value of the rest of science then becomes asking good questions.

    Reply
  2. shinichi Post author

    グーグル方式の科学
    The Google Way of Science
    by Kevin Kelly
    translated by 堺屋七左衛門

    http://memo7.sblo.jp/article/25170459.html

    ペタバイトレベル以上のきわめて大規模なデータベースができると、人間の学習方法が変わってしまいそうな予感がある。今までの科学の方法では、仮説を構築して観察したデータに合致させる、あるいは新しいデータを集めるということをしていた。そこには数多くの観察がある。どのような理論であれば、今までのデータをうまく説明することができて、そこから次の観察結果を予想できるのか?

    きわめて大量のデータがあれば、理論の部分は省略して、いきなり観察結果を予想できるかもしれない。グーグルは早くからそのことに気づいていた。たとえば、グーグルのスペルチェッカーを考えてみよう。ググっているときに単語のつづりを間違えると、グーグルは正しいつづりを示してくれる。どのようにして正しいつづりの単語を予測するのだろうか?正しいつづりの理論を知っているわけではなく、またつづりの規則を習得しているわけでもない。実際にはグーグルはつづりの規則などまったく知らない。

    そのかわりに、グーグルは非常に大規模な観察結果のデータを持っている。あるつづりについて、”X”という単語を書いたつもりなのかと質問すると、Y人の人が「はい」と答えることがわかる。グーグルのスペルエンジンはこのようなデータでできている。正しい英語のつづりがどんなものであるかはまったく知らない。だから、同じシステムでどの言語のつづりでも修正することができる。

    実は、グーグルはその翻訳プログラムについても、大量のデータによる同じ学習方法を使っている。そのプログラムは、人間が翻訳した文書の大量のデータを比較照合することで、英語からフランス語へ、あるいはドイツ語から中国語へ翻訳する。たとえば、グーグルはその仏英翻訳エンジンを訓練するのにカナダの文書を使っている。カナダの文書は英語版とフランス語版の両方が発行されることが多い。グーグルには、言語についての理論、たとえばフランス語の理論があるわけではないし、また、人工知能翻訳機があるわけでもない。その代わりに超大量のデータがあって、それが全体として「これからあれへ」、すなわち、ある言語から他の言語への関連を決定する。

    そのように翻訳システムを調整してしまえば、どの言語からどの言語へでも翻訳できる。そしてその翻訳はかなり出来が良い。専門家のレベルではないが、要点を知るには十分である。中国語のウェブページを選ぶと、少なくともそれが英語でどんな意味なのかという感じはわかるようになる。でも、グーグルの研究所長ピーター・ノーヴィグは以前、私に自慢したことがある。「あの中国語翻訳プログラムを作っている連中は、誰も中国語ができないんだ。」中国語の理論も理解もない。あるのはただデータだけだ。(サールの「中国語の部屋」という問題に対する反証が欲しければ、ここにそれがある。)

    つづりの法則について何も知らずに、正しい書き方を覚えることができるならば、また、翻訳しようとする言語の文法についての理論や概念を知らずに、翻訳ができるようになるとすれば、そのほかに理論を知らなくてもできることとしては何があるだろう?

    今月の「ワイアード」の巻頭記事でクリス・アンダーソンは、もしかしたら理論を使わずに科学ができるのではないかという発想について論じている。

    それは大量のデータと応用数学が他のあらゆる道具に取って代わる世界である。言語学から社会学に至るまで、すべての人間行動の理論は不要になる。生物分類学、存在論、心理学などは忘れよう。人間がある行動をする理由など誰にもわからない。問題はその行動であって、私たちはそれを今までにない忠実さで追跡し測定することができる。十分なデータがあれば、数が物を言う。
     
    ペタバイトのおかげで「十分な相関がある」と言えるようになる。モデルをさがす必要はない。データが何を意味するかという仮説を立てなくても分析ができる。史上最大のコンピュータ・クラスタに数値を放り込めば、科学が見つけられないパターンを統計アルゴリズムが見つけてくれる。

    この見解には一理あるかもしれない。多くの科学、たとえば天文学、物理学、遺伝学、言語学、地質学などでは、きわめて大規模なデータセットを生成しつつあり、現時点でもペタバイトレベルに及ぶデータが流通している。あと10年のうちに、それはエクサバイトのレベルになるだろう。昔ながらの「機械学習」によって、計算機はこの大量のデータから、人間にはたぶん見つけられないパターンを抽出することができる。そのパターンとは、相関である。そこに因果関係があるかないかわからないが、とにかく新しいことを発見できる。したがって、従来のやり方とは異なっていても、科学がしているのと同じことを達成できるのだ。

    アンダーソンが示しているのは、十分な相関があればそれでよい場合があるということである。健康についてその良い例がある。多くの医療行為は相関的方法に基づいている。医者は病気の真の原因を見つけているとは限らない。あるいはもし見つけたとしても、それを理解するのではない。それでも、経過を正確に予測して症状を治療することができる。しかしこれが本当に科学だろうか?それで仕事はできたとしても、モデルがないのであれば、他人がそれを元にして何かを築き上げることができるものなのか?

    まだその答えはわからない。科学におけるこの方法は専門用語では、データインテンシブ・スケーラブル・コンピューティング(Data Intensive Scalable Computation : DISC)という。他の用語としては、グリッド・データファーム・アーキテクチャ(Grid Datafarm Architecture)、ペタスケール・データインテンシブ・コンピューティング (Petascale Data Intensive Computing)などがある。これらの方法で重要な点は、大量のデータによる計算の性質であって、計算クラスターそのものではない。オンライン産業では、この調査方法を「アナリティクス(分析論)」の一種だと言っている。クラウド・コンピューティングの会社、たとえばグーグル、IBM、ヤフー(pdf)、およびいくつかの大学では、この問題についての研究会を実施している。要するに、これらの先駆者たちは、大規模科学のためにクラウド・コンピューティングを、すなわち「一つのマシン」(訳注:地球上のネットや通信システム全体)を利用しようとしている。現在のツールとしては、たとえばMapReduce(マップリデュース)やHadoop(ハドゥープ)などのような超並列ソフトウェア・プラットフォーム(以前の私の投稿(邦訳)を参照されたい)、そして安い記憶装置とデータセンターの巨大なクラスターが使われている。今のところ、ゲノム研究以外の分野の科学者は、この新しいツールをあまり使っていない。NSF(米国科学財団)のクラスター調査プログラムは、大規模データベースに適した実験観察結果を持っている科学者と、クラスターやクラウド・コンピューティングの利用権および専門知識のある計算機科学者を引き合わせることを目的としている。

    私の推測では、この新しい手法は、科学的方法の進化に役立つ道具になると思う。既存の方法に取って代わるのではなく(残念ながら科学に終わりはない!)、すでに確立した理論に基づく科学を補完するだろう。このデータ中心の手法による問題解決を「相関分析法」と呼ぶことにしよう。クリスは彼の論文に「理論の終焉」(“The End of Theory”) という題をつけたために、またとない機会を逃したと思う。その題名は否定的な表現であり、何かがなくなるということだ。そうではなくて、これは何かの始まりであり、肯定的な名前をつけることでその誕生を後押しする良い機会なのだ。また、否定的でない名前をつければ、その主題がわかりやすくなる。「理論がなくなる」というかわりに「相関分析法」という名前を私は提案する。この相関的なシステムにモデルがないとは思えない。創発的、無意識的、潜在的なモデルがシステムに埋め込まれていて、それが答えを生成すると私は考えている。英語を話す人たちがグーグルの「中国語の部屋」で働いていて、誰も中国語の理論を知らないとしても、それでもやはり、その「部屋」に理論があると考えることができる。そのモデルは、システム製作者の認識や理解を超えているのかもしれない。そのモデルがうまくいっているから、それを発見しようとする価値がないのだ。それでもやはりモデルは存在する。私たちから見える必要のないレベルで機能しているだけなのである。

    それでうまくいっているのだから、モデルの不可視性は問題ではない。これは理論の終わりではなく、私たちが理解している理論の終わりである。クリス・アンダーソンの記事に対して、ジョージ・ダイソンが書いた記事がこれをうまく説明している。

    私たちが長い間とらわれていた考え方では、人間の脳は現実に対する何らかの「モデル」を持っていて、それと同様の「モデル」を構築すれば人工知能が実現できるというものであった。「モデル」とは何か?それには二つの条件がある。(1) 正しく機能するものであること。(2) 人間が理解できるものであること。ところが、大きくて分散的なペタバイト規模の創作物、たとえばGenBank(ジェンバンク)やGoogle(グーグル)などは、実にうまく機能する方法で現実を把握しつつあるが、人間はその方法を必ずしも理解しているわけではない。
     
    脳を分解して神経細胞ごとに調べてみても、結局、モデルを見つけることができないのと同じように、真の人工知能は、明解なモデルや知能の理論をまったく必要とせずに実現できるということに、いつか気づくのだろう。現実はとてもうまく仕事をしている。
     
    妥当な定義に従うとすれば、「主上心(Overmind)」(またはケヴィンの「一つの計算機」とか、その他どんな名前でも良いが)は、考えることを始めている。しかし、それは人間と同じ方法で考えている、あるいは人間が理解できる尺度で考えている、ということではない。
     
    クリス・アンダーソンが言おうとしているのは、次のようなことである。科学(および何らかの非常に成功した事業)は、自然を直接に読み取るだけでなく、さらに「主上心」をも読み取る方法を理解した人たちが遂行するようになってくるだろう。

    ここでジョージ・ダイソンが示唆しているのは、この新しい科学の方法 ―きわめて大量のデータを集めて、「一つのマシン」を使って相関的な解答を計算すること― が、新しい種類の科学者と意思疎通する手段であるとも考えられるということだ。その科学者とは、人間自身の能力を超える抽象度で(超大量の世界(zillionics(邦訳)) において)モデルを生成できるような人である。

    今までのところ、「相関分析法」すなわち「グーグル方式の科学」は、言語翻訳やマーケティングなど、主に社会学的な領域で活用されてきた。超大量のデータが存在する分野である。その超大量のデータは人間全体のオンラインでの活動で生成されたものである。しかし自然に関する観察や計測が年中無休で常時行われるようになり、センサーやプローブの種類も増えている。したがって科学も超大量の世界に突入して、「相関分析法」という新しい道具で容易に処理できるようになるだろう。この分野の科学では、うまくいく答えが得られるかもしれないが、それを私たちは理解することができない。これは不完全な理解なのか?それとも今までと異なる種類の理解なのか?

    おそらく理解と解答は過大評価されている。パブロ・ピカソは次のように言ったと伝えられている。「計算機の問題点は、解答だけを提示することだ。」この巨大なデータ駆動の相関的システムは多くの解答 ―正しい答え― を私たちに提示するだろうが、提示するものはそれだけである。「一つの計算機」が行うことは、良い解答を提示することである。来たるべきクラウド・コンピューティングの世界では、完璧な良い解答がコモディティー化するだろう。そのとき、それ以外の科学の真価は、良い質問を問いかけることになる。

    Reply

Leave a Reply

Your email address will not be published.