SlideShare a Scribd company logo
EMR
•          (@sasata299)
•     Hadoop
•
•
• Rails, Hadoop, NoSQL
クックパッドでのemr利用事例
クックパッドでのemr利用事例
[PR] NoSQL
クックパッドでのemr利用事例
1. Hadoop
2.   EMR
3. EMR
4.
1. Hadoop
クックパッドでのemr利用事例
2009/9
•
• MySQL
• GROUP BY       …
• 7000
• Hadoop
クックパッドでのemr利用事例
2009/10
• EC2    Hadoop
• Cloudera CDH1
• Ruby Hadoop Streaming
•         7000   →30
• Hadoop
Hadoop++

   ←Hadoop


        ↓MySQL
2.   EMR
2010/7

• Hadoop
• Hadoop
• SocketTimeoutException   …
• CDH2
• EMR
クックパッドでのemr利用事例
EMR vs CDH2

                        AMI
                     (Amazon Machine
                         Image)
       UP


EMR


CDH2
EMR vs CDH2

                        AMI
                     (Amazon Machine
                         Image)
       UP


EMR


CDH2
クックパッドでのemr利用事例
クックパッドでのemr利用事例
2010/8

• EMR
•
• Hadoop
•
クックパッドでのemr利用事例
クックパッドでのemr利用事例
3. EMR
DB

•   xx   UU
•             UU
•
•        , etc...
• MySQL   MySQL
• MySQL    EMR
   - UU
   -
   -
EMR

•
    - ○○   xx
• Ruby
•
•
4.
•
•
    -       1
•       5       …
[13930, 29011, 39291, ...] # 50000

                  1000

{
    ‘139’ => [13930, 13989, 13991, ...], # 50
    ‘290’ => [29011, 29098, 29076, ...], # 50
    ‘392’ => [39291, 39244, 39251, ...], # 50
    ...
}
•                    …
• mapper → reducer → finalize
• script-runner.jar
•
•
•     IF
•
•   EMR
• EMR
•
•
• Hadoop Streaming
•                  :-)
クックパッドでのemr利用事例
クックパッドでのemr利用事例
クックパッドでのemr利用事例
クックパッドでのemr利用事例
@sasata299

More Related Content

クックパッドでのemr利用事例

Editor's Notes

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. クックパッドの検索ログを、地域別や季節別に見られるサービスです。\n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n
  21. \n
  22. \n
  23. \n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n
  30. \n
  31. \n
  32. \n
  33. \n
  34. \n
  35. \n
  36. \n
  37. \n