Tsuyoshi Miyakawa @tsuyomiyakawa 「現在、世界には4種類の高所得国しかない。1) 英語圏、2) イギリスに近い国、3) 資源に恵まれた国、そして4) 日本とその旧植民地である。」 1〜3まではよく研究されているが、なぜ4なのか?産業革命がなぜ日本に最初に広がり、他の非西洋諸国には広がらなかったのかに関するデータドリブンの研究。 pic.twitter.com/caUwCwpbAI x.com/juhreka13/stat… 2024-07-19 08:11:17 Reka Juhasz @juhreka13 Happy to see our WP w Shogo Sakabe and @deweinstein (so many years in the making!) out. We examine the role of codifying knowle
デイリーポータルZのライター、関係者が愛読している本を語ります。 今回はライターの唐沢さん。レコメンドは「日本語大博物館: 悪魔の文字と闘った人々」(ジャストシステム) 聞き手は安藤、佐伯、石川です。 では唐沢さん、お願いします。 なんでローマ字打たなあかんねん 唐沢:パソコンのキーボードで文字を打つ時って、まずローマ字を入力して、それをひらがなにして、さらに漢字に直すじゃないですか。ある日、「なんでローマ字打たなあかんねん」ってめっちゃ腹立ったんですよ。 安藤:はいはい(笑) 唐沢:小さいころにタイピングゲームでかな入力を練習したんです。そしたら親から、「ローマ字入力しか使わへんで」って言われて、あとでローマ字入力を覚え直して。 みんなやってるから覚えましたけど、よくよく考えたら「最初っからかな入力して、漢字に変換するほうが早くない?」と思って。 石川:たしかに。 唐沢:それに腹が立って
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function
週プレNEWS TOPニュース社会パリ在住フランス人研究者が「日本語の起源」を追究する理由。文字なき時代の古(いにしえ)の姿はここまでわかった! 「日本語の祖先は、朝鮮半島から海を渡ってもたらされた説が有力です」と語るペラール氏 日本語は、大昔はどのような姿だったのか? 文献の記録がない時代はどんな発音で、どんな単語があったのか? そんな疑問に答える本が出た。それが『日本語・琉球諸語による歴史比較言語学』だ。 われわれが話す日本語の祖先の姿に迫る画期的な方法をまとめたこの本の著者のひとりは、なんとパリ在住のフランス人、トマ・ペラール氏。異国の言語学者が明らかにした、日本語の古の姿とは? ■日本列島にはいろいろな言語があった ――なんだか難しそうな本ですが、タイトルの「歴史比較言語学」ってなんですか? トマ・ペラール(以下、ペラール) 異なる言語どうしを比較したりすることで、言語がたどった歴
その他のサンプル: Wikipedia:良質な記事, Wikipedia:長いページ 紹介 「テキストゆれないくん」は文章に含まれる表記揺れを検出するツールです。「コンピュータ」と「コンピューター」、あるいは「全て」と「すべて」といった同じ単語の別表記が使われていないかどうかをチェックできます。 「テキストゆれないくん」は元々このサイト (https://inzkyk.xyz/) の文章校正用に開発されました。機能が成熟してきたので UI を付けて公開します。 このページから手動で使う限り、「テキストゆれないくん」は商用/非商用を問わず自由に使って構いません。「テキストゆれないくん」は無保証で提供されます。 特徴 ウェブブラウザから使える このページをウェブブラウザで開いているなら、「テキストゆれないくん」は既に動いています。このページの最初にあるのは「テキストゆれないくん」を使うための完
理化学研究所(理研)生命医科学研究センター ゲノム解析応用研究チームの寺尾 知可史 チームリーダー(静岡県立総合病院 臨床研究部 免疫研究部長、静岡県立大学 薬学部ゲノム病態解析講座 特任教授)、劉 暁渓 上級研究員(研究当時:ゲノム解析応用研究チーム 研究員; 静岡県立総合病院 臨床研究部 研究員)、東京大学医科学研究所附属ヒトゲノム解析センター シークエンス技術開発分野の松田 浩一 特任教授らの共同研究グループは、大規模な日本人の全ゲノムシークエンス(WGS)[1]情報を分析し、日本人集団の遺伝的構造、ネアンデルタール人[2]およびデニソワ人[3]由来のDNAと病気の関連性、そしてゲノムの自然選択が影響を及ぼしている領域を複数発見しました。 本研究成果は、日本人集団の遺伝的特徴や起源の理解、さらには個別化医療[4]や創薬研究への貢献が期待されます。 今回、共同研究グループは、バイオバン
アポロ計画以来、半世紀ぶりに人類を月面に着陸させる、アメリカ主導の月探査計画「アルテミス計画」で、日本人の宇宙飛行士が少なくとも2人、月面での活動に参加する方向で最終調整が進められていることが関係者への取材でわかりました。正式に決まれば、日本人が初めて月面に立つことになり、日本の宇宙探査の大きな転換点となります。 人類が宇宙へ進出する足がかりとして、アメリカは、日本やヨーロッパなどとともに月面を持続的に探査する「アルテミス計画」を進めていて、2025年以降に宇宙飛行士の月面への着陸を目指しています。 1972年のアポロ17号以来およそ半世紀ぶりに再び人類が月面に立つことになりますが、月面での一連の活動に日本人の宇宙飛行士が少なくとも2人、参加する方向で最終調整が進められていることが関係者への取材でわかりました。 日本は、JAXA=宇宙航空研究開発機構とトヨタなどが開発している有人の月面探査
「真逆」という言葉は、毎日新聞で確認できる限りでは1998年から見られる歴史の浅い言葉ですが、急速に拡大しました。反発も根強いのですが、なぜこの言葉は昔にはなく、最近広まったのでしょう。前後編で掘り下げて考えます。 9月に出た毎日新聞校閲センター著「校閲記者も迷う日本語表現」(毎日新聞出版)は、主にこのサイトの「質問ことば」から厳選して構成されています。今回はその中から「真逆」という語について掘り下げてみます。本稿の筆者・岩佐の個人的見解が含まれることをご承知おきください。 定着進むが言い換えを推奨 「真逆=まぎゃく」は2004年の新語・流行語大賞にノミネートされたように歴史の浅い語ですが、一気に広まりました。この「質問ことば」のアンケートでも「使う」が18年に55%、23年に58%と過半数です。「定着した」は18年77%、23年83%と、浸透ぶりが表れています。 23年2月のNHK調査で
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは。 LINEのNLP Foundation Devチームの清野舜と高瀬翔とoverlastです。 LINEでは2020年11月から日本語に特化した大規模言語モデル「HyperCLOVA」の構築と応用に関わる研究開発に取り組んできましたが、この「HyperCLOVA」と並行するかたちで複数の大規模言語モデルの研究開発プロジェクトが進行しています。 今回はそれらの研究開発プロジェクトのうち、我々を含むMassive LM開発ユニットから、日本語言語モデル「japanese-large-lm(ジャパニーズ ラージ エルエム)」をOSSとして公開できる状況になりましたので、本ブログを通じてお伝えすることにしました。 この記事
Stability AI Japan は70億パラメータの日本語向け汎用言語モデル「Japanese StableLM Base Alpha 7B」及び、指示応答言語モデル「Japanese StableLM Instruct Alpha 7B」を一般公開しました(略して「JSLM」)。これらのモデル はベンチマークスイート「lm-evaluation-harness」による複数の日本語タスクを用いた性能評価において、一般公開されている日本語向けモデルで最高の性能を発揮しています。 汎用言語モデル「Japanese StableLM Base Alpha 7B」「Japanese StableLM Base Alpha 7B」はウェブを中心とした大規模なデータを用いてテキスト生成を学習したモデルです。学習データは主に日本語と英語で、それに加えソースコードが約2%含まれています。学習データに
ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AI(ChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤
1976年福岡生まれ。学位は文学修士(日本文学・精神分析)。大学院在学中に中学生40名を集めて学習塾を開業。現在は株式会社寺子屋ネット福岡代表取締役、唐人町寺子屋塾長、及び単位制高校「航空高校唐人町」校長として、小中高生150名余の学習指導に携わる。著書に『親子の手帖 増補版』(鳥影社)、『おやときどきこども』(ナナロク社)など。 ニュースな本 ビジネス・経済から、エンタメに教育、政治まで……。世の中には山のように書籍が存在する。その中から「読んでためになる」「成長できる」「思わずうなる」ような本を厳選してお届けする。話題の新刊から埋もれた名著まで、きっと素敵な発見があるはずだ。気になる記事があったら、ぜひ元の書籍を読んでみてほしい。 バックナンバー一覧 「一縷の望み」のような意味合いで使われる「ワンチャン」(one chanceの略)。主に若者の間で使われている言葉だが、その流行には時代
なぜ日本人の多くはオーディオブックが聴けないのか。対話と語彙力の意外な関係。 「オーディオブックは、アメリカでは浸透しているけれど、なぜか日本ではなかなか浸透しない」 ここ10年間、ずっと解明されていない謎です。 一般的な理由は「アメリカは車社会で、オーディオブックを聴くまとまった時間と空間があるから」。 つまり、生活習慣(車移動)と生活環境(車内)がその原因だと。 じゃあ、日本でも習慣と環境さえ整えれば、オーディオブックを聴く習慣が生まれるかもしれない。 実際、僕自身もノイズキャンセリングヘッドホンで環境を整え、移動中や散歩習慣などまとまった時間を確保することで、「オーディオブックのある暮らし」が身につきました。 だから「オーディオブックに興味がある」という人には、習慣と環境のアドバイスばかりをしてきました。 ーーー でも最近、本当の理由は異なるのかもしれないと思うようになりました。 一
日本語の元となる言語を最初に話したのは、約9000年前に中国東北地方の西遼河(せいりょうが)流域に住んでいたキビ・アワ栽培の農耕民だったと、ドイツなどの国際研究チームが発表した。10日(日本時間11日)の英科学誌ネイチャーに掲載された。 【写真】歴史見つめ…100歳 日本語(琉球語を含む)、韓国語、モンゴル語、ツングース語、トルコ語などユーラシア大陸に広範に広がるトランスユーラシア語の起源と拡散はアジア先史学で大きな論争になっている。今回の発表は、その起源を解明するとともに、この言語の拡散を農耕が担っていたとする画期的新説として注目される。 研究チームはドイツのマックス・プランク人類史科学研究所を中心に、日本、中国、韓国、ロシア、米国などの言語学者、考古学者、人類学(遺伝学)者で構成。98言語の農業に関連した語彙(ごい)や古人骨のDNA解析、考古学のデータベースという各学問分野の膨大な資料
A static site to link people to when their code is displaying Japanese wrong. View the Project on GitHub heistak/your-code-displays-japanese-wrong Why am I here? If someone gave you a link to this page, that person probably thinks your code displays Japanese wrong. In short, from a native Japanese eye, yѳur ҭєxҭ lѳѳκs κιnd ѳf lικє ҭЋιs. This page will give you a brief description of the glyph appe
<書籍や雑誌、テレビ番組の字幕で「中国人名の現地読み(中国語読み)」がよく使われている。リベラル派による配慮なのかもしれないが、できればやめてもらいたい> 最近、散歩中のご近所さんに会って長々と立ち話をしていた際に、少々困ったことがあった。 浅田次郎の中国歴史小説が話題に上ったのだが、彼女がどの登場人物のことを話しているのか、さっぱり分からなかったのだ。 「ヅチンチヨンに攻め込んだリイヅチヨンが......」 何度か聞き返して、ようやく「紫禁城に攻め込んだ李自成(明朝を亡ぼした農民反乱軍の指導者)」のことだと分かった。 日本の書籍や雑誌、テレビ番組の字幕で「中国人名の現地読み(中国語読み)」がよく使われている。ニューズウィーク日本版でも例えば、習近平に「シー・チンピン」とルビが振られているが、あれである。 日本の中国歴史小説が大好きな私は、これまで井上靖や水上勉、陳舜臣らの作品を数多く読ん
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く