日本語の書き言葉 コーパス 例文
サイト概要
当サイトでは、Wikipediaの日本語記事データをコーパスとして利用しています。
文の数は13,828,652、総語数は384,648,362、ユニークな語数は1,502,987。
このコーパスを使って、単語がどのように使われているかを分析したり、日本語を学習したりすることができます。
表示形式の選択
大きく分けて、2種類の表示形式があります。
- 「文全体」を表示
- 「N-gram」を表示
N-gramは、3g、5g、7g、9g、11g、13gが利用可能です。
文全体 | 検索クエリを含む文を表示。 |
3g | 検索クエリと前後に1語ずつ、計3語を表示 |
5g | 検索クエリと前後に2語ずつ、計5語を表示 |
7g | 検索クエリと前後に3語ずつ、計7語を表示 |
9g | 検索クエリと前後に4語ずつ、計9語を表示 |
11g | 検索クエリと前後に5語ずつ、計11語を表示 |
13g | 検索クエリと前後に6語ずつ、計13語を表示 |
2つ以上の語(形態素)を検索する場合
半角または全角のスペースで区切って入力します。
例: 猫 と
検索結果について
クエリにマッチしている部分は赤で強調しています。
「文全体」を表示する場合、検索結果の数は、クエリとマッチした部分を含む文の総数を表示しています。
「N-gram」を表示する場合も、検索結果の数は、クエリとマッチした部分を含む文の総数を表示しています。ただし、文の中でマッチした箇所が複数ある場合、結果表示している行の数が増えます。例えば、該当する文の数が20件であっても、表示する結果の数は23件だったりします。
半角英数記号、そして日本語以外の言語については動作対象外です。
当サイトが使用するデータについて
別途、データの取得から加工についてまとめました。 → リンク:Wikipediaの記事データからコーパスを作成する方法
2015年6月1日時点で、文の数は13,828,652、総語数は384,648,362、ユニークな語数は1,502,987のコーパスです。(語数のカウントは、半角英数記号を含む語を除いた数です。)
利用にあたっての注意事項
当サイトのデータはWikipediaのデータを使用しており、「クリエイティブ・コモンズ 表示-継承 3.0 非移植ライセンスの下で利用可能」です。
当サイトを利用したことで被った損害、被害、その他について、当サイトは一切の責任を負いません。また、当サイトはWikipediaのデータを使用しておりますが、個人・組織としていかなる関係もありません。