Proudly Powered by Wikipedia.

日本語の書き言葉 コーパス 例文

サイト概要

当サイトでは、Wikipediaの日本語記事データをコーパスとして利用しています。

文の数は13,828,652、総語数は384,648,362、ユニークな語数は1,502,987。

このコーパスを使って、単語がどのように使われているかを分析したり、日本語を学習したりすることができます。

文全体表示の例

表示例1

N-gram表示の例

表示例2

表示形式の選択

大きく分けて、2種類の表示形式があります。

  • 「文全体」を表示
  • 「N-gram」を表示

N-gramは、3g、5g、7g、9g、11g、13gが利用可能です。

表示形式
文全体検索クエリを含む文を表示。
3g検索クエリと前後に1語ずつ、計3語を表示
5g検索クエリと前後に2語ずつ、計5語を表示
7g検索クエリと前後に3語ずつ、計7語を表示
9g検索クエリと前後に4語ずつ、計9語を表示
11g検索クエリと前後に5語ずつ、計11語を表示
13g検索クエリと前後に6語ずつ、計13語を表示

2つ以上の語(形態素)を検索する場合

半角または全角のスペースで区切って入力します。

例: 猫 と

検索結果について

クエリにマッチしている部分はで強調しています。

「文全体」を表示する場合、検索結果の数は、クエリとマッチした部分を含む文の総数を表示しています。

「N-gram」を表示する場合も、検索結果の数は、クエリとマッチした部分を含む文の総数を表示しています。ただし、文の中でマッチした箇所が複数ある場合、結果表示している行の数が増えます。例えば、該当する文の数が20件であっても、表示する結果の数は23件だったりします。

半角英数記号、そして日本語以外の言語については動作対象外です。

当サイトが使用するデータについて

別途、データの取得から加工についてまとめました。 → リンク:Wikipediaの記事データからコーパスを作成する方法

2015年6月1日時点で、文の数は13,828,652、総語数は384,648,362、ユニークな語数は1,502,987のコーパスです。(語数のカウントは、半角英数記号を含む語を除いた数です。)

利用にあたっての注意事項

当サイトのデータはWikipediaのデータを使用しており、「クリエイティブ・コモンズ 表示-継承 3.0 非移植ライセンスの下で利用可能」です。

当サイトを利用したことで被った損害、被害、その他について、当サイトは一切の責任を負いません。また、当サイトはWikipediaのデータを使用しておりますが、個人・組織としていかなる関係もありません。