.\" %FreeBSD: src/usr.bin/file/file.1,v 1.16.2.4 2001/03/06 12:52:40 ru Exp % .Dd December 8, 2000 .Dt FILE 1 "Copyright but distributable" .Os .Sh 名称 .Nm file .Nd ファイルの種類を判定する .Sh 書式 .Nm .Op Fl bciknsvzL .Op Fl f Ar namefile .Op Fl m Ar magicfiles .Ar .Sh 解説 このマニュアルは .Nm コマンドのバージョン 3.33 について記載しています。 .Nm は、引数で指定されたファイルの種類を判定するプログラムです。判定の ために、ファイルシステムテスト、マジックナンバテスト、言語テストの 3 つのテストをこの順に実行し、 .Em 最初に 判定できた結果からファイルの種類を表示します。 .Pp ファイルの種類として表示されるのは、 .Em text (印字可能文字と少数の制御文字だけのファイルで、 .Tn ASCII 端末に表示した場合、 問題が起こらないもの)、 .Em executable ( .Ux カーネル等に理解可能な形にコンパイルされたプログラムを 含むファイル)、その他のものを意味する .Em data (data は、通常 .Sq バイナリ か表示不能なもの) のうちの 1 つです。 例外は、内部フォーマットがよく知られた、 バイナリデータを含むファイル (コアファイルや tar アーカイブ) です。 ファイル .Pa /usr/share/misc/magic やプログラムそのものを変更するときは、 .Em "これらのキーワードを残して下さい" 。 ディレクトリ内のすべての可読なファイルは、 単語 .Dq text を表示することが期待されています。 Berkeley で行われたように、 .Dq shell commands text を .Dq shell script と変更するようなことはしないで下さい。 ファイル .Pa /usr/share/misc/magic は、 .Nm のソース配布中の .Pa Magdir サブディレクトリ中の大量の小さなファイルから機械的に構築されることに 注意してください。 .Pp ファイルシステムテストは、 .Xr stat 2 システムコールからの戻り値を調べることに基づいています。 このプログラムは、ファイルが空であるかどうか、ある種の 特殊ファイルであるかどうかを調べます。 使っているシステムに合った既知のファイルの種類 (システムに実装されたソケット、シンボリックリンク、 名前付きパイプ (FIFO)) は、システムヘッダファイル .Aq Pa sys/stat.h で定義されていれば表示されます。 .Pp マジックナンバテストは、ファイルが固定フォーマットのデータであるか どうかをチェックするために使われます。 よい例が、実行可能なバイナリ実行形式 (コンパイルされたプログラム) .Pa a.out ファイルです。このフォーマットは標準インクルードディレクトリ内の .Pa a.out.h や場合により .Pa exec.h で定義されています。 実行ファイルは、 ファイルの先頭近くの特定の場所に、 .Sq マジックナンバ を持ちます。 これは .Ux オペレーティングシステムに対し、 ファイルがバイナリ実行形式であり、 どのタイプの実行可能ファイルであるかを知らせます。 .Sq マジックナンバ の概念は拡張され、データファイルにも適用されています。 ファイルの先頭に近い固定位置に固定識別子があるファイルは、 このように記述できます。 これらのファイル識別情報は、マジックファイル .Pa /usr/share/misc/magic から読み込まれます。 .Pp ファイルがマジックファイルのどのエントリにもマッチしない場合、 text ファイルに見えるかどうか検査されます。 .Tn ASCII , .Tn ISO-8859-x , 非 ISO 8-bit 拡張 ASCII 文字集合 (Macintosh および IBM PC システムで使用), .Tn UTF-8-encoded Unicode , .Tn UTF-16-encoded Unicode , .Tn EBCDIC の文字集合が区別可能であり、 これには各文字集合における印字可能 text を構成する バイトの範囲およびシーケンスを使用します。 ファイルがこれらのテストのいずれかを通過した場合、文字集合が報告されます。 .Tn ASCII , .Tn ISO-8859-x , .Tn UTF-8 , extended-ASCII ファイルは .Dq text として識別されます。 なぜなら、ほとんどどのような端末においても読めるからです。 .Tn UTF-16 および .Tn EBCDIC は .Dq character data でしかありません。 これらは text を含みますが、読む前に変換が必要だからです。 さらに、 .Nm は text タイプファイルの他の特性も判定しようとします。 ファイルの行の終端が、UNIX 標準の LF ではなく、 CR, CRLF, NEL のいずれかである場合、そのことが報告されます。 組み込みのエスケープシーケンスや重ね打ちを含むファイルについても、 識別されます。 .Pp text タイプファイルで使用されている文字集合を判定した後、 その言語を推定しようとします。 言語テストは、ファイルの始めの数ブロックに 特定の文字列 ( .Pa Inames.h を参照) があるかどうかを探します。たとえばキーワード .Em \&.br があればそれはおそらく .Xr troff 1 の入力ファイルであり、 struct というキーワードは、C 言語のプログラムであることを示しています。 こうした推定方法は、前述の 2 つのテストより信頼性が低いため、 最後に行われます。言語テストルーチンは ( .Xr tar 1 アーカイブのような) その他のファイルもチェックします。 .Pp 上記の文字集合のいずれで記述されているとも識別できなかったファイルは、 単に .Dq data と呼ばれます。 .Sh オプション .Bl -tag -width indent .It Fl b 出力行の前にファイル名を付けません (短縮モード)。 .It Fl c マジックファイルを解析した形式を、調査できるように表示します。 通常、 新しいマジックナンバファイルを使う前にデバッグするために、 .Fl m オプションとともに用います。 .It Fl f Ar namefile 引数の前に .Ar name_file から調べるべきファイル名を (1 行に 1 つ) 読み込みます。 .Ar name_file もしくは引数の filename は少なくとも 1 つは指定しなければなりません。 標準入力のファイルの種類を判定させる場合は、 ファイル名として、 .Dq Ar - を指定します。 .It Fl i .Nm に、伝統的な人間が読める形式の代りに、 mime タイプ文字列を出力させます。 よって、 .Dq ASCII text の代りに .Dq text/plain; charset=us-ascii となります。 本オプションが動作するようにするために、 .Nm はファイル認識方法 (例えば、多くの text ファイルタイプやディレクトリ等) を変え、 別の .Dq Pa マジック ファイルを使用します (後述の .Sx FILES 節を参照してください)。 .It Fl k 最初にマッチしても停止せずに、処理を継続します。 .It Fl m Ar list マジックナンバを含む別のファイルの .Ar list を指定します。 これは、1 つのファイルか、コロン (:) で分けられたファイルのリストです。 .It Fl n 各ファイルのチェック後に、標準出力をフラッシュします。 ファイルの一覧をチェックしているときのみ、有用です。 ファイルタイプをパイプから出力するプログラムにおいて使用することを意図します。 .It Fl s 通常、 .Nm が引数のファイルの読み込みとタイプの判定を行うのは、 .Xr stat 2 が通常ファイルであると報告した場合のみです。 これにより問題を回避しています。 なぜなら、特殊ファイルの読み込みは、 特定の結果を発生させる場合があるからです。 .Fl s オプションを指定すると、 .Nm は、ブロックおよびキャラクタの特殊ファイルも読み込みます。 これは、raw ディスクパーティション中のデータに存在する ファイルシステムタイプの判定に有用です。 なぜなら、raw ディスクパーティションはブロック型特殊ファイルであるからです。 本オプションはまた、 .Nm が .Xr stat 2 が報告するファイルの大きさを無視するようにさせます。 なぜなら、システムによっては、 raw ディスクパーティションの大きさは 0 であると報告するものがあるからです。 .It Fl v プログラムのバージョンを表示して、終了します。 .It Fl z compress で圧縮されたファイルの中身を見ようとします。 .It Fl L オプションは(システムがシンボリックリンクを提供していれば)、 .Xr ls 1 コマンドの .Fl L オプションと同様にシンボリックリンクをたどって実際のファイルの中 身の種類を判定します。 .El .Sh 関連ファイル .Bl -tag -width /usr/share/misc/magic.mime -compact .It Pa /usr/share/misc/magic デフォルトのマジックナンバのリスト .It Pa /usr/share/misc/magic.mime .Fl i が指定されて mime タイプを出力する場合に使用する、 デフォルトのマジックナンバのリスト .El .Sh 環境変数 環境変数 .Ev MAGIC は、デフォルトのマジックナンバファイルを指定するために 使うことができます。 .Sh 関連項目 .Xr od 1 , .Xr strings 1 , .Xr magic 5 .Sh 標準適合性 FILE(CMD) の System V Interface Definition の曖昧な記述から 判断する限りにおいては、 このプログラムはこの仕様を越えていると思われます。 同名の System V のプログラムと、ほとんど動作は同じです。 しかし、このバージョンはより多くのマジックを知っているので、多くの場合に 異なった (より正確な) 出力を出します。 .Pp このバージョンと System V のものとの大きな違いは、 このバージョンは全ての空白を区切り文字として扱うため パターン内の空白はエスケープしなければならないということです。 たとえば、 .Bd -literal -compact >10 string language impress (imPRESS data) .Ed とマジックファイルに書かれていた場合は、次のように 変更せねばなりません。 .Bd -literal -compact >10 string language\e impress (imPRESS data) .Ed .Pp またこのバージョンでは、バックスラッシュを含んでいる パターンもエスケープしなくてはいけません。たとえば、 .Bd -literal -compact 0 string \ebegindata Andrew Toolkit document .Ed とマジックファイルに書かれていた場合は、次のように 変更せねばなりません。 .Bd -literal -compact 0 string \e\ebegindata Andrew Toolkit document .Ed .Pp Sun Microsystems の SunOS リリース 3.2 もしくはそれ以降には、 System V 由来の .Xr file 1 コマンドが含まれていますが、拡張がなされています。 このバージョンは SUN のものとは、細かい点でしか異なりません。 このバージョンには `&' 演算子の拡張が含まれています。 使い方は、次のようなものです。 .Bd -literal -compact >16 long&0x7fffffff >0 not stripped .Ed .Sh マジックディレクトリ マジックファイルのエントリは様々なソース (主に USENET) から集められたり、様々な作者から提供されました。 .An Chirstos Zoulas (下記のアドレス) が、 マジックファイルエントリをさらに集めたり訂正するでしょう。 統合したマジックファイルエントリは、定期的に配布されるでしょう。 .Pp マジックファイルにおけるエントリの順序は 重要です。 使っているシステムによって、エントリの順序が正しくなくなることが あります。 もし、あなたの古い .Nm コマンドがマジックファイルを使っているのなら、 比較のため古いマジックファイルを保存して下さい (たとえば、 .Pa /usr/share/misc/magic.orig という名前に変更します) 。 .Sh 使用例 .Bd -literal $ file file.c file /dev/hda file.c: C program text file: ELF 32-bit LSB executable, Intel 80386, version 1, dynamically linked, not stripped /dev/hda: block special $ file -s /dev/hda{,1,2,3,4,5,6,7,8,9,10} /dev/hda: x86 boot sector /dev/hda1: Linux/i386 ext2 filesystem /dev/hda2: x86 boot sector /dev/hda3: x86 boot sector, extended partition table /dev/hda4: Linux/i386 ext2 filesystem /dev/hda5: Linux/i386 swap file /dev/hda6: Linux/i386 swap file /dev/hda7: Linux/i386 swap file /dev/hda8: Linux/i386 swap file /dev/hda9: empty /dev/hda10: empty $ file -i file.c file /dev/hda file.c: text/x-c file: application/x-executable, dynamically linked (uses shared libs), not stripped /dev/hda: application/x-not-regular-file .Ed .Sh 歴史 .Nm コマンドは、少なくとも Research Version 6 (マニュアルページの日付は、1975 年 1 月) からはどの .Ux にもありました。 System V バージョンはある重要な変更、 すなわち外部マジックナンバリストを導入しました。 これによってプログラムのスピードはわずかに低下しましたが、 更にまた柔軟になりました。 .Pp このプログラムは、System V バージョンを基づいており、 .An Ian Darwin Aq ian@darwinsys.com によって、他の誰かのソースコードを見ることなく 書かれました。 .Pp .An John Gilmore は、コードを拡張し、最初の版よりもよいものにしました。 .An Geoff Collyer は、不適当なところが数箇所あるのを発見し、 いくつかマジックファイルエントリを提供しました。 .An Rob McMahon Aq cudcv@warwick.ac.uk は、1989 年に、 .Sq \&& 演算子を寄贈しました。 .Pp .An Guy Harris Aq guy@netapp.com は、1993 年から現在に至り、多くの変更を行っています。 .Pp 基本開発と 1990 年から現在に至るメンテナンスを、 .An Christos Zoulas Aq christos@astron.com が行っています。 .Pp 2000 年に .An Chris Lowth Aq chris@lowth.com が修正を行い、 .Fl i オプションが mime タイプ文字列を出力し、 別のマジックファイルと内部ロジックを使用するようになりました。 .Pp 2000 年 7 月に .An Eric Fischer Aq enf@pobox.com が修正を行い、 文字コードを識別し、非 ASCII ファイルの原語を識別しようとするようになりました。 .Pp .Pa Magdir ディレクトリ ( .Pa /usr/share/misc/magic ファイルのソース) に対する寄贈者は、ここに含めるには長過ぎます。 ご了承ください。 .Sh 法律上の注意 Copyright (c) Ian F. Darwin, Toronto, Canada, 1986-1999. Covered by the standard Berkeley Software Distribution copyright; see the file LEGAL.NOTICE in the source distribution. .Pp The files .Pa tar.h and .Pa is_tar.c were written by .An John Gilmore from his public-domain .Nm tar program, and are not covered by the above restrictions. .Sh バグ .Pa Pagicdir から .Pa Magic ファイルを自動的に作成するよりよい方法があるはずです。 それは何なのでしょうか。より起動を速くするため マジックファイルをバイナリにコンパイルするとよいでしょう。 (たとえば .Xr ndbm 3 あるいは、異機種ネットワーク環境では固定長の .Tn ASCII 文字)。 そうすれば、同名の バージョン 7 のプログラムと同じぐらいの速さで System V バージョンの柔軟性を持ったプログラムとなるでしょう。 .Pp .Nm には、正確さよりも 速度を重視したアルゴリズムが いくつかあるので text ファイルの内容については 間違うことがあります。 .Pp text ファイルのサポート (元々はプログラミング言語のため) は 単純で、不十分であり、更新には再コンパイルが必要です。 .Pp 複数の行に渡るものをサポートするため .Dq else 項があるべきです。 .Pp マジックファイルと キーワードの正規表現を サポートするべきです。 ASCII TAB をフィールドの識別子にすることは醜く、 ファイルの編集を難しくしていますが、残されています。 .Pp キーワードに大文字を許すことが勧められます。たとえば、 .Xr troff 1 コマンドと man page マクロの区別です。 正規表現のサポートで、このことは簡単になるでしょう。 .Pp FORTRAN に対してプログラムが働きません。 行の先頭にインデントされているキーワードを見ることにより FORTRAN だと判別すべきです。 正規表現のサポートによりこれは簡単になるでしょう。 .Pp .Em ascmagic に入っている キーワードのリストは、おそらく .Pa Magic ファイルに 入れるべきものです。 これはオフセットの値として `*' のようなキーワードを 使うことで可能でしょう。 .Pp 最初の文字、最初の語、最初の long などに関する テストを 最初に読み込んだときに全て行うことができるよう マジックファイルを並べ直す最適化法はないだろうか。 マジックファイルの矛盾について述べるようにならないか。 エントリーの順序を マジックファイル上の位置ではなく、 ファイルオフセット順にすることはできないだろうか。 .Pp プログラムは、推定が .Dq どれぐらいよい のかを知る方法を 提供すべきです。ファイルの最初の 5 文字が .Dq From\ \& であるときに推測をしても、 .Dq Newsgroups: や .Dq Return-Path: といった文字による推測ほどよくはないので、推測結果を 捨てることになります。しかし、もしそういった文字が 現れなければ最初の推定を使わなければなりません。 .Pp このプログラムは、いくつかの商用の .Nm コマンドより遅いです。 複数の文字コードのサポートにより、より遅くなっています。 .Pp このマニュアルページ、特にこの節が長過ぎます。 .Sh 入手性 オリジナル作者の最新のバージョンを anonymous FTP で、 .Pa ftp.deshaw.com の .Pa /pub/file/file-X.YY.tar.gz から手に入れることができます。