Home > PHPメモ | 便利メモ > PHPでHTMLを解析する(その2 主にHTMLの取得方法)

PHPでHTMLを解析する(その2 主にHTMLの取得方法)

  • 2009-03-19 (木)

phpでhttpリクエストして,結果をpreg_match_allなど文字列関数を駆使すればどうにでもできることが分かりました。
以下PHPでHTML(に限らず)をhttp(多分)で取得する方法です。

1.file_get_contents(’url’)

単純明快。

(2011.11.28追記)PHPの設定で色々パラメータをいじることができます。

2.get_headers()

ヘッダーだけなら便利です

3.pearのHTTP_request

UAを偽装したりproxyサーバ経由で接続したりとシンプルながら便利です。

4.pearのHTTP_client

HTTP_clientのラッパークラスですがクッキーのやりとりも簡単にできるのでログイン後にページ変遷でセッション保持が必要なサイトなどもらくらくです,想像も尽きない色々な使い方がーーー!

ご利用は計画的に。

(2011.11.28追記)

追加します。

5.CakePHPの httpsocket

http://api.cakephp.org/class/http-socket
便利でーす!

6.curl

http://www.google.co.jp/search?gcx=c&sourceid=chrome&ie=UTF-8&q=php+curl

サーバに入っていないと使えないのですが高機能です。

インストール手順

PHP の cURL サポート機能を使用するには、–with-curl[=DIR] を付けて PHP をコンパイル しておく必要があります。
http://php.net/manual/ja/book.curl.php

なので共有サーバなどで入っていない場合は使えませんが,便利な関数がいっぱいです。
PEARもサーバ側で用意が必要ですがcurlと違い共有でもファイルさえアップすれば使えます。

7.Simpletest の webtestcase

番外編というか・・・。
ブラウザバック・フォワードまでエミュレートできます。
CakePHPで使うには少し気合とコツが入りますので調べてください。
(2.0からはphpunitになるようですが・・・)

公式。api。
http://www.simpletest.org/api/SimpleTest/WebTester/WebTestCase.html

使い方(英語)
http://www.lastcraft.com/web_tester_documentation.php

その他情報源 - google検索
http://www.google.co.jp/search?aq=f&gcx=c&sourceid=chrome&ie=UTF-8&q=simpletest+webtestcase

Comments:0

Comment Form
Remember personal info

Trackback+Pingback:0

TrackBack URL for this entry
http://reoto.com/archives/224/trackback/
Listed below are links to weblogs that reference
PHPでHTMLを解析する(その2 主にHTMLの取得方法) from ぼんずーず

Home > PHPメモ | 便利メモ > PHPでHTMLを解析する(その2 主にHTMLの取得方法)

タグクラウド
911 98 Acl add on ADSL ajax android apache api apxs bake bash bind borland BSE c++ cakephp centOS centOS5 centos6 chrome chroot clamav combobox configure cpan css css3 ctp curl C言語 database db dns dojo dom dos dovecot dreamweaver ECCUBE eclipse EM Excel exec php favicon firefox firewall git html http httpd ids IE8 iptables ipマスカレード java javascript jquery json lan lightbox linux Lithium mailserver make mbr model mongoDB movabletype mozc mysql nec nic oscommerce password pbr pbs pci pcre PDF pear perl php php4.3.9 php5.2 php5.3 phpexec phpのエラーコード plugin pop3 postfix pppoe Python ruby Ruby on Rails sftp simpletest SMAP Smarty smtp snort SPAM sql sqlite ssh sugarsync svn Synergy TCP/IP toitoiseSVN tripwire ubuntu uml validation vim vimperator VMwarePlayer vnc vps web webmin web開発 windows windowsXP wine Word wordpress xampp xml zen cart zen coding  androidアプリ えひめAI くしゃみ さくらvps ひかり ひかり接続 アキヒト アンチウィルス イカ インデックス エコ エラー オリンピック カスタマイズ カスタムフィールド カタカナ キーワードEYE シェルスクリプト シュレッダー ジーオーグループ スクリプト セキュリティ センター直前 ソルトレイク タコ ダイアルアップ ダウンタウン ツール テレビ テレホーダイ テロ デバッグ デュアルブート データサルベージ ネットショップ ネットワーク ハイライト バイク バックアップ バッファオーバーフロー バージョン切り替え バージョン管理 ファイル共有 フリーズ ブックオフ プラグイン プリンタ プログラミング プーチン マイケルジャクソン マコーレ・カルキン マルウェア メモ メール リキッドレイアウト リサイクル リビルド リポジトリ レイアウト レンタルサーバー 不満 事故 人生 仮想化 再生紙 別れ 加圧式ボールペン 参考サイト 受験 哲学 変数 夏目漱石 夢十夜 家族 島谷ひとみ 怠惰 怪奇 感謝 技術メモ 文字 文字コード 料理 楽天API 正月 歯痛 焼き豚 牛肉 理科年表 環境問題 生きる 画像 示談金 視覚 言葉 透過 開発環境 降水量 青画面 風邪 飲みすぎ google
検索
Feeds
Ads

Return to page top