همه می دانند که من نمی توانم بدون جوملا زندگی کنم، اما به نظر من، انجمن خوبدر قطعات، خیر. به همین دلیل من با موتورهای انجمن کار می کنم. یکی از موارد جدیدی که اخیراً شروع به استفاده از آن کردم، شروع یک دسته بندی جدید SMF است، امیدوارم با آن مواد مفید. ما شروع کوچک، خوب، به عنوان مبتدی بسیار مفید است.
اولین قدم ها در بهینه سازی موتور جستجو ماشین های سادهانجمن: حذف کپی رایت و لینک های خارجی
من فوراً رزرو می کنم که فقط با smf 2 کار می کنم و این مقاله به طور خاص به این نسخه از موتور انجمن رایگان اشاره خواهد کرد.
و بنابراین، خوانندگان معمولی می دانند که من چقدر دوست ندارم "10" پیوند خارجی را به سایت های رسمی موتورها، از جمله انجمن های انجمن، قرار دهم. به همین دلیل است که اول از همه، ما حق چاپ را حذف می کنیم و به 4، توجه 4 پیوند خارجی فرم " SMF 2.0.2 | ماشین های ساده | SMF © 2011 | XHTMLبرای انجام این کار، از طریق FTP forum/Themes/ به سایت متصل شوید نام تم شما/ و فایل را ویرایش کنید index.template.php. به طور طبیعی، در پایین کد (در مورد خط 330) وجود دارد که پیوندهای خارجی را نشان می دهد که ما چندان دوست نداریم. بنابراین، ما حذف می کنیم: "
بیایید بلافاصله با کد اسکریپت اصلی شروع کنیم:
#!/usr/bin/perl
اسکریپت # which-forum.pl
# (ج) 2010 الکساندر الکسیف، http://website/
سخت استفاده کنید؛
# خط نظر - برای سختگیری
# اگر وظیفه جمع آوری آمار موتور است، آن را همانطور که هست رها کنید
# اگر فهرستی از انجمنها تهیه میکنید - نظر خود را لغو کنید
$داده من ;
$data .= $_ در حالی که (<>
)
;
# بررسی کنید که چه تعداد توسط phpBB بدون پیوند پاورقی ارائه شده است این و سایر اسکریپت های ذکر شده در پست را می توانید در این آرشیو پیدا کنید. اسکریپت which-forum.plکد صفحه html را برای وجود امضاهای موتور انجمن در آن بررسی می کند. ما هنگام تعریف وردپرس و جوملا از تکنیک مشابهی استفاده کردیم، اما چند تفاوت وجود دارد. اولاً، خود اسکریپت کد صفحه را بارگذاری نمی کند، بلکه آن را از stdin یا فایلی که به عنوان آرگومان ارسال می شود، می خواند. این به ما این امکان را می دهد که یک بار مثلاً با استفاده از wget صفحه را دانلود کنیم و در صورتی که بیش از یکی داریم آن را از طریق چندین تجزیه کننده اجرا کنیم. ثانیاً در این فیلمنامه وجود امضا نشان 100% موتور است. دفعه قبل، وجود امضا فقط به موتور مربوطه وزن می داد و موتور با بیشترین وزن را "برنده" می کرد. من تصمیم گرفتم که در این مورد، چنین رویکردی فقط کد را به طور غیر ضروری پیچیده می کند. برای تست فیلمنامه، کمی تحقیق کردم. من فهرستی از چندین هزار فروم تهیه کردم و هر یک از آنها را از طریق اسکریپت خود اجرا کردم و از این طریق درصد فعال سازی برنامه ها و محبوبیت موتورهای مختلف را تعیین کردم. برای دریافت لیست انجمن ها، از تجزیه کننده گوگل خود استفاده کردم. موتور جستجوارسال درخواست مانند سایت:forum.*.ru و غیره شما می توانید کد کامل ایجاد کننده پرس و جو را در فایل پیدا کنید gen-forumsearch-urls.pl. علاوه بر منطقه .ru، .su .ua .kz و .by نیز استفاده شد. دفعه قبل انجام چنین مطالعه ای دشوار بود، زیرا سایت های وردپرس و جوملا چنین امضایی در URL ندارند. کاتالوگ هایی مانند cmsmagazine.ru/catalogue/ حجم نمونه کافی را ارائه نمی دهند. 600 سایت در دروپال چیست؟ باید اعتراف کنم که نتایج آزمایش من را ناامید کرد. از 12590 سایت مورد مطالعه، تنها 7083 موتور با موفقیت شناسایی شد، یعنی فقط در 56٪ موارد. شاید من موتور را در نظر نگرفتم؟ آیا Bitrix در نیمی از انجمن ها ایستاده است؟ یا باید زمان بیشتری را برای جستجوی امضا صرف می کردم؟ به طور کلی، در اینجا به تحقیقات بیشتری نیاز است. در میان 56 درصد موتورهایی که با موفقیت شناسایی شدند، IPB (31٪)، phpBB (26.6٪) و vBulletin (26.5٪) همانطور که انتظار می رفت محبوب ترین ها بودند. پس از آنها SMF (5.8٪) و DLEForum (5.3٪) قرار دارند. punBB مورد علاقه من فقط در مکان ششم (1.64٪) بود. من توصیه نمی کنم به شدت به این ارقام اعتماد کنید (آنها می گویند که هر سومین انجمن در Runet روی IPB کار می کند)، اما البته می توان نتیجه گیری های خاصی کرد. به عنوان مثال، اگر قصد دارید یک سایت در موتور فروم ایجاد کنید و قصد دارید تالار را تغییر دهید، مثلاً یک بار در هفته برای هر پیام 0.01 دلار به کاربران با برداشت خودکار وجه پرداخت کنید، باید یکی از سه موتور محبوب را انتخاب کنید. . هر چه انجمن محبوب تر باشد، احتمال بیشتری وجود دارد که برنامه نویسی را پیدا کنید که به خوبی در آن مسلط باشد. اگر هیچ تغییر قابل توجهی در موتور انتظار نمی رود، ممکن است منطقی باشد که یک موتور کمتر محبوب مانند SMF یا punBB انتخاب کنید. این باعث کاهش تعداد می شود حملات هکرهابه انجمن شما و میزان هرزنامه هایی که به صورت خودکار روی آن ارسال می شود. اسکریپت هایی برای جستجو/تعریف انجمن ها نیز می توانند بیش از یک فروم را پیدا کنند استفاده عملی. اولین چیزی که شخصاً به ذهن من رسید این بود که فروم های شناسایی شده را بر اساس TCI مرتب کنم و پست هایی را با پیوند به یکی از سایت های آنها در صد مورد اول قرار دهم. با این حال، صد لینک dofollow انجمن به هیچ وجه بر TIC تأثیری نداشته است (2 به روز رسانی گذشته است)، بنابراین بهتر است زمان را در اینجا تلف نکنید، مگر اینکه به انتقال علاقه مند باشید. واضح است که استفاده نامبرده از اسکریپت ها به دور از آن است. من فکر می کنم شما به راحتی می توانید بفهمید که چگونه می توانید از آنها استفاده کنید. سازماندهی شده توسط Botmaster Labs، برنامه ریزی نشده است. زمان زیادی وجود ندارد، ویدیو به عنوان یک روند جدید برای مسابقه مورد نیاز است، اگرچه توضیح همه چیز با اسکرین شات های خوب آسان تر است (IMHO من) و من واقعاً نمی خواهم چیزی فیلمبرداری کنم. تاپیک های سودآور بسیار کمی باقی مانده است، هرزنامه های گنگ دیگر اصلاً حکم نمی کند، اینجا باید فکر کنید و هیچ کس موضوع را شلیک نمی کند، اگر فقط منسوخ ها سعی کنند آن را در یک بسته بندی زیبا و کمی پودر کنند. :) اما این مربوط به ما نیست. به طور کلی، این 3 "نه"، من فکر می کنم، اساساً برای اکثر شرکت کنندگان بالقوه موانعی برای شرکت در مسابقه شدند. مانند تعمیر یک ماشین از سه: ارزان، با کیفیت، سریع - در سرویس آنها فقط می توانند 2 شرط را به طور همزمان انجام دهند. بنشین و آنچه را که به تو نزدیکتر است انتخاب کن :) مسابقه هم همینطوره: وقت دارم میتونم ویدیو بزارم اما موضوعی نیست یا میتونم ویدیو بسازم موضوع دارم ولی اصلا وقت ندارم یا هست وقت آزاد و یک موضوع کوچک وجود دارد، اما ویدیو ترسناک است. اما اگر 2 شرط همزمان رعایت شود خوب است. خوب، بیایید شعر را رها کنیم. به خودم ادامه خواهم داد. من قصد نداشتم، بنابراین در مسابقه شرکت خواهم کرد، حتی انتخاب کردم که به کدام مقاله رای بدهم. آنچه را که دوست دارید بگویید، اما Doz نرم افزار را به خوبی می شناسد و می داند که چگونه از آن بسیار معقول استفاده کند. اما امروز فهمیدم که دسیسه در مسابقه ظاهر شد. معلوم می شود که من نمی توانم رای بدهم، اما فقط مبتدیانی که نرم افزار را در سال 2011 خریداری کرده اند و مسابقه برای آنها طراحی شده است می توانند این کار را انجام دهند. من کمی تعجب کردم، اما صاحب آن یک آقا است. این مسابقه یک کمپین تبلیغاتی است و الکساندر بهتر می داند که چگونه آن را انجام دهد. به طور کلی، پس از آن تصمیم گرفتم مقاله ای ارسال کنم، زمانی که مشخص است برای چه کسی در واقع انجام این کار برای کل مزرعه جمعی غیرممکن است، نوشتن تا حدودی آسان تر است. ارائه شده توسط php-Fusion در نسخه 7.07 کرومر، این برنامه با چندین موتور جدید آموزش داده شده است: forumi.biz، forumb.biz، 1forum.biz، 7forum.biz، و غیره. phpBB-fr.com، موضوع سولاریس phpBB و روند یادگیری چیزهای جدید به طور مداوم ادامه دارد. پشتیبانی شده توسط SMF 1.1.2 پشتیبانی شده توسط SMF 1.1.3 پشتیبانی شده توسط SMF 1.1 RC2 پشتیبانی شده توسط SMF 1.1.4 پشتیبانی شده توسط SMF 1.1.8 پشتیبانی شده توسط SMF 1.1.7 "2006-2008، Simple Machines LLC" و این تمام نیست. هنگام جمعآوری نسخههای موتورها، برآمدگی "2001-2006، Lewis Media" را در پاورقی برخی از انجمنهای SMF مییابیم. ما این درخواست را بررسی می کنیم، همچنین ما را به طور کامل برآورده می کند. ما یک پرس و جو مشابه پیدا می کنیم: "2001-2005, Lewis Media". با اجرای فوترها، درخواست زیر را مییابیم: «طراحی SMFone توسط A.M.A، پورتشده به SMF 1.1». آن را بررسی کنید - عالی است. و غیره. نیم ساعت کار و شما یک پایگاه داده فوق العاده از پرس و جوها در موتور دارید و برای این پرس و جوها گوگل خیلی کمتر از زمانی که از اپراتورها در آنها استفاده کنید ممنوع می کند. و در عین حال، پایگاه داده شما بسیار تمیزتر از استفاده از پرس و جوهایی مانند "index.php?topic=" خواهد بود، زیرا در اینجا گوگل نه تنها انجمن های مورد نیاز ما را ارائه می دهد، بلکه منابع زیادی را نیز در جایی که امکان پذیر است ارائه می دهد. یک لینک به موضوع انجمن بگذارید شما می توانید بحث کنید، آنها می گویند، چه اشکالی دارد؟ دیگران یک لینک گذاشتند، بنابراین ما می توانیم. ولی! پیوندها نه تنها توسط Hrumer، بلکه توسط سایر برنامه ها نیز قابل ترک است. علاوه بر این، آنها را می توان به طور ویژه برای گذاشتن نظرات در یک منبع خاص، به اصطلاح نرم افزار بسیار تخصصی، تیز کرد، به علاوه چنین پیوندهایی را می توان با دست گذاشت. باز هم تکرار می کنم برای ما کمیت آشغال مهم نیست، کیفیت آن مهم است، به هر حال با درخواست های درست پایه را جمع آوری می کنیم. یک مثبت این روشهمچنین در این واقعیت که عملاً نیازی به پیکربندی نخواهید داشت صافی صافی
伟哥 - ویاگرا 吉他 - گیتار 其他 - استراحت 保险公司 - بیمه این کدها را در فایل Words قرار دهید تا جایگزین شوند: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 اگر سایتی را برای بیمه تبلیغ می کنید، پس با ارسال یک لینک در نمایه خود در یک موضوع (!) حتی یک انجمن چینی که در صورت درخواست یافت می شود " انجمن SMF" 保险公司بسیار خوب خواهد بود
چاپ "phpbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iیا
# $data =~ /viewforum\.php\?[^""]*f=\d+/i یا
$data =~ /phpBB\-SEO/i یا
$data =~ /)
;
چاپ "ipb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
یا
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/iیا
$data =~ /
$data =~ /index\.php\?[^""]*showforum=\d+/i)
;
چاپ "vbulletin \n"
اگر ($data =~ /طراحی شده توسط:؟[^<]+vBulletin[^<]+(?:Version)?/i
یا
$data =~ /)
;
چاپ "smf \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>طراحی شده توسط SMF/iیا
$data =~ /index\.php\?[^""]*board=\d+\.0/i)
;
چاپ "punbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/"[^>]*> PunBB/i) ؛ #یا
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
چاپ "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
چاپ "exbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ؛ # یا
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
چاپ "یاب \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/iیا
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
چاپ "dleforum \n"
اگر ($data =~ /\(طراحی شده توسط انجمن DLE\)<\/title>/منیا
$data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*"> انجمن DLE<\/a>/من)
;
چاپ "نماد \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/iیا
$data =~ /\n"
اگر ($data =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i یا
# $data =~ /topic\.php\?fid=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
چاپ "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
چاپ "تریبون \n"
# if($data =~ /topic\.php\?t=\d+/i یا
اگر ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
چاپ "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
چاپ "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
چاپ "yetanotherforumnet \n"
اگر ($data =~ /Yet Another Forum\.net/i یا
$data =~ /default\.aspx\?g=posts&t=\d+/i)
;
سایت:talk.*.ru
سایت:board.*.ru
سایت: smf.*.ru
سایت: phpbb.*.ru
....
مقدمه طولانی به پایان رسید، اکنون به اصل مطلب می پردازیم.
وقتی یک مبتدی چنین ابر دروگر را که مجتمع Xrumer + Hrefer است به دست آورده است، به چه چیزی نیاز دارد؟ درست است، یاد بگیرید که چگونه روی آن کار کنید و این توهم را دور بریزید که با شروع به ارسال هرزنامه می توانید درآمد کسب کنید. اگر اینطور فکر می کنید، فوراً پول خود را به امور خیریه اهدا کنید. شما باید یاد بگیرید که چگونه از ابزارهای مجموعه استفاده کنید، ترجیحاً آن را برای خود تیز کنید. زمان "بیشتر گرفتن - بیشتر پرتاب" به پایان رسیده است. کمیت جای خود را به کیفیت می دهد. بنابراین ما پایه را برای خودمان جمع آوری می کنیم، یاد نگیریم که چگونه این کار را انجام دهیم - شما پشت قطار خواهید افتاد. البته خفر در این امر به ما کمک خواهد کرد. اگر قصد دارید منابع خود را در Google تبلیغ کنید، باید از طریق Google نیز به دنبال سایت های اهدا کننده بگردیم. به نظر من این قابل درک و منطقی است. اما گوگل به عنوان معشوقه ی کوه مس، ثروت خود را به همه نمی بخشد. نیاز به رویکرد دارد. من می خواهم بلافاصله بگویم که امیدوار نباشید با توجه به علائمی که در مردم پیدا می کنید، بتوانید چیزی جمع آوری کنید. به همین دلیل است که آنها در معرض دید عموم قرار می گیرند زیرا ارزشی ندارند. من موضوع را بیشتر توسعه نمی دهم. بهتر است به شما بگویم که چگونه آن را به درستی مونتاژ کنید تا نتیجه را ببینید ، بقیه موارد را خودتان نهایی کنید ، نکته اصلی درک اصل است. لازم است که با توجه به نشانه های موتورهای خاص مورد نیاز خود، و نه به طور کلی به نشانه های انجمن ها، بر اساس صحیح جمع آوری کنیم. آی تی اشتباه اصلیمبتدیان - روی یک مورد خاص تمرکز نکنید، بلکه سعی کنید همه چیز را به طور کلی پوشش دهید. و با این حال، اگر می خواهید یک پایه کم و بیش عادی را تجزیه کنید، از استفاده از عملگرها در پرس و جوها خودداری کنید. بدون "inurl:"، "site:"، "عنوان" و غیره. گوگل فورا جستجوگرانی مانند شما را ممنوع خواهد کرد. بنابراین، موتورهایی را که با آن ها استفاده می کنند را به دقت مطالعه می کنیم این لحظه Hrumer کار می کند:
به طور کلی باید کوئری های صحیح را برای تجزیه توسط Khrefer آماده کنیم. بیایید انجمن dizhok را به عنوان مثال در نظر بگیریم. انجمن های SMF. و ما شروع به جدا کردن آن به قطعات برای تجزیه می کنیم. گوگل محبوب ما در این امر به ما کمک خواهد کرد. وارد کردن یک پرس و جو گوگل انجمن های SMF- تعداد زیادی زباله در این شماره وجود دارد، به صفحه سیزدهم برگردید و هر پیوندی را انتخاب کنید. من با این یکی برخورد کردم: http://www.volcanohost.com/forum/index.php?topic=11.0. بیایید آن را باز کنیم و کاوش کنیم. ما باید ویژگی خاصی را در صفحه پیدا کنیم که بتوان آن را برای جستجوی صفحات دیگر در این موتور اعمال کرد. در پاورقی متوجه کتیبه زیر می شویم پشتیبانی شده توسط SMF 1.1.14، آن را نقل می کنیم و وارد گوگل می کنیم، به ما نشان می دهد که برای این درخواست حدود 59 میلیون گزینه می شناسد. پیوندها را مرور می کنیم، چند گزینه دیگر به این کلمه کلیدی اضافه می کنیم، به عنوان مثال، صنوبر "طراحی شده توسط SMF 1.1.14".یا ارائه شده توسط SMF 1.1.14 viagra. ما متقاعد شده ایم که این درخواست شیک است، فقط در صدور انجمن ها و تقریباً هیچ زباله ای برای شما وجود ندارد.
علاوه بر این، همانطور که در بالا گفتم ما به کمیت علاقه نداریم، بلکه به کیفیت علاقه داریم. حرکت کن. از همان انجمن عبارت دیگری را از فوتر می گیریم: ، همچنین آن را نقل قول کنید و به گوگل بدهید. در پاسخ، او فاش می کند که بیش از 13 میلیون نتیجه را می داند. مجدداً خروجی را مرور می کنیم، کلمات اضافی اضافه می کنیم و خروجی را با آنها بررسی می کنیم. ما مطمئن می شویم که درخواست عالی است و همچنین تقریباً هیچ زباله ای وجود ندارد. به طور کلی، در حال حاضر 2 درخواست آهن وجود دارد. پیشنهاد می کنم فعلاً انجمن اول را به حال خود رها کنید و به جمع آوری درخواست ها از سایر انجمن ها ادامه دهید. خوشبختانه گوگل در صورت درخواست باز است 2006-2008 Simple Machines LLC. ما از این موضوع، به عنوان مثال، این انجمن ها را می گیریم: http://www.snowlinks.ru/forum/index.php?topic=1062.0 و http://litputnik.ru/forum/index.php?action=printpage; topic=380.0 در فوترها درخواست های زیر را از آنها دریافت می کنیم: "پاورده شده توسط SMF 1.1.7" و "پاورده شده توسط SMF 1.1.10" (من همیشه به شما توصیه می کنم درخواست های Khrefer را به صورت نقل قول هدایت کنید، زیرا ابتدا به کیفیت نیاز داریم. همه). من فکر می کنم واضح است که ما چه می کنیم، در پایان ما یک پایگاه داده مشخص از پرس و جوها برای جستجوی انجمن ها در موتور SMF خواهیم داشت (به عنوان مثال انتخاب شد، با بقیه موتورها مشابه است).
چیزی شبیه به این خواهد بود:
من فکر میکنم یادگیری نحوه استفاده صحیح از Chrefer در مرحله اولیه بسیار مهم است، زیرا با آموختن این موضوع، بدون توجه به تغییر وضعیت، همیشه میتوانید از Chrumer استفاده کنید. دفاع ها پیچیده تر می شوند و اگر در برخی از انواع موتورها محافظت را تقویت کرده اند و نمی توانند با آن کنار بیایند. این لحظههرومر، منطقی نیست که منابع را برای جمع آوری این پیوندها صرف کنیم، و سپس روی آنها به عنوان Hrumer کار کنیم، بهتر است روی آنچه نتیجه می دهد تمرکز کنیم. و در عین حال، اگر تیم Botmaster Labs چیز جدیدی به Chrumer آموزش داده باشد، می توانید به سرعت یک بیمار جدید را تشریح کرده و پایه کرومر را در حالی که بیمار هنوز گرم است آماده کنید. زمان پول است، ممکن است زمانی که پایه را خریداری می کنید، منبع دیگر مرتبط نباشد. توسط کسی جمع آوری شده است علاوه بر این، مجموعه صحیح پایه ها برای خودتان استفاده "سفید" از Khrumer را بسیار گسترش می دهد. و این دقیقا همان جایی است که همه چیز در حال حرکت است، چه بخواهیم و چه نخواهیم، اما روند سفید شدن یا خاکستری شدن در جریان است. ملحفه های سیاه برای هر چیزی که می توانید به گذشته بروید.
تمام جنبه های فنی دیگر کار با Hrefer را می توان در کمک مشاهده کرد و منطقی نیست که روی آنها تمرکز کنیم، همه اهداف-نقاط-ثانیه ها به صورت تجربی برای هر خودرو به صورت جداگانه تنظیم می شوند.
به عنوان یک امتیاز، من در اینجا یک الگو برای تجزیه موتور جستجوی چینی بایدو پست میکنم، روز پیش از من در مورد آن سؤال شد، بنابراین در بین زمانها این کار را انجام دادم، با عرض پوزش برای جناس. :)
نام میزبان=http://www.baidu.com
Query=s?wd=
LinksMask=
مجموع صفحات=100
صفحه بعدی=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
من سعی کردم آنها را تجزیه کنم، ممنوعیتی وجود نداشت، خریفر سریع منابع را جمع آوری کرد، همه درخواست های تجزیه شبیه به گوگل بود، اما منابع چینی زیاد بود و با روابط عمومی بالا و علاوه بر آن جاهای زیادی وجود داشت. جایی که اروپایی ها پا نگذاشته بودند. بهتر است با درخواست های چینی تجزیه شود. Google Translate در این مورد کمک می کند، لیستی از کلمات کلیدی را به زبان روسی تایپ کرده و آن را به چینی ترجمه کنید. حقیقت در کلمات«کلمات کرفر را نمی توان به زبان چینی کنار هم گذاشت، آنها باید دوباره رمزگذاری شوند.
به جای چینی:
در خاتمه می خواهم بگویم که من هرگز افرادی را که از بد بودن یا تجزیه نکردن خرف ها شکایت می کردند درک نکردم ، همیشه می خواستم این را بگویم ، فقط نمی دانید چگونه آنها را بپزید. هیچ تجزیه کننده ای بهتر از ارجاع دهنده نیست، فقط باید درست باشد. Hrefer یک ماشین است: خوب، جامد، ساخته شده به زبان آلمانی، اما یک شخص آن را کنترل می کند و همه چیز به میزان هوشمندی آن بستگی دارد، شما نمی توانید ماشین را مجبور کنید همزمان به راست و چپ برود.
یه تاپیک جدا تمیز کردن پایه هاست من یکبار 3 سال پیش برای مسابقه قبلی. از آنجا بیشتر ، همه چیز هنوز مرتبط است ، اما اکنون می توانید از بررسی 200 OK خودداری کنید ، من واقعاً این روند را دوست نداشتم ، خطاها بسیار زیاد بودند ، بسیاری از موارد اضافی فیلتر شدند. اکنون می توان این کار را تقریباً به طور خودکار در طول کار کرومر انجام داد، اگرچه این فرآیند یک آنالوگ کامل برای بررسی "200 OK" نیست. به طور کلی، نکته: چندی پیش، یک فرصت فوق العاده در Khrumer ظاهر شد - برای سرقت اطلاعات از منابع در زمان اجرای پروژه. به نظر می رسد این است. شما در قالبی رانندگی می کنید که در حین کار پردازش می شود و اطلاعات جمع آوری شده مطابق الگو در فایل xgrabbed.txt در پوشه Logs وارد می شود. شما می توانید از این عملکرد برای هر چیزی استفاده کنید، پرواز فانتزی بسیار زیاد است. من از این تابع یک بار در هفته برای حذف پیوندها از پایگاه داده کار "منقضی شده" استفاده می کنم. این راز نیست که انجمن ها هر روز به منظور پاکسازی پایگاه از چنین منابعی از بین می روند و ابزار "Autogabbing" در این مورد به ما کمک می کند.
پس از همه، شما باید اعتراف کنید، اغلب با تایپ کردن، به عنوان مثال، http://www.laptopace.com/index.php، می بینیم که این دامنه قبلا، به عنوان مثال، goudyadya است، اما هیچ انجمنی در آنجا وجود ندارد. پس برای اینکه این سرباره را از پایه بیرون بیاندازیم دستبرد میزنیم. :) ما کد منبع صفحه را باز می کنیم و این ورودی را در آنجا می بینیم:
اکنون همه "مردگان" گودادی به نام برای ما شناخته می شوند.
اگر میخواهید پایگاه داده را از دامنههای مختلف «منقضی شده» پاک کنید، در اینجا یک انتخاب کوچک برای ابزار "Autograbbing" وجود دارد: